《Two Convolutional Neural Networks for Bird Detection in Audio Signals》阅读笔记

本文作者Thomas Grill和Jan Schlüter参加了Bird Aduio Detection 2017(以下简称BAD)[3],获得了第一名,并将代码开源[4]并写出了本篇论文[1]。本文是针对次论文的阅读笔记。

1. 介绍

参与了BAD 2017竞赛,并提交了两个系统bulbul和sparrow,两个系统都是使用的是声谱图(spectrogram)加CNN的方法。其中bulbul获得了第一名。

2. 数据

2.1 数据资源

freefield1010,是freesound上面得到的,从不同的环境和设备录制。

Warblr,从一个鸟密集的地区录制的,地点是英国,有不同的背景音,比如人声、环境交通噪声等。

Chernobyl,是一个鸟远程监控项目得到的数据集。

2.2 数据结构

开发集是freefield1010(7690个样本,25%鸟叫)和Warblr(8000个样本,76%是鸟叫)。

评估集主要是Chernobyl和一小部分Warblr,共8620个样本。

3. 方法

共采用了两种方法,均使用了feed-forward CNN 与 Mel-scaled log-maganitude spectrograms。

使用了两种方法,一种叫做bulbul,一种是sparrow。

3.1 输入特征

音频采样率22.05khz,帧长1024,帧移315,使用1024的stft。bulbul使用的频段是50Hz-11kHz,sparrow使用50Hz-10kHz(留着做pitch-shifting)。

3.2 bulbul

输入是1000帧(14s),网络结果如图

3.3 sparrow
bulbul和sparrow的网络参数说明
3.4 训练

batch size, bulbul为64,sparrow为32。学习率0.001。

update大约都在8w次,这里有疑惑的,如果理解为一个batch为一个update,那么转换过来也就320个epcoh。如果理解为8w个epoch,这也太多了。

dropout在全连接层都加了,三个,都为0.5。

3.5 预测

使用的五折交叉验证。

4. 结果

分别结果如下图

bulbul的结果 sparrow的结果

5. 结论

使用bulbul得到了88.7%的auc,其他网络也近似如此,除非网络结构有大的变化,否则不会有太多提升空间了。

参考资料

  1. https://ieeexplore.ieee.org/document/8081512/
  2. http://yucc.me/p/d61fa53b/
  3. http://machine-listening.eecs.qmul.ac.uk/bird-audio-detection-challenge/
  4. https://jobim.ofai.at/gitlab/gr/bird_audio_detection_challenge_2017/tree/master
谢谢你,可爱的朋友。
显示 Gitment 评论