跳转到主要内容

简短的研究报告的文章

前面。Artif。智能。,26 January 2023
秒。模式识别
卷6 - 2023 | https://doi.org/10.3389/frai.2023.1099022

自动检测的海豚学习功能与卷积网络和传输

  • 1帕多瓦大学信息工程系,意大利帕多瓦
  • 2帽匠的海洋技术、海法大学、以色列海法
  • 3普通心理学、帕多瓦大学、意大利的帕多瓦
  • 4帕多瓦大学数学系,意大利帕多瓦

海上环境的有效保护濒危物种和野生动物管理需要实现高效、准确的环境监测和可伸缩的解决方案。Ecoacoustics提供非侵入性的优势,长期采样环境声音和有潜力成为生物多样性调查的参考工具。然而,声波数据的分析和解释是一个耗时的过程,通常需要大量的人力监督。这个问题可能是利用现代技术解决自动音频信号分析,最近取得了令人印象深刻的性能由于深度学习研究进展。在本文中,我们表明,卷积神经网络确实可以大大优于传统的自动检测方法在一个具有挑战性的任务:从水下海豚口哨录音的识别。该系统可以检测信号即使在环境噪声的存在,同时不断减少的可能性产生假阳性和假阴性。我们的研究结果进一步支持采用人工智能技术来提高海洋生态系统的自动监测。

1。介绍

系统监测海洋生态系统的一个重要目标是促进可持续发展和自然保护的保证。开发和测试创新监控系统因此迅速成为研究议程的优先级,和现代技术已经显示出巨大的潜力来推进我们对海洋的了解社区和它们的栖息地(Danovaro et al ., 2016)。

水下声学方法被广泛用于调查活动由于敏感目标检测和分类的能力即使在低能见度条件下;此外,被动声学技术(例如,水听器)允许执行非侵入性的持续的监控没有干扰生物过程(Sousa-Lima et al ., 2013)。值得注意的是,大多数种类的海洋哺乳动物声学专家,依靠声音来沟通、繁殖、觅食和导航的目的。在这里,我们专注于检测功能的任务产生的宽吻海豚(语truncatus),它可以生产各式各样的声音呼吁沟通目的(审查,请参阅Janik Sayigh, 2013)。

传统bioacoustic工具来检测odontocete叫声通常依赖于模板匹配或音频谱图的算法分析。例如,在参考方法所追求的Gillespie et al。(2013)三个噪声去除算法首先应用于声音的谱图数据,然后连接区域搜索进行的连接部分光谱图超出预先确定的阈值和关闭的时间和频率。类似的技术利用概率霍夫变换算法来检测脊类似厚线段,然后调整的潜在功能的几何图像通过主动轮廓算法(Serra et al ., 2020)。其他基于算法的方法旨在量化变化复杂性(随机)发生在声包含发声时间序列,例如通过测量信号熵(Siddagangaiah et al ., 2020)。

然而,自动环境监测现在可以更有效的部署基于人工智能的测量技术。事实上,深层神经网络显示巨大的潜力在声音检测(穆勒et al ., 2021)和水声监控(Testolin和钻石,2020;Testolin et al ., 2020),最近的研究表明,深度学习在大型数据集可以识别的信号比人类更大的一致性分析,导致显著的优势在准确性方面,海洋监测的效率和成本(Ditria et al ., 2022)。特别是,卷积神经网络(CNN) (勒存et al ., 1995)已被应用于检测鲸鱼叫声,产生假阳性率数量级低于传统算法,同时大幅提高检测能力调用(江et al ., 2019;萧若元et al ., 2020)。深度学习也被用于为特定类别(自动分类海豚的哨声李et al ., 2021)和提取哨子轮廓利用峰值跟踪算法(李et al ., 2020)或通过训练CNN-based语义分割模型(金et al ., 2022)。

我们进一步证明深度学习模型替代算法的优势方法通过测试的检测能力卷积神经网络在大规模数据集的录音,收集的一系列海上实验和仔细标记由人类专家。我们表明,深度学习模型的性能大大超过传统的算法,和我们进一步表明,转移学习(锅和阳,2009年从pre-trained模型)是一种很有前途的方法来进一步提高检测精度。海豚的完整数据集记录为本研究收集存储在云服务器和公开下载(数据集,2022)。

2。方法

2.1。数据集

我们创建了一个大型的数据库录音通过利用一个白手起家的声学记录器组成覆盆子Pi-Nano,声卡采样96 kHz@3B,前置放大器,一组电池,两个Geospectrum M18水听器,和一个定制的住房。记录器由潜水员在50米的深度约200 m的海豚在埃拉特的珊瑚礁,以色列。使用浮点数,由将海底1.5米之上。从部署图片所示图1。录音机是不断日志flac文件27天的2021年夏季期间:一旦恢复,数据通过了质量保证(QA)程序删除零星的碎屑和广泛的噪音。QA涉及取消瞬态噪声的小波去噪,并确定删除和丢弃截止活动由阈值和偏见。

图1
www.雷竞技rebatfrontiersin.org

图1。部署的声学记录器与海豚检查操作。照片从埃拉特部署站点在50米的深度。

2.2。数据预处理和数据标记

的数据经过带通滤波器5 - 20 kHz范围以适应大多数海豚的哨子的声音,并通过美白旨在纠正涟漪的水听器的过滤器的开路电压响应和声卡的敏感性。录制的音频文件由2频道,平均在创建声音之前为了减少噪声(见例子图2)。我们的预处理管道也删除信号异常值基于他们的长度,使用quartiles-based图基方法(图基,1949)。这导致丢弃信号超过0.78,短于0.14年代。

图2
www.雷竞技rebatfrontiersin.org

图2。可视化的光谱图(上)和原始音频数据(底部)包含海豚吹口哨的代表性样本在时频块(曲线)。我们的检测系统接收输入两个记录频道的平均值。

海豚的声音(口哨然后由计算短时使用MATLAB的快速傅里叶变换的信号光谱图从数字信号处理工具箱函数,使用Blackman窗函数以2048分,定期采样和跳大小通过窗口长度乘以0.8。随后的谱图计算通过将信号窗口0.4 s。光谱图终于由应用灰度colormap图像,转换kHz的频率和功率谱密度dB和限制轴3至20 kHz关注最相关(主要)频率范围(琼斯等人。,2020年)。

谱图然后手动标记在两个阶段:一位人类专家(1)标记标签和(2)验证标记。前者涉及准确的注释5 s声音(超过10天的数据收集,为了训练初步版本的深度学习分类器被用来选择新的录音部分包含假定的海豚的声音。这允许更有效的标签剩余的数据在验证标记阶段,只涉及到积极的验证样本初步检测到的深度学习分类器。尽管初步分类的准确性不高,在这里公布最终的分类器,它仍然允许显著加速标签过程自动选择部分或录音,最有可能包含海豚吹口哨。

人类专家奉命识别海豚的哨声在时频域曲线和忽视船舶辐射噪声产生的轮廓线。直接歧视挑战时,专家听录制的音频轨道识别whistle-like声音。标记了一个二进制分类(吹口哨和噪声)和轮廓线标记的时频特征确定吹口哨。后者被用来探索人工标记的质量通过检查确定吹口哨的带宽满足预期的海豚的哨声阈值,即3至20 kHz。第二个质量评估是由测量的声强度的方差确定吹口哨时频等高线,我们期望的一个有效的哨子声强度稳定。

2.3。基线检测方法

作为基准检测方法我们使用PamGuard (Gillespie et al ., 2013),这是一个流行的软件专门开发自动识别声音的海洋哺乳动物。PamGuard的工作参数设置如下:

•“声音采集模块从“声音处理”部分添加到处理数据采集设备和其他模块传输数据;

•“FFT(谱图)引擎”从“声音处理”部分模块添加到计算谱图;

•“吹口哨和呻吟探测器”模块从“探测器”部分添加到捕捉海豚吹口哨;

•“二进制存储”从“实用工具”部分模块从各个模块添加到存储信息。

•“用户显示“模块添加“显示”部分是为了创建一个新的光谱图显示。

创建输入谱图使用FFT分析上面所描述的那样,使用相同的参数:FFT窗长度设置为2048点,跳的大小被设置为使用Blackman窗的长度乘以0.8的“FFT(谱图)引擎”模块在软件设置。频率范围是3到20 kHz,和“FFT(谱图)引擎噪音自由金融交易税数据”被选为FFT的数据来源“吹口哨和呻吟探测器”模块设置。在创建一个新的光谱图显示,面板的数量设置为2可视化两个频道。PamGuard输出被认为是一个真正的阳性检测如果信号窗口被软件重叠信号间隔至少5%的地面真理。虽然这似乎是一个宽容的准则,它允许考虑许多PamGuard检测,否则会被丢弃。

2.4。深度学习检测方法

我们探讨了两种不同的深层神经网络架构:香草CNN和pre-trained CNN基于VGG16架构用于目标识别(Simonyan Zisserman, 2014)。注意,谱图图片大小224 x 224,转化为三维张量为了匹配VGG所需的输入通道的数量。这仅仅是通过复制相同的图像三维数组。图像像素归一化每个灰度强度值除以255。

香草CNN模型包括两个卷积层交错与马克斯池层(池大小= 2)和辍学层(辍学系数= 0.2)。16和32内核使用的卷积层,分别与内核大小的(7.7)和(5.5),和一个跨步2的价值。最后卷积层被夷为平地,美联储2完全包含32个和16个节点的连接层,分别。所有层使用ReLU激活函数;只有输出层softmax激活使用。模型训练用亚当优化器的初始学习速率0.0001。

学习架构,实现转移层的顶部pre-trained VGG16取而代之的是2个新的完全连接与大小50 - 20层,分别可训练的参数被设置为“真正的。“这使得优化器共同训练VGG模型的所有图层,也为了调整低级特性的新数据域。ReLU激活函数用于完全连接层,而输出层softmax激活使用。模型训练用亚当优化器的初始学习速率0.00001。

在这两种情况下,使用二叉叉作为损失函数和过度拟合被使用早期停止监控标准(15世纪)的耐心参数应用于一个单独的验证集。深度学习模型使用Tensorflow实现(Abadi et al ., 2016)。所有模型hyperparameters自动优化使用Optuna框架(https://optuna.org/),考虑以下范围:

•香草CNN的回旋的层数(最小2最大4)。

•VGG的致密层数和香草CNN(最小1最大3)。

•学习速率(最小0.00001最大0.01)。

•致密层的单位数量(最小5最大100)。

•香草CNN的滤波器卷积层数量(最小8到最大256)。

•滤波器卷积层的大小对香草CNN(最低3×3 - max 7×7)。

•耐心参数对早期停止(最小5最大20。

•辍学率,如果辍学(最小0.1最大0.3)补充道。

2.5。评估过程

保证一个健壮的评估我们的检测方法,数据集分成单独的训练集和测试集。训练集只包含声音从音频文件记录7月24日至7月30日,在测试集只包含声音记录的音频文件在7月13日和7月15日之间。这允许测试模型的泛化性能通过一组完全不同的录音,因此评价海洋环境探测精度与变量。总的来说,训练集包含108317色,其中49807被标记为噪声和58510年海豚吹口哨。测试集包含6869色,其中4212被标记为噪声和2657年被标记为海豚吹口哨。训练集随机打乱,然后进一步分成训练集和验证集,使用5倍交叉验证。交叉验证是使用的“StratifiedKFold”功能实现scikit-learn图书馆为了确保每个验证集包含的数据量平衡两类。交叉验证后,所有训练数据被用来生成最终的模型。

模型表现单独测试集被可视化评估计算意味着检测准确性和混淆矩阵。真阳性率和假阳性率也为了计算精度计算/召回,产生接受者操作特征(ROC)曲线,测量相应的曲线下面积(AUC) (戴维斯和Goadrich, 2006年):

P r e c 年代 o n = T P T P + F P ; R e c 一个 l l = T P T P + F N ; T r u e P o 年代 t v e R 一个 t e = T P T P + F N ; F 一个 l 年代 e P o 年代 t v e R 一个 t e = F P F P + T N ( 1 )

在哪里TP表明真正的阳性,TN真正的底片,《外交政策》假阳性,FN假阴性。

3所示。结果

香草CNN模型取得了引人注目的意思是检测精度为80.6%,明显优于PamGuard基线,达到了66.4%。最值得注意的是,VGG模型实现转移的表现更让人印象深刻的学习方法,达到平均92.3%的检测精度。

深度学习模型的优点是更引人注目的,当考虑到混淆矩阵:所示图3,虽然真正的底片(标签= 0)是比较不同方法,真正的阳性的数量非常高深度学习模型,特别是对于VGG架构。的低灵敏度PamGuard突出显示了很高的假阴性(n= 2139),表明这个方法不是很有效地识别海豚口哨当信噪比水平检测特别具有挑战性。VGG模型实现更高性能的精密(VGG = 90.5%;香草CNN = 70.7%;PamGuard = 75.5%)和召回(VGG = 89.6%;香草CNN = 85.1%;PamGuard = 19.5%)。

图3
www.雷竞技rebatfrontiersin.org

图3。混淆矩阵的深度学习模型(香草CNN和VGG转移学习)和PamGuard基线。

中华民国曲线和AUC成绩报告图4允许进一步深入学习模型的性能进行比较。VGG架构是明显的优越的精度也在这种情况下,接近理想的分类器的性能。

图4
www.雷竞技rebatfrontiersin.org

图4。接受者操作特征(ROC)曲线和相应的曲线下面积(AUC)值的深度学习模型。

4所示。讨论

人类海洋活动大幅增加,我们的海洋已成为船舶填充投射声学排放极高的力量,常常影响地区20多公里2。从大型船舶水下辐射噪声级可以超过100 PSI清晰扰动影响听力,自导和海洋哺乳动物的觅食能力特别是沿海海豚(Ketten 2008;Erbe et al ., 2019)。因此,监测海洋生态系统和海洋生物一个至关重要的任务,促进环境保护。

然而,传统的监控技术依赖于最优检测方法,限制进行长期和大规模调查的可能性。自动检测方法可以极大地改善我们的测量能力,但是算法的解决方案不能达到令人满意的性能在高水平的背景噪音的存在。在本文中,我们表明,现代深度学习的方法可以检测海豚口哨一个令人印象深刻的准确性,因此适合成为新的标准对水声信号的自动处理。虽然需要进一步的研究来验证这些方法在不同的海洋环境和不同的动物物种,我们相信,深度学习最终将使成本效益监测平台的创建和部署。

数据可用性声明

最初的贡献提出了研究中都包含在本文/辅料,可以针对相应的作者进一步询问。

道德声明

伦理审查和批准没有所需的动物研究,因为我们的研究只利用被动声学监测设备,不干扰海洋动物。

作者的贡献

RD和导致的概念和设计研究。RD执行海上实验,提供了录音数据库。BN和在设计深度学习模型。BN模型和实现进行了分析。GD执行数据标签。所有作者导致稿件写作,修改,阅读,和批准提交的版本。

资金

资助这项研究的部分资金来自海法大学的科学研究中心的数据。

的利益冲突

作者声明,这项研究是在没有进行任何商业或财务关系可能被视为一个潜在的利益冲突。

出版商的注意

本文表达的所有索赔仅代表作者,不一定代表的附属组织,或出版商、编辑和审稿人。任何产品,可以评估在这篇文章中,或声称,可能是由其制造商,不保证或认可的出版商。

引用

(2022)。链接到公开可用的存储库包含我们所有的原声录音。网上:https://csms-acoustic.haifa.ac.il/index.php/s/2UmUoK80Izt0Roe(2022年1月11日,访问)。

Abadi, M。,Barham, P., Chen, J., Chen, Z., Davis, A., Dean, J., et al. (2016). “Tensorflow: a system for large-scale machine learning,” in12日USENIX研讨会上操作系统的设计和实现佐治亚州萨凡纳(:USENIX), 265 - 283。

Danovaro, R。,Carugati, L., Berzano, M., Cahill, A. E., Carvalho, S., Chenuil, A., et al. (2016). Implementing and innovating marine monitoring approaches for assessing marine environmental status.前面。3月科学。3,213。doi: 10.3389 / fmars.2016.00213

CrossRef全文|谷歌学术搜索

戴维斯,J。,和Goadrich, M. (2006). “The relationship between precision-recall and roc curves,” in学报》第23届国际会议上机器学习(宾夕法尼亚州匹兹堡:计算机协会),233 - 240。

Ditria, e . M。,Buelow, C. A., Gonzalez-Rivero, M., and Connolly, R. M. (2022). Artificial intelligence and automated monitoring for assisting conservation of marine ecosystems: a perspective.前面。3月科学。9日,918104年。doi: 10.3389 / fmars.2022.918104

CrossRef全文|谷歌学术搜索

Erbe C。,Marley, S. A., Schoeman, R. P., Smith, J. N., Trigg, L. E., and Embling, C. B. (2019). The effects of ship noise on marine mammals-a review.前面。3月科学。6、606。doi: 10.3389 / fmars.2019.00606

CrossRef全文|谷歌学术搜索

Gillespie, D。Caillat, M。,戈登,J。,和White, P. (2013). Automatic detection and classification of odontocete whistles.j . Acoust。Soc。点。134年,2427 - 2437。doi: 10.1121/1.4816555

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Janik, v . M。,和Sayigh, L. S. (2013). Communication in bottlenose dolphins: 50 years of signature whistle research.j . Comp。杂志。一个199年,479 - 489。doi: 10.1007 / s00359 - 013 - 0817 - 7

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

江,j j。但是,L.-r。,Duan, F.-j., Wang, X.-q., Liu, W., Sun, Z.-b., et al. (2019). Whistle detection and classification for whales based on convolutional neural networks.达成。Acoust。150年,169 - 178。doi: 10.1016 / j.apacoust.2019.02.007

CrossRef全文|谷歌学术搜索

金,C。,Kim, M., Jang, S., and Paeng, D.-G. (2022). Semantic segmentation-based whistle extraction of indo-pacific bottlenose dolphin residing at the coast of jeju island.生态。表明。137年,108792年。doi: 10.1016 / j.ecolind.2022.108792

CrossRef全文|谷歌学术搜索

琼斯,B。,Zapetis, M., Samuelson, M. M., and Ridgway, S. (2020). Sounds produced by bottlenose dolphins (tursiops): a review of the defining characteristics and acoustic criteria of the dolphin vocal repertoire.生物声学29日,399 - 440。doi: 10.1080 / 09524622.2019.1613265

CrossRef全文|谷歌学术搜索

Ketten d r (2008)。水下的耳朵和生理的影响:比较听力损失责任在海龟,鸟类和哺乳动物。生物声学17日,312 - 315。doi: 10.1080 / 09524622.2008.9753860

CrossRef全文|谷歌学术搜索

LeCun (Y。,和Bengio, Y. (1998). “Convolutional networks for images, speech, and time series,” in大脑理论和神经网络的手册埃德·m·a·阿尔贝勃(剑桥,麻州:麻省理工学院出版社)。

李,L。,Qiao, G., Liu, S., Qing, X., Zhang, H., Mazhar, S., et al. (2021). Automated classification of tursiops aduncus whistles based on a depth-wise separable convolutional neural network and data augmentation.j . Acoust。Soc。点。150年,3861 - 3873。doi: 10.1121/10.0007291

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

李,P。,Liu, X., Palmer, K., Fleishman, E., Gillespie, D., Nosal, E.-M., et al. (2020). “Learning deep models from synthetic data for extracting dolphin whistle contours,” in2020年国际神经网络(IJCNN)联合会议(格拉斯哥:IEEE), 1 - 10。

穆勒,R。,Illium, S, Ritz, F, and Schmid, K. (2021). “Analysis of feature representations for anomalous sound detection,” in学报》13日代理和人工智能国际会议——卷2:ICAART INSTICC(SciTePress), 97 - 106。

谷歌学术搜索

锅,s . J。,和Yang, Q. (2009). A survey on transfer learning.IEEE反式。"。数据中。22日,1345 - 1359。doi: 10.1109 / TKDE.2009.191

CrossRef全文|谷歌学术搜索

塞拉,O。,Martins, F., and Padovese, L. R. (2020). Active contour-based detection of estuarine dolphin whistles in spectrogram images.生态。通知。55岁,101036。doi: 10.1016 / j.ecoinf.2019.101036

CrossRef全文|谷歌学术搜索

萧若元,Y。,P一个lmer, K., Roch, M. A., Fleishman, E., Liu, X., Nosal, E.-M., et al. (2020). Deep neural networks for automated detection of marine mammal species.科学。代表。1 - 12。doi: 10.1038 / s41598 - 020 - 57549 - y

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Siddagangaiah, S。陈,张炳扬。、胡、观测。,一个kamatsu, T., McElligott, M., Lammers, M. O., et al. (2020). Automatic detection of dolphin whistles and clicks based on entropy approach.Ecol.Indicat。117年,106559年。doi: 10.1016 / j.ecolind.2020.106559

CrossRef全文|谷歌学术搜索

Simonyan, K。,和Zisserman, A. (2014). Very deep convolutional networks for large-scale image recognition.arXiv预印本arXiv: 1409.1556

谷歌学术搜索

Sousa-Lima, r S。诺里斯,t·F。奥斯瓦尔德,j . N。,和Fern和e年代,D. P. (2013). A review and inventory of fixed autonomous recorders for passive acoustic monitoring of marine mammals.Aquat。哺乳动物39岁的23-53。doi: 10.1578 / AM.39.1.2013.23

CrossRef全文|谷歌学术搜索

Testolin,。,和Diamant, R. (2020). Combining denoising autoencoders and dynamic programming for acoustic detection and tracking of underwater moving targets.传感器20日,2945年。doi: 10.3390 / s20102945

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Testolin,。Kipnis D。,和Diamant, R. (2020). Detecting submerged objects using active acoustics and deep neural networks: A test case for pelagic fish.IEEE反式。移动第一版。21日,2776 - 2788。doi: 10.1109 / TMC.2020.3044397

CrossRef全文|谷歌学术搜索

图基,j . w . (1949)。比较个人意味着在方差分析。生物识别技术。5,99 - 114。doi: 10.2307 / 3001913

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

关键词:水声探测、被动声学监测、海洋生物学、环境监测、谱图分析,深入学习,VGG PamGuard

引用:努尔Korkmaz B,钻石R, Danino G和Testolin海豚的(2023)自动检测功能与卷积网络和传输的学习。前面。Artif。智能。6:1099022。doi: 10.3389 / frai.2023.1099022

收到:2022年11月15日;接受:2023年1月10日;
发表:2023年1月26日。

编辑:

康斯坦丁·马尔可夫Aizu大学日本

审核:

Mehul美国艾印度艾哈迈达巴德大学
Evaldas Vaiciukynas,立陶宛考纳斯科技大学

版权©2023努尔Korkmaz,钻石,Danino Testolin。这是一个开放分布式根据文章知识共享归属许可(CC)。使用、分发或复制在其他论坛是允许的,提供了原始作者(年代)和著作权人(s)认为,最初发表在这个期刊引用,按照公认的学术实践。没有使用、分发或复制是不符合这些条件的允许。

*通信:Alberto Testolin是的alberto.testolin@unipd.it

下载