中国科技核心期刊      中国指挥与控制学会会刊     军事装备类重点期刊
理论研究

基于数据增广的声学场景分类

  • 李源 1 ,
  • 马成男 2 ,
  • 李关防 2 ,
  • 王强 2 ,
  • 张文武 2
展开
  • 1.海装重大专项装备项目管理中心, 北京 100071
  • 2.江苏自动化研究所, 江苏 连云港 222061

作者简介:李 源(1983—),男,辽宁本溪人,工程师,研究方向为智能指挥与控制。

马成男(1993—),男,硕士,助理工程师。

Copy editor: 张培培

收稿日期: 2020-11-16

  修回日期: 2020-12-04

  网络出版日期: 2022-04-29

Acoustic Scene Classification Based on Data Augment Technology

  • LI Yuan 1 ,
  • MA Cheng-nan 2 ,
  • LI Guan-fang 2 ,
  • WANG Qiang 2 ,
  • ZHANG Wen-wu 2
Expand
  • 1. Navy Marine Equipment Project Management Center, Beijing 100071
  • 2. Jiangsu Automation Research Institute, Lianyungang 222061, China

Received date: 2020-11-16

  Revised date: 2020-12-04

  Online published: 2022-04-29

摘要

声学场景分类是计算机听觉领域的热点方向之一,相比计算机视觉,特定场景下音频数据的收集和标注成本相对较高,如何利用有限的声学场景音频获得较高的分类准确率成为当前研究的重点内容。利用深度学习技术,结合轻量化网络模型mobilenetv2以及Mel声谱特征,基于城市场景分类数据集(urbansound8k)对三种数据增广技术SpecAugment、Mixup以及Cutmix进行全面的消融实验,结果表明:Cutmix增广技术将基线结果提升了0.71%,单独的Mixup以及SpecAugment增广技术对分类结果起抑制效果,SpecAugment结合Cutmix增广技术获得了最优的测试结果,分类准确率达到97.097%;其次对比最优方案下各类标签的F1分数和T-SNE降维分布图发现,二者具有很好的对应关系,表明T-SNE技术适用于Mel声谱特征的降维及分布观测。

本文引用格式

李源 , 马成男 , 李关防 , 王强 , 张文武 . 基于数据增广的声学场景分类[J]. 指挥控制与仿真, 2021 , 43(1) : 60 -64 . DOI: 10.3969/j.issn.1673-3819.2021.01.011

Abstract

Acoustic scene classification is one of the hot topics in the field of computer hearing. Compared with computer vision, the cost of audio data collection and annotation in specific scenes is relatively high. How to use limited acoustic scene audio to obtain higher classification accuracy has become the focus of current research. In this paper, using deep learning technology, combined with the lightweight network mobilenetv2 and Mel spectral features, based on the urban scene classification dataset (urbansound8k), three kinds of data augmentation technologies, SpecAument, Mixup and Cutmix are carried out. The results show that the Cutmix augmentation technology can improve results by 0.71%. The separated Mixup and SpecAument augmentation technology inhibite the classification results. The best test result is obtained by combining SpecAument with Cutmix augmentation technology, and the classification accuracy reaches 97.097%. Secondly, through the comparison of F1 score of all kinds of labels under the optimal scheme and the distribution map using T-SNE, it is found that the two have a good corresponding relationship, which indicates that T-SNE technology is suitable for dimension reduction and distribution observation of Mel Spectrogram.

声音中携带了大量与人类日常生活息息相关的环境信息,通过这些信息人们可以准确感知自己所处的声音场景。声学场景分类(Acoustic Scene Classification, ASC)[1]是利用机器模型对声音信号自动进行分析并识别所处的环境内容。声学场景分类的应用广泛,如安全监控、助听器设备、智能家居以及智能控制设备等。由于音频数据中往往存在复杂的噪声,早期传统的分类器,使用K近邻模型以及隐马尔可夫模型等进行建模分类,效果并不理想,随着神经网络的发展,以及声学场景和事件检测及分类竞赛(Detection and Classification of Acoustic Scenes and Events, DCASE)[2]的提出,极大地促进了该领域的发展。
相比于计算机视觉领域,声音信号的采集和标注相对困难,面对神经网络对大规模标注数据的需求,多种数据增广技术源源不断地提出,在一定程度缓解了这一问题。声学领域的数据增广大多是基于声谱图进行的,例如:Time stretch[3]、Pitch shift[3]、SpecAugment[4]、Mixup[5]等,但不同数据增广技术对声学场景的分类结果影响研究相对较少。笔者统计了近两年DCASE大赛上各种数据增广技术出现的比例发现,Mixup增广出现在半数以上方案中,SpecAugment增广出现比例紧随其后,此外,在计算机视觉领域,Cutmix[6]增广成为近年应用比例较高的技术之一。

1 音频特征及降维分布

在音频分类任务中,通常需要对目标音频信号进行有效特征提取,以便模型进行高效分类,音频信号特征提取的一般流程为:以原始音频信号作为输入,首先,通过预加重、分帧和加窗等操作实现音频信号的增强,然后,对增强后的音频信号进行时域到频域的转换,最后,在频谱中提取适合且有代表性的特征,常用的声学特征包括Mel声谱图、梅尔频率倒谱系数等。
本文利用公开的城市场景分类数据集UrbanSound8k[7]提取的Mel声谱图作为模型的输入,其中,各标签和缩写的对应关系为:空调(0-ac)、汽车喇叭(1-cb)、儿童玩耍(2-cp)、狗吠叫(3-db)、钻井(4-dr)、发动机空转(5-ei)、枪声(6-gs)、手提钻(7-jh)、警报器(8-si)和街头音乐(9-sm)。以空调(0-ac)为例,音频波形图与Mel声谱图对应关系如图1所示。各标签下的Mel声谱图如图2所示,由图2可以看出,各类别的Mel声谱图呈现不同特点。
图1 声音波形图与Mel声谱图
图2 各标签对应Mel声谱图
为进一步研究在声学场景分类任务下,Mel声谱特征作为模型输入时,各标签的分布情况。本文对每类标签随机抽取50段音频文件,分别提取其Mel声谱图,利用T-SNE[8]降维技术,对500个Mel声谱图进行降维,数据分布情况如图3所示。由图可知,各类别音频经过降维后仍具有相对较好的可分性,因此,可以判断Mel声谱特征适合作为输入,帮助模型获得更高的分类准确率。
图3 Mel声谱T-SNE降维分布

2 数据增广技术

在没有足够训练数据的情况下,数据增广技术可以起扩充数据集的作用,缓解模型易于发生过度拟合的同时,最大限度地利用样本中的有效信息。在音频领域,早期的数据增广方法包括声波变形和添加背景噪声等。本节针对三种在近年广泛使用的数据增广技术:SpecAugment、Mixup以及Cutmix,在声学场景音频下的表现形式做进一步探究。

2.1 SpecAugment

SpecAugment是一种专门为频谱图进行数据增广的方法,通过进行频域信道和时域信道的掩码操作,来提高模型对频谱图局部缺失的鲁棒性。其中,频域信道掩码,是使连续的f个Mel频率通道[f0,f0+f)被屏蔽,其中,f取值服从0到频率掩蔽参数F的均匀分布;f0满足[0,v-f),其中,v是Mel频率通道的数量。时域信道掩码应用于屏蔽时间步[t0,t0+t),其中,t服从0到时间屏蔽参数T的均匀分布,t0从[0,τ-t)中选择。以枪声(6-gs)的Mel声谱图为例,同时叠加频域信道掩码和时域信道掩码的可视化效果如图4所示。
图4 Mel声谱图SpecAugment增广示意图

2.2 Mixup

Mixup数据增广是一种对图像进行混合增强的算法,即将不同类之间的图像混合生成新图像,新样本的标签由原标签混合而来,实现方式如式(1)所示。
x ˙ = λ x i + ( 1 - λ ) x j y ˙ = λ y i + ( 1 - λ ) y j
式中,λ∈[0,1],其取值符合Beta分布β(α,α),参数α满足α∈(0,∞); $x_i$$x_j$ 分别代表不同的原始输入向量, $y_i$$y_j$代表对应的标签编码。以枪声(6-gs)和狗吠叫(3-db)的Mel声谱图为例,当λ取值为0.5时,通过Mixup增广生成新谱图的效果如图5所示。
图5 Mel声谱图Mixup增广示意图

2.3 CutMix

与Mixup利用两张图像按比例进行插值生成新样本不同,CutMix数据增广是利用另一个图像中的补丁替换原图对应区域,具体操作如式(2)所示。
x - = M x A + ( 1 - M ) x B y ˙ = λ y A + ( 1 - λ ) y B
式中, $M∈ {0,1}^{W*H}$ 表示两个图像中删除和填充位置的二进制掩码,⊙表示逐元素相乘。λ与Mixup增广类似,服从Beta分布β(α,α)。同样以枪声(6-gs)和狗吠叫(3-db)的Mel声谱图为例,通过Cutmix增广合成的效果如图6所示。
图6 Mel声谱图Cutmix增广示意图

3 实验仿真

3.1 轻量化网络及数据准备

随着深度学习的发展,神经网络拟合能力不断提升,模型的参数量和计算量也在高速增长,使得大多数模型无法部署在存储和计算力有限的硬件平台。设计更轻量高效的网络,成为近几年深度学习领域主要的研究方向之一。其中,具有代表性的轻量化网络包括SqueezeNet[9]、MobileNet[10,12]、ShuffleNet[11]。针对声学场景分类问题,本文选取Mobilenetv2[12]作为网络骨架来实现Mel声谱图的分类。
城市场景分类数据集UrbanSound8k包含8732个标记的城市声音片段(单个音频时长不超过4 s),音频总时长约为9.7 h,各类别对应的具体数量如表1所示。
表1 UrbanSound8k数据集详情
0-ac 1-cb 2-cp 3-db 4-dr 5-ei 6-gs 7-jh 8-si 9-sm
1000 429 1000 1000 1000 1000 374 1000 929 1000
为了使网络获得相同尺寸的Mel声谱图作为输入,将所有的声音片段转换成频率为22.05 KHz的单声道波形文件,并将波形文件通过补0操作补齐至4 s长度,同时将8732个样本按照7∶1.5∶1.5的比例划分训练集、验证集和测试集。

3.2 参数设置及评价指标

针对声学场景分类问题,引入交叉熵损失函数,选择Adam优化器来指导网络参数更新,初始学习率设置为0.001,同时采用余弦退火方式调整学习率,此外,在保证训练过程收敛完毕的前提下,实验统一设置成300个训练循环。Mel声谱特征利用librosa工具包进行提取,选取默认参数。输入特征图尺寸固定为(128,173)。针对Cutmix和Mixup增广方案,将Beta分布β(α,α)的参数α设置为1,使λ的取值服从(0,1)均匀分布,在同时施加Cutmix和Mixup两种增广技术的实验中,Cutmix和Mixup施加的比例为1∶1。
实验采用准确率和混淆矩阵作为评估指标,利用混淆矩阵结果,观测各类别精准率、召回率以及F1分数,此外,结合各类别T-SNE降维后的可视化分布图,对结果进一步讨论。

3.3 消融实验及结果分析

针对本文声学场景分类问题,利用SpecAugment、Mixup和Cutmix三种数据增广技术,制定了全面的八组消融实验,其中,第1组无增广技术的实验作为基线,用于衡量其他增广组合方案对分类结果的贡献程度。实验方案及结果如表2所示。
表2 消融实验结果
序号 SpecAugment Mixup Cutmix 准确率/% 平均精准率 平均召回率 平均F1分数
1 95.623 0.958 0.959 0.959
2 94.118 0.939 0.943 0.941
3 92.895 0.938 0.934 0.936
4 96.333 0.967 0.965 0.966
5 94.576 0.949 0.459 0.947
6 97.097 0.972 0.974 0.973
7 95.875 0.961 0.960 0.961
8 96.562 0.969 0.966 0.967
为便于对比结果,将各组方案的准确率结果绘制成柱状图形式,如图7所示。
图7 准确率柱状图
结合图表可知:实验1无增广技术对应的基线分类准确率为95.632%;实验2、3和4分别为单独施加SpecAugment、Mixup和Cutmix数据增广技术,结果表明,单独的SpecAugment和Mixup增广技术对分类结果并没有起到积极的贡献,相反导致了准确率下降,而单独施加Cutmix增广技术,将分类准确率提升至96.333%。这是由于,相比于Cutmix增广,Mixup增广技术生成频谱图的局部区域更加不自然,导致某些信噪比低的声音信号通过Mixup增广后提升了自身的识别难度;此外,在进行SpecAugment增广时,由于4 s对应的频谱图有效区域一般在2 s或者更短的时间内,SpecAugment在进行时域掩码时会遮挡有用信息,从而导致模型预测准确率下降;实验5、6和7分别尝试了两两组合的增广技术,其中,SpecAugment和Cutmix组合的分类准确率达到了最优结果97.097%,此时,Cutmix增广技术通过图像拼接方式弱化了SpecAugment对有效时域信息的遮挡,同时发挥了其数据扩充的作用,Mixup和Cutmix组合的准确率和基线大致持平,SpecAugment和Mixup的组合结果仍低于基线,但是略高于二者单独施加的准确率;最后,将三种增广技术同时施加到网络上,分类准确率定格为96.562%,略低于最优结果,由此可见,Mixup数据增广技术在此任务中,未发挥其优势。其中,最优结果97.097%对应的训练过程如图8所示,由图8可知:在训练进行至200个循环左右时,模型收敛完毕,训练损失和验证损失同时接近最低,验证准确率达到最高。
图8 最优方案训练过程
其中,最优方案下各类别的精准率、召回率以及F1分数如表3所示。
表3 最优方案下各类别指标
指标 0-ac 1-cb 2-cp 3-db 4-dr 5-ei 6-gs 7-jh 8-si 9-sm
精准率 0.99 0.95 0.93 0.97 0.98 0.99 1.00 0.96 0.99 0.96
召回率 0.99 0.95 0.99 0.94 0.97 0.98 1.00 0.98 1.00 0.94
F1分数 0.99 0.95 0.96 0.96 0.97 0.98 1.00 0.97 0.99 0.95
结果表明:汽车喇叭(1-cb)和街头音乐(9-sm)各评价指标相对较低,回顾图3可以发现,二者的分布情况相对较零散,穿插分布在各个类别之间,分类难度相对较大;而枪声(6-gs)的三个评价指标均为1.00,由于其Mel声谱图与其他类别声谱图相似度较小,同时,观测其在T-SNE分布图的分布情况可以发现,枪声(6-gs)集中在右上方,并且无与之相互干扰的类别。上述分析表明,在声学场景分类任务上,利用T-SNE进行降维及分布观测的效果较理想。

4 结束语

本文在音频场景分类问题上利用城市场景分类数据集,基于Mel声谱特征以及轻量化网络模型Mobilenetv2,针对三种数据增广技术SpecAugment、Mixup和Cutmix进行了全面的消融实验。单独施加SpecAugment和Mixup增广技术对分类结果起抑制作用,而单独的Cutmix增广对分类结果提升明显;增广技术两两组合下,SpecAugment和Cutmix组合取得了最优的分类准确率,为97.097%;三种增广技术同时施加到网络上,分类准确率为96.562%。针对最优分类结果,观测其精准率、召回率以及F1分数发现,汽车喇叭(1-cb)和街头音乐(9-sm)三个评价指标均较低,而枪声(6-gs)三个观测指标皆达到了1.00,上述情况与Mel声谱特征经过T-SNE降维后,各类别分布情况大致相同,表明T-SNE适合用在Mel声谱特征的降维及分布观测。

本文利用公开的城市场景分类数据集UrbanSound8k[7]提取的Mel声谱图作为模型的输入,其中,各标签和缩写的对应关系为:空调(0-ac)、汽车喇叭(1-cb)、儿童玩耍(2-cp)、狗吠叫(3-db)、钻井(4-dr)、发动机空转(5-ei)、枪声(6-gs)、手提钻(7-jh)、警报器(8-si)和街头音乐(9-sm)。以空调(0-ac)为例,音频波形图与Mel声谱图对应关系如图1所示。各标签下的Mel声谱图如图2所示,由图2可以看出,各类别的Mel声谱图呈现不同特点。

[1]
Ma L, Milner B, Smith D. Acoustic Environment Classification[J]. ACM Transactions on Speech and Language Processing, 2006, 3(2):1-22.

[2]
Stowell D, Giannoulis D, Benetos E, et al. Detection and Classification of Acoustic Scenes and Events[J]. IEEE Transactions on Multimedia, 2015, 17(10):1733-1746.

DOI

[3]
Schlüter J, Grill T. Exploring Data Augmentation for Improved Singing Voice Detection with Neural Networks[C]// ISMIR, 2015: 121-126.

[4]
Park D S, Chan W, Zhang Y, et al. SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition[EB/OL]. https://arXiv preprint arXiv:1904.08779, 2019

[5]
Zhang H, Cisse M, Dauphin Y N, et al. mixup: Beyond Empirical Risk Minimization[EB/OL]. https://arXivpreprintarXiv:1710.09412,2017.

[6]
Yun S, Han D, Oh S J, et al. Cutmix: Regularization Strategy to Train Strong Classifiers with Localizable Features[C]// Proceedings of the IEEE International Conference on Computer Vision, 2019: 6023-6032.

[7]
Salamon J, Jacoby C, Bello J P. A Dataset and Taxonomy for Urban Sound Research[C]// acm International Conference on Multimedia. ACM, 2014.

[8]
Maaten L, Hinton G. Visualizing Data Using t-SNE[J]. Journal of Machine Learning Research, 2008, 9(10): 2579-2605.

[9]
Iandola F N, Han S, Moskewicz M W, et al. SqueezeNet: AlexNet-level Accuracy with 50x Fewer Parameters and< 0.5 MB Model Size[EB/OL]. https://arXivpreprintarXiv:1602.07360, 2016.

[10]
Howard A G, Zhu M, Chen B, et al. Mobilenets: Efficient Convolutional Neural Networks for Mobile Vision Applications[EB/OL]. https://arXiv preprint arXiv:1704.04861, 2017

[11]
Zhang X, Zhou X, Lin M, et al. Shufflenet: An Extremely Efficient Convolutional Neural Network for Mobile Devices[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 6848-6856.

[12]
Sandler M, Howard A, Zhu M, et al. Mobilenetv2: Inverted Residuals and Linear Bottlenecks[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern recognition, 2018: 4510-4520.

文章导航

/