中国科技核心期刊      中国指挥与控制学会会刊     军事装备类重点期刊
Weapon & Information System

Joint recognition and localization of gunshot based on deep learning

  • MA Mingxing 1, 2 ,
  • LI Jian 1, 2 ,
  • ZENG Yuan 1, 2 ,
  • HE Bin 1, 2 ,
  • PANG Runjia 1, 2
Expand
  • 1 State Key Laboratory of Dynamic Testing Technology, North University of China, Taiyuan 030051, China
  • 2 Key Laboratory of Information Detection and Processing of ShanxiProvince, North University of China, Taiyuan 030051, China

Received date: 2023-09-05

  Revised date: 2023-11-08

  Online published: 2024-04-01

Abstract

In response to the existing gun sound recognition and positioning tasks, which require separate identification and positioning, resulting in time-consuming computation, system redundancy, and complex development processes, this paper proposes to use a two-stage CRNN deep learning network model to complete the gun sound recognition and positioning tasks. Firstly, perform a logarithmic Mel transform on the collected gunshot signal and calculate the generalized phase transition cross correlation spectrum as input to the network model. Secondly, in the first stage, the gunshot signal is identified through the CRNN network. Finally, in the second stage, the introduction of a mask is used to determine whether the CRNN network weight sharing is implemented for localization. The method proposed in this article can effectively solve the problems of separate recognition and positioning tasks, system redundancy, and complex development processes in traditional methods, and has certain application value in achieving joint recognition and positioning.

Cite this article

MA Mingxing , LI Jian , ZENG Yuan , HE Bin , PANG Runjia . Joint recognition and localization of gunshot based on deep learning[J]. Command Control and Simulation, 2024 , 46(2) : 150 -156 . DOI: 10.3969/j.issn.1673-3819.2024.02.021

在战场中,狙击手像是无形的敌人,给我方的战士、重要设施和指挥中枢都带来了严重的威胁。这种威胁促使了反狙击武器的出现,也为狙击手定位系统的研究提供了广阔的平台。西方国家如美国、英国等很早以前就意识到狙击手定位系统的重要性并已经开始研究它,并且有初步的研究成果。一方面,枪声识别可帮助狙击手识别对手使用的枪支类型,进而评判其杀伤威力;另一方面,枪声定位可辅助己方狙击手定位敌方,几十年来一直是一个活跃的研究课题。
枪声识别主要使用如对数梅尔谱等特征送入机器学习或深度学习模型中进行。2009年,刘力维等人[1]使用高斯混合模型对枪声信号进行分类,这是国内较早进行枪声信号识别的研究。之后,罗森林等人[2-3]相继提出了融合不同机器学习算法的特定音频事件高精度识别方法进行枪声识别。随着硬件算力的不断提升,文献[4]使用人工神经网络(Artificial Neural Network,ANN)用于枪声分类及定位,达到了不错的效果。Hrabina等[5]提出了一种利用信号时域低级特征进行枪击识别的方法,取得了较好的检测精度;Raponi和Ali[6]提出利用短时傅里叶变换将一维声信号变换为二维时频谱,通过多层CNN网络提取特征并进行枪支的种类、口径和型号分类;Ryan Lilien[7]将迁移学习应用于枪声识别中,将14层CNN网络先经过大型声数据集预训练,再将所得模型在18种枪支、6 000个单独的枪声音频上训练,得到了78.2%的准确度。针对网络模型的优化,2022年,Li等[8]使用知识蒸馏网络实现枪声快速识别。
传统的波达方向(Difference of Arrival,DOA)估计方法可分为三类:到达时间差(Time Difference of Arrival,TDOA)估计、波束形成器的最大转向响应功率和高分辨率谱估计。广义互相关(Generalized Cross Correlation,GCC)方法是时差估计最广泛使用的方法。唐娟[9]提出了基于二次相关的时延估计方法,削弱了噪声对时延估计的影响。周卓伟[10]提出了将二次相关时延估计与经验模态分解相结合的方法,提高了信号的质量,具有较高的估计准确率。Tofel[11]提出了一种基于二次相关和小波分析的时延估计方法,锐化了相关函数的峰值,从而提高信号的延迟时间。Bo等[12]采用sinc插值的分数时延估计算法,插值得到更为精确的时延值。王啸臻[13]提出了基于相关峰精确插值的二次相关算法,以实现更加精准的定位。孙泽鹏等[14]通过使用量子粒子群算法(Quantum-Behaved Particle Swarm Optimization,QPSO)优化麦克风阵列,使用广义互相关对枪声进行定位。

1 枪声联合识别定位基本原理

声音事件定位与检测(Sound Event Location and Detection,SELD)任务是通过对采集到的麦克风阵列信号进行处理后,实现声事件的分类及定位。通过对SELD任务的迁移,使用Two Stage卷积神经网络(Convolutional Neural Network,CNN)加双向门控循环单元(Bidirectional Gate Recurrent Unit,BiGRU)模型实现枪声事件定位检测,模型框图如图1所示。图1模型输入使用对数梅尔谱(Logarithmic Mel Spectrum,Log-Mel)和带相位变换的广义互相关(Generalized Cross Correlation of Phase Transition,GCC-PHAT)谱作为输入,枪声识别和定位两个分支分别用于对枪声识别和定位。输入特征进入网络后经过8层CNN进行特征提取,然后经过双向门循环单元BiGRU提取时间上下文信息,然后进入全连接层后通过sigmoid函数获取类别所属概率,再经过阈值判断进行类别输出。识别分支训练完毕后,对定位分支进行训练,定位分支使用掩码控制类别选择是使用预测类别或标签。使用F分数和错误率(Error Rate,ER)评估网络的识别性能;使用DOA误差和DOA帧召回率评估网络定位性能。
图1 CRNN总体模型示意图

Fig.1 Schematic diagram of CRNN overall model

1.1 识别定位特征提取

在训练模型之前,需要对原始声音的特征进行提取,使用Log-Mel特征谱和GCC-PHAT作为输入的特征进行学习训练。其中,Log-Mel谱主要用来进行枪声识别及定位,GCC-PHAT主要是强化对到达方向的估计。
Log-Mel谱的计算过程如图2所示,实际上就是利用信号的短时间傅里叶变换信息的频率轴进行梅尔变换,模拟人脑人耳识别声音的过程。对于DOA估计而言,其核心便是准确估计声源到达每个传感器的时间差,其计算过程如图3所示。图3得到GCC-PHAT的谱信息,即不同传感器阵列相互之间的时延信息。计算GCC-PHAT公式表达如下:
ψ i , j P H A T(t,τ)=IFFT{ X i ( f , t ) [ X j ( f , t ) ] * | X i ( f , t ) [ X j ( f , t ) ] * |}
其中,Xi(f,t)表示i个通道信号的傅里叶变换,ft分别为频率和时间, ψ i , j P H A T(t,τ)表示第i通道信号与第j个通道信号的GCC-PHAT谱。
图2 Log-Mel声源特征参数提取流程图

Fig.2 Flow chart for extracting Log-Mel sound source feature parameters

图3 广义互相关时延求取框图

Fig.3 Block diagram for obtaining generalized cross correlation delay

1.2 Two Stage CRNN网络模型

网络总体模型示意图如图1所示,具有识别分支和定位分支。在训练过程中,提取形状为Cin×T×F的特征首先被送入识别分支,其中Cin表示特征图的数量,T为时间,F为梅尔滤波器数量或GCC-PHAT的时延样本数量。模型中有8层CNN组成4组2维CNN用来做特征提取,卷积操作之后,特征图被送入一个全局池化层,把数据送入BiGRU,然后将BiGRU的数据送入全连接层并通过sigmoid函数输出枪声类别预测的概率,网络输出数据大小为Cin×N,该数据表示每个输入的枪声特征被预测为某种枪声类型的概率,N为枪声种类数目,网络输出数据进行上采样,保证与输入数据尺寸一致,随后通过设定一个激活阈值来判定输入样本枪声类别,多标签枪声分类的损失函数使用二值交叉熵函数。识别分支训练完毕后,通过迁移学习的方式固定卷积层权重参数,仅调整BiGRU和全连接层权重,对定位分支进行训练时,使用掩码控制定位分支中的类别选择使用预测类别还是标签,反向传播使用最小平方误差函数。

1.3 识别定位评价指标

F分数是综合了准确率和召回率的评价指标。设共有K个样本,该批样本F分数计算公式为
Fscore= 2 k = 1 K T P ( k ) 2 k = 1 K T P ( k ) + k = 1 K F P ( k ) + k = 1 K F N ( k )
其中,TP(·)表示真阳性判断函数,样本标签为真且预测为真时,函数返回1,否则为0;FP(·)是假阳性判断函数,样本标签为假且预测为真时函数返回1,否则为0;FN(·)是假阴性判断函数,样本标签为真且预测为假时,函数返回1,否则为0。另一个识别的评估指标为ER,计算方法如式(3~6):
S(k)=min(FN(k),FP(k))
D(k)=max(0,FN(k)-FP(k))
I(k)=max(0,FP(k)-FN(k))
ER= k = 1 K S ( k ) + k = 1 K D ( k ) + k = 1 K I ( k ) K
DOA误差代表的是角度的平均误差,用于衡量预测的到达方向和实际到达方向的准确程度。对于一段K个时间帧的声音片段来说,设DO A R k表示第k个时间的参考角度,设DO A E k表示第k个时间的估计角度,DOA误差表示为
DOAerr= 1 k = 1 K D E k k = 1 KH(DO A R k,DO A E k)
其中, D E k表示估计DO A E k在第k个时间的角度数之和,估计的声音不一定只有一个角度。H表示解决任务分配的匈牙利算法,匈牙利算法通过估计和参考DOA之间的中心角估计各个预测DOA与参考DOA之间的成对成本来解决分配问题。该成本计算如式(8):
σ=arccos(sin λEsin λR+
cos λEcos λRRcos(|φRE|))λR
其中,参考DOA的方位角φR∈[-π,π),俯仰角λR∈[-π/2,π/2]。估计DOA的方位角和俯仰角可以表述为(ϕEE),其取值范围和参考角度一致。
为了考虑估计DOA和参考DOA数量不相等的时间范围,使用第二个度量标准DOA帧召回率,其计算公式为
Framerecall= k = 1 K 1 ( D R k = D E k ) K
其中, D R k表示估计DO A R k在第k个时间的角度数之和,当满足( D R k= D E k)的条件时,分子结果为1并累加。
综合上述指标,可以得到评判网络识别联合定位的分数,用该分数表示系统对定位和枪声识别的综合性能。
SELDscore= 1 2[SEDscore+DOAscore]
其中,SED分数和DOA分数分别表述为
SEDscore= 1 2[SEDerror+(1-Fscore)]
DOAscore= 1 2[ D O A e r r o r 180+(1-Framerecall)]
在理想的环境下,网络模型的错误率越接近0越好。DOA帧召回率越接近1,F分数越接近1,DOA误差接近0,表示系统的预测和实际数值越接近,性能越好。

2 实验

2.1 数据集构建

本文模拟了战场环境下的声源信号,采用ZEALOT-S67型钕磁铁三喇叭音箱作为声源激励设备,其模型尺寸如图4所示,利用移动设备发出声源信号,通过音箱放大声源激励信号。传感器阵列使用双阵列结构,阵列模型图如图5所示。
图4 声源模型尺寸

Fig.4 Sound source model dimensions

图5 传感器尺寸模型

Fig.5 Sensor size model

将笔记本电脑与音响进行链接,控制声源激励设备发出声源信号,实验现场情况如图6所示。采集10种枪声的样本数4 000个,数据量较少,是一个小样本低复杂度数据集。实验中使用了预先准备好的各类型枪声声源的音频文件作为声源信号,使用了声传感器阵列的信号采集存储系统,对多通道声信号进行采集和存储,部分采集信号波形如图7所示。
图6 实验现场情况

Fig.6 Experimental site conditions

图7 部分枪声波形

Fig.7 Partial gunshot waveform

对采集数据切片后,将不同声源的声信号文件放置在不同文件夹下,每种声源类型的样本约为300~600个,总计4 000个声信号样本,构成声数据集。

2.2 网络训练与验证

本文方法使用Pytorch框架实现Two Stage网络模型,模型训练分为两个阶段:第一阶段是训练识别分支,第二阶段是迁移模型CNN网络参数训练定位分支。数据集使用自作枪声数据集,将样本划分为四等份,三份用于训练,一份用于验证。特征提取中设短时傅里叶变换的采样率为32 kHz,加1 024点汉宁窗,降低频率泄露和栅栏效应,滑动步长为320点。为将Log-Mel和GCC-PHAT拼接一起送入网络,网络模型参数如表1所示,最大延时可通过dmax/c·fs,故设梅尔滤波器数量为128,其中dmax为子麦克风阵列中两麦克风探头的最大距离,c为声速,数值为340 m/s。在前30轮,学习率设为0.001,然后每轮衰减10%。展示不同种类枪声的对数梅尔谱特征如图8所示。
表1 网络整体参数

Tab.1 Overall network parameters

操作 数据尺寸
输入 16×5 765×128
3×3卷积层1 64×5 765×128
3×3卷积层2 64×5 765×128
平均池化 64×2 882×64
3×3卷积层3 128×2 882×64
3×3卷积层4 128×2 882×64
平均池化 128×1 441×32
3×3卷积层5 256×1 441×32
3×3卷积层6 256×1 441×32
平均池化 256×720×16
3×3卷积层7 512×720×16
3×3卷积层8 512×720×16
平均池化 512×360×8
第三维池化 512×360
BiGRU 512×360
声分类全连接层 360×10
方位角全连接层 360×10
俯仰角全连接层 360×10
图8 不同种类枪声对数梅尔谱

Fig.8 Log-Mel spectra of different types of gunshots

对数梅尔谱主要用于枪声检测与识别,而枪声的位置信息主要包含在枪声到达不同麦克风探头的时间差中,GCC-PHAT包含了不同麦克风的到时信息,部分通道之间的GCC-PHAT如图9所示。
图9 不同通道间信号的GCC-PHAT谱

Fig.9 GCC-PHAT spectra of signals between different channels

将上述特征拼接后送入网络训练,所用方法的训练及验证曲线如图10所示,可以看出模型快速收敛,损失值都维持在一个较低水平,验证损失也处在较低水平。不同于训练阶段,推理阶段通过掩码将预测值作为标签,进而推断DOA完成识别联合定位任务,模型在验证集表现如表2所示。
图10 网络训练及验证损失曲线

Fig.10 Network training and validation loss curve

表2 模型性能指标

Tab.2 Model performance indicators

方法 识别率 定位误差 F分数 帧召回率
SELDnet 65.7% 30.8° 0.751 0.840
本文 84% 8.85° 0.909 0.863
表2结果展示了本文模型相比于SELD模型,不论是识别率还是定位误差等指标都优于SELD基准模型,显然该模型在识别定位枪声上具有明显优势。

3 结束语

本文提出使用Two Stage深度学习模型用于枪声识别联合定位,使用一个深度学习模型通过迁移的方式共享卷积层权重,同时用于识别与定位。实验结果表明,本文提出的方法在联合识别与定位任务中,识别率及到达方向误差分别为84%、8.85°。相比于传统方法,本文方法在识别和定位的性能更优。
[1]
刘力维, 袁高高, 潘志刚, 等. 基于GMM和枪声的军事环境判别[J]. 舰船电子工程, 2009, 29(6): 103-105.

LIU L W, YUAN G G, PAN Z G, et al. Military environment discrimination based on GMM and gunshot detection[J]. Ship Electronic Engineering, 2009, 29(6): 103-105.

[2]
罗森林, 王坤, 谢尔曼, 等. 融合GMM及SVM的特定音频事件高精度识别方法[J]. 北京理工大学学报, 2014, 34(7): 716-722.

LUO S L, WANG K, XIE E M, et al. High-precision specific audio event recognition method combining SVM and GMM[J]. Transactions of Beijing Institute of Technology, 2014, 34(7): 716-722.

[3]
罗森林, 李金玉, 潘丽敏. 特定类型音频流泛化识别方法[J]. 北京理工大学学报, 2011, 31(10): 1 231-1 235.

LUO S L, LI J Y, PAN L M. A generic method of recognizing specific type audio stream[J]. Transactions of Beijing Institute of Technology, 2011, 31(10): 1 231-1 235.

[4]
C. M. J. Galangque, S. A. Guirnaldo. Gunshot classification and localization system using artificial neural network[C]// 2019 12th International Conference on Information & Communication Technology and System (ICTS), 2019: 1-5.

[5]
HRABINA, Sigmund M. Gunshot recognition using low level features in the time domain[C]// International Conference Radio Electronic, IEEE, 2018: 1-5.

[6]
Raponi S, Ali I, Oligeri G. Sound of guns: digital forensics of gun audio samples meets artificial intelligence[EB/OL]. arXiv preprint arXiv:2004.07948, 2020.

[7]
Shiekh A A, Tahir M, Uppal M. Accurate gunshot detection in urban environments using blind deconvolution[C]// Multi-topic Conference. IEEE, 2017: 1-4.

[8]
LI J, GUO J, SUN X, et al. A fast identification method of gunshot types based on knowledge distillation[J]. Appl. Sci., 2022(12): 5 526.

[9]
唐娟, 行鸿彦. 基于二次相关的时延估计方法[J]. 计算机工程, 2007, 33(21): 265-267.

DOI

TANG J, XING H Y. Time delay estimation based on second correlation[J]. Computer Engineering, 2007, 33(21): 265-267.

DOI

[10]
周卓伟, 孙山林, 李云, 等. 基于经验模态分解重构的二次相关时延估计[J]. 电讯技术, 2016, 56(5): 562-567.

ZHOU Z W, SUN S L, LI Y, et al. Second correlation time delay estimation based on empirical mode decomposition reconstruction[J]. Telecommunication Engineering, 2016, 56(5): 562-567.

[11]
Tofel G, Czopik G, Kawalec A. Signal time delay estimation using square correlation method and wavelet analysis[C]// 2018:1-9.

[12]
BO Q, ZHANG H, QIANG F, et al. Subsample time delay estimation via improved GCC PHAT algorithm[C]// Signal Processing, 2008. ICSP 2008. 9th International Conference on. IEEE, 2008.

[13]
王啸臻, 王兆魁, 张育林. 基于相关峰细化时延估计的舱内服务机器人发话人定位研究[J]. 上海航天, 2018, 35(5): 10-17.

WANG X Z, WANG Z K, ZHANG Y L. Study on speaker localization for assistant robots in spacecraft based on fine interpolation of correlation peak[J]. Aerospace Shanghai, 2018, 35(5): 10-17.

[14]
孙泽鹏, 李剑, 苏新彦, 等. 基于QPSO的微基线声阵列优化布设方法[J]. 国外电子测量技术, 2022, 41(8): 1-6.

SUN Z P, LI J, SU X Y, et al. Optimal deployment method of micro baseline acoustic array based on QPSO[J]. Foreign Electronic Measurement Technology, 2022, 41(8): 1-6.

Outlines

/