中国科技核心期刊      中国指挥与控制学会会刊     军事装备类重点期刊
Multimodal Information Fusion

Deep ATC speaker recognition based on voiceprint aggregation

  • LI Yin-xuan 1 ,
  • TANG Wen-yi 2 ,
  • YANG Tao 1 ,
  • WANG Xue-chuan 1 ,
  • LI Cheng-xiang 1
Expand
  • 1. Beijing Capital International Airport, Beijing 100621
  • 2. State Key Laboratory of Air Traffc Management System and Technology of Nanjing Research Institute of Electronic Engineering,Nanjing 210007, China

Received date: 2022-03-15

  Revised date: 2022-09-14

  Online published: 2023-04-17

Abstract

For the problem of ATC speaker recognition, a method based on voiceprint feature aggregation is proposed, which could distinguish different speakers from an audio stream. First, we develop the ResNet spectrogram feature extractor and the NetVLAD feature fusion module, both of which seldom used in speaker recognition. Second, we insert two modules above and develop a novel end-to-end speaker recognition framework deriving from classic X-VECTORS method. Finally, the accuracy of the proposed method and the baseline method is compared and analyzed under a real ATC voice dataset. The results show that, compared with X-VECTORS network, the voiceprint aggregation method has superior recognition accuracy.

Cite this article

LI Yin-xuan , TANG Wen-yi , YANG Tao , WANG Xue-chuan , LI Cheng-xiang . Deep ATC speaker recognition based on voiceprint aggregation[J]. Command Control and Simulation, 2023 , 45(2) : 112 -115 . DOI: 10.3969/j.issn.1673-3819.2023.02.018

目前,我国空中交通管理主要是以“人”为主导的管制方式,依靠无线电通话和飞行态势信息实现飞行器的调配,而机器尚不具备直接获取说话人身份信息的手段。由于陆空通话为“多人”、“多轮”对话的沟通模式,说话人身份信息的缺失将会导致无法建立当前管制通话与上下文的有机关联,给管制意图理解、多轮对话管理带来了极大的困难,降低了空管语音安全防护的性能与效率,空中交通管理需要一种陆空通话说话人身份识别方法,来解决陆空通话说话人身份识别的难题,从而提高空管语音安全防护的性能与效率。
随着深度学习在语音领域的广泛应用,声纹识别(Voiceprint Recognition)或者说话人识别(Speaker Recognition)的研究越来越得到业界的重视。与语音识别将音频片段转换成长度不定的文本不同,说话人识别的目标是将一段话音的声纹信息编码成统一长度的特征向量。空管语音往往伴随较高的噪声,获取高区分度并且与内容无关的声音特征对于说话人识别来说十分重要。
与话音无关的信息必须被滤除。因此,说话人识别的关键问题是如何高效且准确地将帧级别的局部特征聚合成能够反映整个音频片段的全局特征。
说话人识别的经典方法基于统计模型,包括高斯混合通用背景模型(GMM-UBM)[1]。为了提高特征的表达能力,文献[2]提出了基于子空间的方法。传统方法中,文献[3]采用GMM-UBM/i-vector因子分析[4]和线性判别分析(PLDA),取得了当时最先进的性能。
近几年,基于深度学习的方法在说话人识别领域取得显著发展。文献[5]首先训练在帧级别具备声纹区分度的特征,之后用全局平均获得整段语音的特征,但其对上下文有要求。文献[6]将其扩展至与上下文无关的情况。上述帧级别特征算法的问题是整段语音的特征和语音帧的特征往往不一致,存在领域偏见。为了解决上述问题,文献[7-8]采用了时域池化层的方法将帧特征映射为句子特征,常见的方法有平均池化和统计池化。这些池化方法缺乏可学习的参数,难以根据实际的情况调整不同特征的权重。
因此,本文提出的基于特征聚合声纹识别方法,包括基于卷积神经网络(CNN)的特征提取器和基于局部聚集描述子向量(VLAD)的特征池化层2个部分。前者负责提取语音帧特征,后者负责把帧特征聚合成具备说话人区分能力的定长特征描述子。

1 相关工作

X-VECTORS[9]是当前声纹识别领域主流的模型框架, 可接受任意长度的输入,转化为固定长度的特征表达;此外,在训练中引入了包含噪声和混响在内的数据增强策略,使得模型对于噪声和混响等干扰更加鲁棒。
图1所示,X-VECTORS包含多层帧级别的TDNN(时延神经网络)[10]层,一个统计池化层和两层句子级别的全连接层,以及一层softmax;损失函数为交叉熵(Cross Entropy)。TDNN的计算流程和CNN(卷积神经网络)类似,输入是语音的底层特征(Fbank或者MFCC),通过同时覆盖多个音频帧的滑动窗口实现帧级别特征的提取。
图1 X-VECTORS的网络结构

Fig.1 The architechture of X-VECTORS neural network

X-VECTORS每层网络的具体参数表格如表1所示。假设语音帧长度为25毫秒,输入的语音片段有T帧。最开始的5层神经网络主要以第t帧为中心在周围取一个小窗口作为上下文,在帧级别提取特征。多个时间卷积层叠加之后,特征的感受野会不断变大,经过5层后,每一个帧特征是根据15帧的语音上下文提取获得的。统计池化层将T个第5层神经网络的输出统计后,计算其均值和标准差,作为整段语音的特征。统计池化层之后是2层全连接网络,其输入是均值和标准差连接后形成的向量,激活函数是ReLU
表1 X-VECTORS网络参数

Tab.1 The parameters of X-VECTORS neural network

网络层 上下文 上下文长度 输入输出维度
帧级别1 [t-2,t+2] 5 120,512
帧级别2 {t-2,t,t+2} 9 1536,512
帧级别3 {t-3,t,t+3} 15 1536,512
帧级别4 {t} 15 512,512
帧级别5 {t} 15 512,1500
统计池化 [0,T) T 1500T,3000
句子级别6 {0} T 3000,512
句子级别7 {0} T 512,512
softmax {0} T 512,N
其中N表示嵌入特征的维度。
X-VECTORS模型的训练目标仅是单纯地最大化区分不同说话人,而并没有考虑说话人的空间分布。具体地,这种训练方式使得推理出来的说话人向量的分布是自由、无约束的。这说明:1)每个说话人自身的分布极其复杂;2)不同说话人之间的分布差异显著。有研究表明,这种无约束的特征空间不利于模型的泛化性和鲁棒性。

2 基于特征聚合的声纹识别

声纹识别模型需要具备如下性质:1)能够将任意语音映射成定长的特征描述子;2)提取的特征描述子不能太复杂,方便存储和检索;3)提取的特征描述子需要有判别力,同一个人的声纹特征距离必须比不同人声纹特征小。
基于上述需求,本文提出一种基于特征聚合的声纹识别方法。该方法使用ResNet[11]为特征提取网络,全卷积地提取输入的2D频谱信息,并使用NetVLAD[12]层在特征空间里聚合声纹特征,产生固定长度的特征描述子,网络结构如图2所示。
图2 基于特征聚合的声纹识别网络结构

Fig.2 The architecture of the proposed method based on voiceprint aggregation

VLAD(Vector of Locally Aggregated Descriptors)[13]算法是基于特征描述子的特征编码算法,即利用如SIFT和卷积网络等特征描述子,将整幅图像包含的ND维的特征描述子进行编码,得到整个图像K×D维的特征聚合表示,计算公式如下:
V(j,k)= i = 1 Nαk(xi)(xi(j)-ck(j))
其中,ck(j)是K-means聚类算法对N个卷积特征描述子xi进行聚类后的聚类中心;αk(xi)是根据特征到聚类中心的相对距离计算得到的分配系数,最近的聚类中心是1,其他是0。
针对VLAD算法的分配系数αk(xi)计算过程不可微的问题,Relja[12]等人提出了NetVLAD算法,改进了VLAD算法,根据αk(xi)的特性,将其平滑为一个权重函数,即xi与ck(j)越相近,αk(xi)越接近1,反之越接近0。可设计公式为
α ^(xi)= e - r x i - c k 2 k ' e - r x i - c k ' 2
其中,r是一个大于0的参数,r→∞时, α ^(xi)越趋近于0和1。将公式2中的-r‖xi-ck2展开,约去 e - r x i 2后化简可得公式:
α ^(xi)= e w k T x i + b k k ' e w k ' T x i + b k '
其中,wk=2rck,bk=-r‖ck2,可以看到公式(3)和softmax函数形式一致。此时,VLAD公式可以改写成:
V(j,k)= i = 1 N e w k T x i + b k k ' e w k ' T x i + b k '(xi(j)-ck(j))
其中,wk,bk,ck就是NetVLAD层要学习的参数。可以看到,VLAD中需要聚类获得的参数ck在此时通过神经网络的训练得到。这样就把VLAD变成了一个分类问题,即设定超参数K,表示声纹局部特征有K个类别,计算局部特征在这K个分类的残差分布来得到全局特征V(j,k)。相较于经典的X-VECTORS框架,本文所提出的算法在特征提取结构和时域池化两个部分都做了改进。本文用在IMAGENET上预训练的ResNet-50替换了X-VECTORS所用的全卷积网络,用NetVLAD层替换了X-VECTORS所用的统计池化层。NetVLAD层可以被认为是一种可微的聚类算法,避免了传统K-means聚类算法难以嵌入深度神经网络的问题,使用NetVLAD层可以实现端到端的神经网络训练。

3 实验验证

本文将在两个有挑战的数据集上验证本文方法的有效性,分别是公开的VoxCeleb1数据集和自制的管制语音数据集(ATCVoice)。在二者的训练集中训练模型,在测试集上测试结果,训练集和测试集数据没有交叉。前者有1 251个说话人提供153 516个话语片段。后者由超过100小时的管制语音制作而成,有71 363段管制话音片段,包含1 653名不同身份的说话人(包括管制员和飞行员)。
表2 本文使用的数据集

Tab.2 Dataset used by the proposed method

数据集 训练集 测试集
VoxCeleb1 148 642条 4 874条
ATCVoice 67 795条 3 568条
在训练过程中,本文从训练集中随机选取2.5 s的音频片段以及对应的标签,通过滑动的汉明窗(窗口大小是25 ms,步长是10 ms)和512点FFT获得256维交流特征和1维直流特征,一共257×250维(频率x时长)的声纹特征。之后,将该声纹特征白化,获得用于训练的声纹特征。对于超参数K(聚类中心的数目),本文算法根据实验结果确定K=10。另外,本文采用softmax作为输出层,以最小化交叉熵为目标函数,优化器是Adam,初始学习率为0.001,每36个epoch降低学习率为原先的十分之一,直到模型收敛。
本文实验的评价指标是EER(错误率),即连续调节判别阈值,当错误拒绝率(False Rejection,FR)和错误接受率 (False Acceptance, FA)相等时二者的数值。
本文算法和基线算法X-VECTORS的实验结果如表3所示,本文提出的算法在两个数据集上均取得了超过基线算法的性能。
表3 本文算法和X-VECTORS的实验结果。评价指标是EER(%)

Tab.3 The experimental evaluation between the proposed method and X-VECTORS. Evaluation indicator is EER (%)

数据集 X-VECTORS 本文算法
VoxCeleb1 3.51 3.10
ATCVoice 8.36 5.21
为了说明本文算法提出的有效性,在ATCVoice数据集上进行了如下消融实验:对比基线算法X-VECTORS、将基线算法的统计池化层替换为NetVALD层的算法1以及包含两个改进的本文算法,数据如表4所示。
表4 消融实验结果。评价指标是EER(%)

Tab.4 The result of ablation experiment. Evaluation indicator is EER (%)

数据集 ATCVoice
X-VECTORS 8.36
DNN+NetVALD 7.66
本文算法 5.21
表4可知,本文提出的两个改进对最终整体算法的性能提升均为正面,而且ResNet层作用更大,明显优于X-VECTORS采用的TDNN网络。另外,从上述结果可知:如果预训练网络不是相同的数据域(分别为图像和声音图谱),迁移学习也可以起到一定的效果。后续可以尝试其他的预训练网络,将别的领域的研究成果应用于说话人身份识别。

4 结束语

本文重点研究了基于特征聚合的声纹识别算法,分析了当前主流框架X-VECTORS的不足,并根据管制话音的特征提出了改进算法。本文算法用ResNet-50替换了X-VECTORS所用的全卷积网络,用NetVLAD层替换了X-VECTORS所用的统计池化算法。最后在实际管制语音数据集上对基线算法和改进说话人身份识别算法的性能进行了对比分析。实验结果表明,相较于传统的X-VECTORS方法,本文提出的基于声纹聚合的说话人识别方法具有更高的识别精度。
[1]
Reynolds D A, Quatieri T F, Dunn R B. Speaker verification using adapted Gaussian mixture models[J]. Digital Signal Processing, 2000, 10(1/2/3): 19-41.

DOI

[2]
Kenny P, Boulianne G, Ouellet P, et al. Joint factor analysis versus eigenchannels in speaker recognition[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2007, 15(4): 1435-1447.

DOI

[3]
RoyChoudhury R, Bandyopadhyay S, Paul K. A distributed mechanism for topology discovery in Ad Hoc wireless networks using mobile agents[C]// Proceedings of the 1st ACM International Symposium on Mobile ad hoc Networking & Computing, Boston, 2000: 145-146.

[4]
Hryniewicz O. An evaluation of the reliability of complex systems using shadowed sets and fuzzy lifetime data[J]. International Journal of Automation and Computing, 2006, 3(2): 145-150.

DOI

[5]
Variani E, LEI X, McDermott E, et al. Deep neural networks for small footprint text-dependent speaker verification[C]// 2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Florence, 2014: 4052-4056.

[6]
LI L, CHEN Y, SHI Y, et al. Deep speaker feature learning for text-independent speaker verification[C]// The 14th National Conference on Man-Machine Speech Communication. Lianyungang, China, 2017: 340-344.

[7]
Snyder D, Garcia-Romero D, Povey D, et al. Deep neural network embeddings for text-independent speaker verification[C]// 18th Annual Conference of the International Speech Communication Association. Stockholm, Sweden, 2017: 999-1003.

[8]
Yadav S, Rai A. Learning Discriminative features for speaker identification and verification[C]// 19th Annual Conference of the International Speech Communication Association. Hyderabad, India, 2018: 2237-2241.

[9]
Snyder D, Garcia-Romero D, Sell G, et al. X-Vectors: Robust DNN embeddings for speaker recognition[C]// 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Calgary, 2018: 5329-5333.

[10]
Peddinti V, Povey D, Khudanpur S. A time delay neural network architecture for efficient modeling of long temporal contexts[J]. Proceedings of the Annual Conference of the International Speech Communication Association, Interspeech, 2015: 3214-3218.

[11]
HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, 2016: 770-778.

[12]
Arandjelović R, Gronat P, Torii A, et al. NetVLAD: CNN architecture for weakly supervised place recognition[C]// IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017: 1437-1451.

[13]
Jégou H, Douze M, Schmid C, et al. Aggregating local descriptors into a compact image representation[C]// 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Francisco, 2010: 3304-3311.

Outlines

/