目前,我国空中交通管理主要是以“人”为主导的管制方式,依靠无线电通话和飞行态势信息实现飞行器的调配,而机器尚不具备直接获取说话人身份信息的手段。由于陆空通话为“多人”、“多轮”对话的沟通模式,说话人身份信息的缺失将会导致无法建立当前管制通话与上下文的有机关联,给管制意图理解、多轮对话管理带来了极大的困难,降低了空管语音安全防护的性能与效率,空中交通管理需要一种陆空通话说话人身份识别方法,来解决陆空通话说话人身份识别的难题,从而提高空管语音安全防护的性能与效率。
随着深度学习在语音领域的广泛应用,声纹识别(Voiceprint Recognition)或者说话人识别(Speaker Recognition)的研究越来越得到业界的重视。与语音识别将音频片段转换成长度不定的文本不同,说话人识别的目标是将一段话音的声纹信息编码成统一长度的特征向量。空管语音往往伴随较高的噪声,获取高区分度并且与内容无关的声音特征对于说话人识别来说十分重要。
说话人识别的经典方法基于统计模型,包括高斯混合通用背景模型(GMM-UBM)
[1]。为了提高特征的表达能力,文献[
2]提出了基于子空间的方法。传统方法中,文献[
3]采用GMM-UBM/i-vector因子分析
[4]和线性判别分析(PLDA),取得了当时最先进的性能。
近几年,基于深度学习的方法在说话人识别领域取得显著发展。文献[
5]首先训练在帧级别具备声纹区分度的特征,之后用全局平均获得整段语音的特征,但其对上下文有要求。文献[
6]将其扩展至与上下文无关的情况。上述帧级别特征算法的问题是整段语音的特征和语音帧的特征往往不一致,存在领域偏见。为了解决上述问题,文献[
7-
8]采用了时域池化层的方法将帧特征映射为句子特征,常见的方法有平均池化和统计池化。这些池化方法缺乏可学习的参数,难以根据实际的情况调整不同特征的权重。
因此,本文提出的基于特征聚合声纹识别方法,包括基于卷积神经网络(CNN)的特征提取器和基于局部聚集描述子向量(VLAD)的特征池化层2个部分。前者负责提取语音帧特征,后者负责把帧特征聚合成具备说话人区分能力的定长特征描述子。