中国科技核心期刊      中国指挥与控制学会会刊     军事装备类重点期刊
多模态信息融合

基于预训练语言模型的管制信息抽取方法

  • 张潇霄 1 ,
  • 王煊 2 ,
  • 王磊 1 ,
  • 张晓海 1 ,
  • 杨涛 1
展开
  • 1.北京首都国际机场股份有限公司, 北京 101317
  • 2.空中交通管理系统与技术国家重点实验室, 江苏 南京 210007

张潇霄(1982—),女,硕士,高级工程师,研究方向为空中交通管理理论。

王煊(1989—),男,博士,高级工程师。

Office editor: 许韦韦

收稿日期: 2022-06-09

  修回日期: 2022-07-19

  网络出版日期: 2023-04-17

Air traffic control information extraction method based on pre-trained language models

  • ZHANG Xiao-xiao 1 ,
  • WANG Xuan 2 ,
  • WANG Lei 1 ,
  • ZHANG Xiao-hai 1 ,
  • YANG Tao 1
Expand
  • 1. Beijing Capital International Airport Company Limited, Beijing 101317
  • 2. State Key Laboratory of Air Traffic Management System and Technology, Nanjing 210007, China

Received date: 2022-06-09

  Revised date: 2022-07-19

  Online published: 2023-04-17

摘要

在空中交通管理中,管制员使用管制指令调节航空器状态,飞行员通过复诵指令进行确认。管制指令的正确理解对飞行安全具有重大意义。提出一种新的管制信息抽取方法,即基于语言模型的预训练和微调,通过迁移学习实现小样本管制信息抽取。该方法在训练数据量降低时,仍能实现准确率的提升。仿真结果表明,新模型对管制信息抽取的准确率不低于98%,可以有效提取管制指令中的关键信息。该方法可提升空管系统的智慧化程度,辅助管制员理解管制指令内容,支撑飞行冲突检测,保障航空运输安全。

本文引用格式

张潇霄 , 王煊 , 王磊 , 张晓海 , 杨涛 . 基于预训练语言模型的管制信息抽取方法[J]. 指挥控制与仿真, 2023 , 45(2) : 107 -111 . DOI: 10.3969/j.issn.1673-3819.2023.02.017

Abstract

In air traffic management, the controller uses the control instruction to adjust the aircraft status, and the pilot confirms by repeating the control instruction. The correct understanding of control instruction is of great significance to flight safety. This paper proposes a new method of air traffic control information extraction, which is based on pre-training and fine tuning of the pre-training language model. It uses transfer learning to extract regulatory information under the condition of small samples. This method can not only reduce the cost of training data annotation, but also improve the accuracy of information extraction. The simulation results show that the accuracy of the new model is not less than 98%, and the key information in the control instructions can be extracted effectively. This method can improve the intelligence of air traffic control system, assist controllers to understand the contents of control instructions, support flight conflict detection, and ensure air transport safety.

空中交通管理以确保空域中航空器的飞行安全为首要任务。近年来,国内外发生多起飞行安全事故和事故征候。根据统计资料显示,在过去发生的飞行安全事故中,人为因素占75.5%。由此可见,人的因素对航空安全有重大的影响[1]。管制指令是管制员指挥航空器运行的主要手段,其贯穿滑行、起飞、巡航、降落等整个航班的飞行过程,管制指令的错误表达或错误理解会引发飞行冲突,导致航空运行的潜在安全隐患。
管制指令包含航空器位置、目的地、速度、高度和航向等信息,由于其是非结构化文本,空管系统无法直接理解并从管制指令中提取上述信息。自然语言处理技术可以增强空管系统对管制指令的理解能力,包括三种实现方式:一是构建规则提取管制信息,陈亚青等[2]根据不同场景设计管制指令模板,并用于提取管制信息,构建本体模型也可以实现对管制信息的理解和提取[3];二是基于机器学习,李春利等构建隐马尔科夫模型提取管制信息[4];三是基于深度学习,将陆空通话看作对话理解任务,构建深度神经网络对管制指令的意图进行识别,同时对管制中的关键信息进行提取[5-6]
中国民航局制定的《空中交通无线电通话用语标准》中的用语规范明确了管制指令具有专业特征强,指令公式化,简练性,词语单一意旨性等特性[7],可为信息抽取规则的构建提供依据。然而,在实际管制过程中,管制员易出现重复、隐字、口语或加字现象,导致指令的语法结构发生畸变,词语顺序被扰乱,信息的分布呈现随机性,降低了规则抽取的准确率。基于机器学习和深度学习的方法可以从历史数据中学习畸变的语法结构,实现精准的管制信息抽取。
训练深度神经网络需要大量标注数据,且由于管制指令文本需要经过自动语音识别系统[8],对管制语音进行转录和人工校正后得到,会耗费大量的时间、经济和人力成本。
为解决上述问题,本文提出一种新的管制信息抽取方法,包括预训练语言模型BERT和条件随机场(Conditional Random Field, CRF)。前者对输入的管制指令文本进行语义编码,而CRF对BERT的语义编码进行推理和预测,生成管制信息标签序列。

1 相关工作

随着深度学习的兴起和不断发展,基于深度神经网络的信息抽取模型成为当前管制信息抽取的主流框架。Lin等[5]提出一种面向管制意图和管制信息的联合抽取模型CII,该模型由双向长短期记忆网络(Bidirectional Long Short-Term Memory, BiLSTM)和多层感知机(Multilayer Perceptron, MLP)组成,其网络结构如图1所示。
图1 CII模型的结构

Fig.1 The structure of CII model

在CII模型中,首先使用BiLSTM对输入的管制指令进行序列建模,学习指令中不同字符间的双向依赖关系,然后将隐藏状态分别输入两组MLP中,一组MLP预测目标字符的意图I,另一组MLP预测目标字符所属管制信息的标签类型E。该模型主要思想是构建基于BiLSTM的语言模型,学习管制指令文本中的语言知识,然后基于语言知识预测管制意图和管制信息。
在此基础上,Lin等[6]对CII模型中的输出层进行了改进,将MLP替换为深度全连接神经网络(Deep Neural Network, DNN),有效提升CII模型对管制意图和管制信息类型的预测。
CII模型虽然可从管制指令文本中较准确地提取管制信息,但具有以下不足之处:
1)编码层使用BiLSTM对输入序列建模,输出为两个方向相反的单向LSTM隐藏状态的拼接,并未学习到字符之间真正意义上的双向依赖关系。
2)输出层使用DNN或MLP单独预测每个字符的信息标签,忽略了不同字符标签间的依赖关系,因此,未利用全局信息,影响了信息抽取的准确率。
3)需要使用大量的领域数据进行训练,因此耗费更多的标注成本。

2 预训练语言模型

2.1 基本模型

预训练语言模型是自然语言处理的主流模型,包含“预训练”和“微调”两个阶段。在预训练阶段,模型从海量的通用数据中学习词汇、语法结构等语言知识。在微调阶段,针对下游任务改造模型,使用领域数据集进行训练,使模型更好地适应下游任务。管制信息抽取任务是一类序列标注任务,可构建BERT对管制指令文本进行表征,再通过输出层生成标签序列,最后,根据标签序列提取关键信息。
BERT[9]是一种基于多层Transformer[10]编码层堆叠而成的预训练语言模型,可以从管制指令文本中学习字符间的依赖关系和语法知识。BERT的输入由三部分组成,分别是词向量、块向量和位置编码:
X=XT+XS+XP
式中,X∈RT×H表示BERT的输入向量,T表示输入序列的长度,即字符数量,H表示输入向量的隐藏维度大小。XT表示输入的词向量序列,可使用word2vec得到。XS表示输入的块向量序列,由于管制信息抽取任务的输入中只包含一个句子,XS=0。XP表示输入词向量序列的位置编码,即字符间的位置关系。
在BERT输入向量的起始位置,需要使用特殊标记[CLS]表征句子信息,若输入序列长度不足预设定的输入序列长度,可使用特殊标记[PAD]进行填充补全。根据定义,BERT的前向计算过程可由以下形式表示:
hl=Trans(hl-1)
式中,hl∈RT×H表示第l层的输出向量,l表示BERT中Transformer编码器的层数。第一层的输入向量等于BERT的输入向量。
h0=X
式中,h0表示第一层输入,BERT的输出向量定义为最后一层的输出:
y=hL
式中,hL表示最后一层的输出,L表示BERT中包含的Transformer编码器的总层数。

2.2 预训练

在预训练阶段中,首先使用通用数据集对BERT进行自监督训练,在训练中使用掩码语言模型(Masked Language Model, MLM)任务。在该任务中,随机选择句子中15%的字符,再以80%的概率将选中字符替换为特殊标记[MASK],以10%的概率替换为任意一个其他字符,以10%的概率保持不变,生成训练数据。MLM任务的目标是恢复被[MASK]替换的字,训练目标如下所示:
m a x θ log pθ( x ˜| x ^)≈ n = 1 Nmnlog pθ(xn| x ^)
式中,pθ( x ˜| x ^)表示经过替换后得到的序列 x ^推导被[MASK]替换的字符 x ˜的条件概率。θ表示模型参数,mn=1表示xn被[MASK]替换,mn=0表示xn未被替换。pθ(xn| x ^)表示从序列 x ^推导出第n个位置上的字符xn的条件概率。
在预训练之后,BERT一方面从通用数据集中学习语言知识,另一方面初始化模型内部参数。在面向管制信息抽取任务进行微调时,仅需要较少的管制指令数据,就能使BERT学习深层的领域知识,并实现管制信息精准抽取。

2.3 微调

在微调阶段,将管制信息抽取看成序列标注任务,基于预训练的模型,构建管制信息抽取模型BERT-CRF,模型结构如图2所示。
图2 BERT-CRF的模型结构

Fig.2 The structure of BERT-CRF model

定义输入文本为x={x1,x2,…,xN},N表示文本长度,经过BERT处理后输出表征序列X∈RN×H,并作为CRF的观测序列。定义标签序列Y∈RN×C为CRF的隐藏状态序列,其中C表示标签类别的集合。假设观测序列X和隐藏状态序列Y满足马尔科夫性,CRF的目标是对条件概率P(Y|X)建模。
CRF使用维特比算法预测标签序列,在隐藏状态序列Y中引入y0=start,预测起始位置上的条件概率P(y1=c|X)。然后,依次递归地预测下一个位置上的条件概率P(yi|X),则预测过程的数学形式如下所示:
P(yi=c|X)=max[P(yi-1|X)+λiti(yi-1,yi,X)+μisi(yi,X)]
式中,cC表示标签类别,ti(yi-1,yi,X)表示从位置i-1的隐藏状态yi-1转移到当前位置i的隐藏状态yi的转移概率,si(yi,X)为当前位置i的隐藏状态为yi的发射概率。λiμi分别表示权重。模型的训练目标为极大化训练数据的对数似然函数。

2.4 模型优化

BERT包括12层Transformer编码层,每一层神经元都有768个,因此模型参数量非常大,在预测过程中,需要耗费更多时间进行推理计算。在实际管制中,为提升模型的预测速率,可减少模型的参数量以实现模型优化。具体方法如下:使用探测任务(Probing Task)计算BERT每一层连接CRF的预测准确率,选择最优结果对应的层数作为BERT的最后一层,构建信息抽取模型。
探测任务的过程如下所示:首先,使用通用数据集对BERT模型进行预训练;然后,以BERT的第l层作为最终层,构建信息抽取模型BERTl-CRF,层数满足1≤l≤12。BERT12-CRF等价于优化前的管制信息抽取模型BERT-CRF。最后,使用管制指令数据集对BERTl-CRF进行有监督训练,在管制信息抽取任务中评估准确率,选择准确率最高的BERTl-CRF作为优化后的最终模型。

3 仿真分析

采集5 000条真实的管制指令数据验证模型。随机选择4 500条作为训练集,500条指令作为测试集。数据在不同运行场景中分布较为均匀,如图3所示。
图3 管制指令数据分布

Fig.3 Distribution of control instructions

模型的超参数定义如表1所示。
表1 超参数设置

Tab.1 The setup of parameters

参数 数值
批次大小 16
输入长度 40
学习率 1×10-7
随机丢弃率 0.1
注意力头数 12
模型层数 1-12
在管制信息抽取任务中,首先使用“BIO”标注法对文本数据进行标注,生成训练数据集。然后对BERT-CRF进行训练。

3.1 探测任务

使用探测任务探索BERT-CRF的最优结构,使用数据集分别训练不同层的BERTl-CRF模型。在训练过程中,为降低初始几轮训练梯度的不稳定性,使用预热方法设置学习率,即初始学习率设置为较小的1×10-7,然后经过100轮的训练后,将学习率逐渐上升到2×10-5,然后再逐渐下降至接近0,并使模型最终收敛至一个较小的误差范围。然后,使用测试集进行验证,测试误差如表2所示。
表2 探测任务的测试误差

Tab.2 Test error of probe task

模型层数 错误率 模型层数 错误率
1 4.42% 7 2.11%
2 5.15% 8 2.34%
3 3.75% 9 2.03%
4 3.42% 10 1.98%
5 2.21% 11 2.05%
6 1.81% 12 1.91%
表2所示,选择BERT的第6层作为编码层的最终输出时,所构建的BERT6-CRF模型在管制信息抽取任务上的错误率最小,是最优模型。若将12层的BERT划分为3个层次,则每一层次都善于学习不同类型的语言知识[11]。BERT的底层(1-4层)主要学习词汇知识,中层(5-8层)主要学习语法知识,顶层(9-12层)主要学习语义知识。由此可知,不同层次的输出可以得到不同任务的最优解。管制信息抽取任务属于序列标注任务,该任务不需要使用较深的语义知识,因此可以使用BERT的前6层构建模型,以减少一半的模型参数量,提升模型的预测速度。

3.2 对比分析

将本文提出的BERT-CRF与CII进行对比。CII的超参数设置如下:编码层选择2层BiLSTM,每层包含512个神经元,输出层选择2层DNN网络。使用训练数据集对CII进行训练,然后使用测试集进行验证,测试误差对比如表3所示。
表3 测试误差对比

Tab.3 Comparison of test error

模型 BERT6-CRF BERT12-CRF CII
错误率 1.81% 2.03% 2.35%
表3所示,与CII相比,BERT6-CRF的错误率仍然最小。其原因在于BERT-CRF分别对模型的编码层和输出层进行了改进。在编码层使用BERT替换BiLSTM,由于BERT可以同时学习目标字符的上下文信息,表征结果更好。而使用CRF则可以学习输入句子的全局信息,捕捉标签之间的依赖关系,提升了预测结果的准确性。综上所述,BERT-CRF在模型结构上更优于CII,因此对管制指令信息的抽取准确率更高。

4 结束语

本文提出一种基于预训练模型的管制信息抽取模型BERT-CRF,以降低训练数据量的限制,实现小样本学习。使用探测任务对模型进行优化,降低参数量,提升推理速度和准确率。仿真结果表明,优化后的模型对管制信息的抽取准确率不低于98%。该模型可以有效提升空管系统的智慧化程度,辅助管制员理解管制指令内容,支撑飞行冲突检测,保障航空运输安全。
[1]
王爱国. 陆空通话与飞行安全[J]. 中国民用航空, 2006, 32(1): 69-70.

WANG A G. Air/ground communication and flight safety[J]. Safety and Security, 2006, 32(1): 69-70.

[2]
陈亚青, 蒋豪, 韩丹. 管制指令语音识别在模拟飞行界面的实现[J]. 计算机系统应用, 2016, 25(11): 265-269.

CHEN Y Q, JIANG H, HAN D. Realization of the control instruction of voice controlling aircrafts' flying in the flight simulation interface[J]. Computer Systems & Applications, 2016, 25(1):265-269.

[3]
Helmke H, Slotty M, Poiger M, et al. Ontology for transcription of ATC speech commands of SESAR 2020 solution PJ. 16-04[C]// Proceedings of the 37th AIAA/ IEEE Digital Avionics Systems Conference, London, UK, 2018: 1-10.

[4]
李春利, 董冠灵, 郭倩. 基于HMM的空管指令语音识别研究[C]. 智能运输系统学术研讨会. 天津: 中国民航大学, 2007.

LI C L, DONG G L, GUO Q. Research on HMM based speech recognition of ATC instruction[C]. Seminar on Intelligent Transportation System, Tianjin:Civil Aviation University of China, 2007.

[5]
LIN Y, TAN X L, YANG B, et al. Real-time controlling dynamics sensing in air traffic system[J]. Sensor, 2019, 679(19): 1-16.

[6]
LIN Y, DENG L J, CHEN Z M, et al. A real-time ATC safety monitoring framework using a deep learning approach[J]. IEEE Transactions on Intelligent Transportation Systems, 2020, 21(11): 4572-4581.

DOI

[7]
中国民用航空总局. 空中交通无线电通话用语, MH/T 4014-2003[S]. 北京: 中国标准出版社, 2003.

Civil Aviation Administration of China. Radiotele-phony communications for air traffic service, MH/T 4014-2003[S]. Beijing: China Standards Press, 2003.

[8]
LIN Y. Spoken instruction understanding in air traffic control: challenge, technique, and application[J]. Aerospace, 2021, 8(3): 65-87.

DOI

[9]
Devlin J, Chang M W, Lee K, et al. BERT:pre-training of deep bidirectional transformers for language understanding[C]// Proceedings of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Minneapolis, USA, 2019: 4171-4186.

[10]
Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]// Proceedings of Advances in Neural Information Processing Systems, Long Beach, USA, 2017: 5998-6008.

[11]
Jawahar G, Sagot B, Seddah D. What does BERT learn about the structure of language[C]// Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, Firenze, Italy, 2019: 3651-3657.

文章导航

/