空中交通管理以确保空域中航空器的飞行安全为首要任务。近年来,国内外发生多起飞行安全事故和事故征候。根据统计资料显示,在过去发生的飞行安全事故中,人为因素占75.5%。由此可见,人的因素对航空安全有重大的影响
[1]。管制指令是管制员指挥航空器运行的主要手段,其贯穿滑行、起飞、巡航、降落等整个航班的飞行过程,管制指令的错误表达或错误理解会引发飞行冲突,导致航空运行的潜在安全隐患。
管制指令包含航空器位置、目的地、速度、高度和航向等信息,由于其是非结构化文本,空管系统无法直接理解并从管制指令中提取上述信息。自然语言处理技术可以增强空管系统对管制指令的理解能力,包括三种实现方式:一是构建规则提取管制信息,陈亚青等
[2]根据不同场景设计管制指令模板,并用于提取管制信息,构建本体模型也可以实现对管制信息的理解和提取
[3];二是基于机器学习,李春利等构建隐马尔科夫模型提取管制信息
[4];三是基于深度学习,将陆空通话看作对话理解任务,构建深度神经网络对管制指令的意图进行识别,同时对管制中的关键信息进行提取
[5-6]。
中国民航局制定的《空中交通无线电通话用语标准》中的用语规范明确了管制指令具有专业特征强,指令公式化,简练性,词语单一意旨性等特性
[7],可为信息抽取规则的构建提供依据。然而,在实际管制过程中,管制员易出现重复、隐字、口语或加字现象,导致指令的语法结构发生畸变,词语顺序被扰乱,信息的分布呈现随机性,降低了规则抽取的准确率。基于机器学习和深度学习的方法可以从历史数据中学习畸变的语法结构,实现精准的管制信息抽取。
训练深度神经网络需要大量标注数据,且由于管制指令文本需要经过自动语音识别系统
[8],对管制语音进行转录和人工校正后得到,会耗费大量的时间、经济和人力成本。
为解决上述问题,本文提出一种新的管制信息抽取方法,包括预训练语言模型BERT和条件随机场(Conditional Random Field, CRF)。前者对输入的管制指令文本进行语义编码,而CRF对BERT的语义编码进行推理和预测,生成管制信息标签序列。