现代战争已步入智能化时代,军事演习过程中会产生海量数据,给予事后评估机构及其相关人员巨大的分析压力,若处理不当,则会造成重要信息丢失、数据混乱等问题。面对新时代的战场环境,研究人员急需一种能够自动识别提取文本关键信息的技术,从海量数据中提取关键事件,挖掘军事演习训练文本的潜在价值。而事件提取作为一种能够自动化、智能化提取文本关键信息的技术,对提升军事决策的科学性、演习训练的有效性以及作战指挥的高效性都具有重要意义。
军事演习训练文书是指导演习实施的重要文件,进入智能化时代后,演训文书处理的准确性和时效性需满足更高的要求。但多种不同来源的演训数据在格式上并不统一,存在大量非结构化和半结构化的数据。针对上述演训文书海量数据来源多、格式乱等问题,迫切需要一种自动化地提取演训文书中关键事件信息的技术,通过演训数据处理,为导调控制、裁决评估和复盘分析提供支撑。
目前,国内在军事事件提取领域应用较少
[1],仅在军事命名实体识别
[2-4]、作战文书事件提取
[5-7]领域有所涉及。提取方法随着命名实体识别算法发展而快速发展,逐步由基于规则和统计的算法向机器学习算法、深度学习算法演变
[8],而基于深度学习的事件提取算法凭借出色的精准度已成为主流。
在军事命名实体识别领域,李健龙等
[2]采用一种循环神经网络RNN的双向LSTM算法,利用其长距离依赖和上下文信息捕捉的优点,对特征提取后的军事文本进行模型训练,通过多次修改实验参数,提升了军事命名实体识别的准确率等指标;刘卫平等
[3]提出一种基于迁移学习的BERT-Bi-LSTM-CRF算法,融合BERT、Bi-LSTM、CRF的优势,通过结合字符、位置、词性和语义四类信息,在小样本条件下达到较高的军事命名实体识别准确率;金浩哲等
[4]基于预训练模型BERT,结合Bi-LSTM、CRF算法以及Attention机制,提出新的BERT-Bi-LSTM-ATT-CRF算法,对军事人物、军事地点等六类实体识别,并实验对比其他3种基准算法,得到最高的准确率。
在作战文书领域,张晓海等
[5]针对传统规则、统计算法识别率不高的问题,提出基于Bi-LSTM-CRF的算法,在手工标注的训练集上,对7类实体要素识别进行测试,显著提升实体识别准确率;王学峰等
[6]针对人工构建模版在作战文书事件提取中出现的通用性和泛化性不强的问题,提出一种基于深度学习的作战文书事件抽取方法ELMo+Bi-LSTM+CRF,结合动态字向量ELMo对汉语语义的多重表示能力、BiLSTM网络对较长句子上下文记忆能力和条件随机场CRF对标注规则的学习能力,在演习导调文书语料集方面取得良好效果;陈勇等
[7]提炼五类作战文书中的关键信息,提出一种以BERT+Bi-LSTM+CRF为基础的作战情报文本关键抽取算法,提高各类信息的流转效率。
但是,在演训领域的命名实体识别与其他非军事领域
[8-10]中的关键信息实体并不一致,需要总结归纳出演训领域的事件要素。而且命名实体识别模型在处理复杂语境时仍存在挑战
[11],模型鲁棒性仍需提升。
本文提出一种基于深度学习的事件提取技术ALBERT+CRF,总结归纳出演训领域特有的事件要素,拓展了演训领域实体范围,增加编成和属性要素,并通过预训练模型ALBERT强大的特征提取能力,使得在军事演训的语境条件下仍然有较好的鲁棒性,提升了抽取结果的准确性、可用性。