中国科技核心期刊      中国指挥与控制学会会刊     军事装备类重点期刊
Intelligent Information Fusion

Event extraction technology of training documents based on deep learning

  • JIA Chunqiu ,
  • DOU Lintao ,
  • ZENG Qing
Expand
  • Jiangsu Automation Research Institute, Lianyungang 222061,China

Received date: 2024-11-06

  Revised date: 2024-12-03

  Online published: 2025-03-27

Abstract

A large amount of textual information will be generated in the exercise training process, and enormous cognitive pressure will be exerted on training evaluators due to complexity and diversity of such information.How to fully extract unstructured data from exercise training documents and provide efficient services for analysis and evaluation personnel is a challenging issue in data processing. In this paper, we propose a deep learning-based event extraction technique for exercise training documents, which addresses the characteristics of abundant professional terminology, coexistence of Chinese and English, and dense key information in short sentences. By leveraging the powerful text feature extraction of ALBERT and the structured prediction of CRF sequence labeling, we construct an event extraction model for exercise training documents. Experimental results on the training data set demonstrate that this model performs well in text extraction and has practical applications for extracting information from exercise training documents.

Cite this article

JIA Chunqiu , DOU Lintao , ZENG Qing . Event extraction technology of training documents based on deep learning[J]. Command Control and Simulation, 2025 , 47(2) : 68 -74 . DOI: 10.3969/j.issn.1673-3819.2025.02.009

现代战争已步入智能化时代,军事演习过程中会产生海量数据,给予事后评估机构及其相关人员巨大的分析压力,若处理不当,则会造成重要信息丢失、数据混乱等问题。面对新时代的战场环境,研究人员急需一种能够自动识别提取文本关键信息的技术,从海量数据中提取关键事件,挖掘军事演习训练文本的潜在价值。而事件提取作为一种能够自动化、智能化提取文本关键信息的技术,对提升军事决策的科学性、演习训练的有效性以及作战指挥的高效性都具有重要意义。
军事演习训练文书是指导演习实施的重要文件,进入智能化时代后,演训文书处理的准确性和时效性需满足更高的要求。但多种不同来源的演训数据在格式上并不统一,存在大量非结构化和半结构化的数据。针对上述演训文书海量数据来源多、格式乱等问题,迫切需要一种自动化地提取演训文书中关键事件信息的技术,通过演训数据处理,为导调控制、裁决评估和复盘分析提供支撑。
目前,国内在军事事件提取领域应用较少[1],仅在军事命名实体识别[2-4]、作战文书事件提取[5-7]领域有所涉及。提取方法随着命名实体识别算法发展而快速发展,逐步由基于规则和统计的算法向机器学习算法、深度学习算法演变[8],而基于深度学习的事件提取算法凭借出色的精准度已成为主流。
在军事命名实体识别领域,李健龙等[2]采用一种循环神经网络RNN的双向LSTM算法,利用其长距离依赖和上下文信息捕捉的优点,对特征提取后的军事文本进行模型训练,通过多次修改实验参数,提升了军事命名实体识别的准确率等指标;刘卫平等[3]提出一种基于迁移学习的BERT-Bi-LSTM-CRF算法,融合BERT、Bi-LSTM、CRF的优势,通过结合字符、位置、词性和语义四类信息,在小样本条件下达到较高的军事命名实体识别准确率;金浩哲等[4]基于预训练模型BERT,结合Bi-LSTM、CRF算法以及Attention机制,提出新的BERT-Bi-LSTM-ATT-CRF算法,对军事人物、军事地点等六类实体识别,并实验对比其他3种基准算法,得到最高的准确率。
在作战文书领域,张晓海等[5]针对传统规则、统计算法识别率不高的问题,提出基于Bi-LSTM-CRF的算法,在手工标注的训练集上,对7类实体要素识别进行测试,显著提升实体识别准确率;王学峰等[6]针对人工构建模版在作战文书事件提取中出现的通用性和泛化性不强的问题,提出一种基于深度学习的作战文书事件抽取方法ELMo+Bi-LSTM+CRF,结合动态字向量ELMo对汉语语义的多重表示能力、BiLSTM网络对较长句子上下文记忆能力和条件随机场CRF对标注规则的学习能力,在演习导调文书语料集方面取得良好效果;陈勇等[7]提炼五类作战文书中的关键信息,提出一种以BERT+Bi-LSTM+CRF为基础的作战情报文本关键抽取算法,提高各类信息的流转效率。
但是,在演训领域的命名实体识别与其他非军事领域[8-10]中的关键信息实体并不一致,需要总结归纳出演训领域的事件要素。而且命名实体识别模型在处理复杂语境时仍存在挑战[11],模型鲁棒性仍需提升。
本文提出一种基于深度学习的事件提取技术ALBERT+CRF,总结归纳出演训领域特有的事件要素,拓展了演训领域实体范围,增加编成和属性要素,并通过预训练模型ALBERT强大的特征提取能力,使得在军事演训的语境条件下仍然有较好的鲁棒性,提升了抽取结果的准确性、可用性。

1 演训文书事件要素特点

演训文书是军事演习或训练过程中产生的一系列文档,是演训分析评估的主要数据来源,这类文本信息详细记录了演训计划、执行和评估过程。演训文书包括演习方案计划、文书文电、小结、要报、详报、人工采集表、评估报告等。演习方案计划中包括演训目的、时间、地点、参训兵力、任务计划等消息。文书文电是作战指挥信息的主要载体,包含指挥信息、通报信息、战场态势信息、环境信息等。小结、要报和详报是参训部队每天或每个演习回合专门记录主要作战过程的文档,包含了大量作战关键事件信息。人工采集表是专为分析评估制定的格式化的采集表,记录分析评估所需的关键事件及相关参数属性信息。评估报告记录演习评估结果、成绩和评价信息。
不同于医学[12]、金融[13]等领域的实体识别,军事领域演训文书的实体有其自身的特点。结合军事词典、演训实际文书等资料,总结归纳出军事演训领域涵盖全部文本特征的五类实体,分成时间、地区、动作、属性、编成,如图1所示。
图1 演训文书五类关键要素

Fig.1 Five key elements of the training document

(1)时间
大量出现在文书每段开头以准确记录动作对应的时间。通常以两种形式出现:一是按月日,如“10月1日”;一是按时分秒,如“090807”是按24小时制,代表9时8分7秒。
(2)地区
一般以坐标和地点形式出现,来描述演训过程中舰艇及飞机的精确点位,也会出现“01号空域10点”等范围信息。
(3)属性
属性实体可分为自身属性和目标属性,对应演训过程中的红蓝对抗双方,进一步细分为数量、方位、速度、高度、距离等要素。文书中的发射导弹数量、目标所在方位、目标距离、目标速度都属于属性类别。
(4)动作
在军事领域中,根据不同的演训内容分成不同的事件类型,具体指侦察、探测、通信、指挥、电子对抗、攻击、防御、部署等行为,体现为部队在活动中的运动情况。
(5)编成
军队编成是指军队的组织构成,包括组成的力量和编组形式。本文的编成类要素包含部队名称、武器型号、平台设施等。
部队名称类要素,一般以阿拉伯数字起始,后接部队编制词,如“第17旅第1营”,且一般以简称出现,如“防空第7旅”表示为“防空7旅”。武器型号类要素,一般以型号命名,由阿拉伯数字、大写字母、汉字等符号组成。平台设施类要素,主要指舰艇、飞机、车辆等设施及其对应的型号,其中舰艇以舷号命名,飞机和车辆主要以型号命名。
演训文书中,对不同事件要素提取有以下难点:
①短句中关键信息密集,演训小结、要报详报中对战斗过程的描述多采用短句子,句子中属性信息较多,如“某舰位北纬110度21分点8、东经23度10分点5,航向25度、航速10节,对1001批目标模拟发射X型导弹1枚,目标方位20度、距离10 km,临空时间141210”,上述短句包含时间、地域、属性、动作、编成等五类关键要素。
②中英文共存,演训文本中经常出现军事设备及设施的型号,一般都为英文加阿拉伯数字,如“YJ-x”、“SAN-x”等,而型号前后常为中文,如“某舰参加活动,模拟发射YJ-x型号舰舰导弹1枚,人员安全,武备良好。”
③专业名词多,军事演训领域文本有大量专业术语和词汇,需要根据预先制定的词典进行分词,提高精确度。
通过对大量演训文书内容的研究,以及演训人员决策信息需求的分析,以要素中的不同动作作为划分事件类型的依据,总结出演训文书中5类事件类型及其论元角色,如表1所示。
表1 演习训练文书事件类型及论元角色

Tab.1 Exercise training document event types and meta-roles

事件类型 论元角色
发射 时间(Time)、地点(Location)、发射主体(Launcher)、客体目标(Target)、发射物(Projectile)
抗击 目标(Target)、时间(Time)、地点(Location)、毁伤者(Damager)、受损者(Damaged)、抗击手段(Method)
侦察 时间(Time)、地点(Location)、侦察者(Reconnaissance)、侦察目标(Target)、侦察手段(Method)
毁伤 时间(Time)、地点(Location)、毁伤者(Damager)、受损者(Damaged)、毁伤程度(Level)
机动 时间(Time)、地点(Location)、机动者(Maneuver)、机动目标(Target)、机动方式(Method)

2 演训文书事件抽取模型结构

针对上述三个演训文书难点,本文提出一种新的基于深度学习的事件提取模型ALBERT+CRF。通过ALBERT(A Lite BERT)预训练模型进行演训事件特征提取,经Softmax层得到输入文本序列对应的最大概率标签,并结合条件随机场(conditional random field, CRF)学习得到标签之间的关系,进一步提高模型的准确率,如图2所示。
图2 ALBERT+CRF模型架构图

Fig.2 ALBERT+CRF model architecture

2.1 ALBERT层

ALBERT是一个基于Transformer编码器轻量化的预训练语言模型,通过多项数学优化,在保持模型性能的同时,显著减少了计算资源需求和内存占用。Transformer核心机制为自注意力机制(self-attention),通过为文本序列中每个元素分配不同的权重,提高关系性强的权重,减少关系性弱的权重,最终捕捉词与词之间的长距离依赖关系。
图3 Transformer结构

Fig.3 Transformer structure

Self-attention机制使用如下公式进行计算:
$\operatorname{Attention}\left(\boldsymbol{Q}_{n}, \boldsymbol{K}_{n}, \boldsymbol{V}_{n}\right)=\operatorname{softmax}\left(\boldsymbol{A}_{n}\right) \boldsymbol{V}_{n}$
An= Q n K T n d k
Self-attention机制中, 查询矩阵Qn(query)、键矩阵Kn(key)、值矩阵Vn(Value)都是输入的特征矩阵,而dk是输入向量的维度。查询矩阵Qn用于查询输入序列各位置的信息,并与所有键向量比较,以确定哪些位置的信息对当前位置最重要。键矩阵Kn表示各位置的键,用于计算注意力分数。值矩阵Vn包含各位置的实际信息,根据注意力分数加权组合,生成最终输出。通过查询矩阵Qn,在键矩阵Kn中寻找相关向量,并计算特征之间的相关性,最终得到值矩阵Vn便是字符之间相似度。
BERT基础上,ALBERT进行跨层参数共享,包括注意力机制共享和前馈网络共享。跨层参数共享使得所有层的注意力机制中的查询、键和值矩阵是共享的,每一层的这些矩阵都是相同的。前馈网络共享是所有层的前馈网络中的全连接层的权重和偏置是共享的。ALBERT通过跨层参数共享,显著减少了模型的参数量和计算复杂度,使得模型在训练过程中更加稳定,减少了过拟合的风险。
训练中,ALBERT整合字符级(词嵌入)、句子级和位置信息作为输入,通过遮蔽中间字符并利用前后字符进行预测,使模型深入理解上下文。

2.2 CRF层

ALBERT的输出只是经过softmax层以后的最大概率标签,未考虑标签之间的前后关系,会出现“I-Time”在“B-Time”前的常识性错误,影响结果的准确率。
CRF算法则能够考虑相邻标签之间的关系,获得全局最优的标签序列,对不合理的输出进行“矫正”。将ALBERT的表示能力与CRF的序列建模能力结合,可以在保持上下文理解的同时,确保序列标注的准确性和一致性。
假设输入文本序列为X={x1,x2,…,xn},输出标注序列为Y={y1,y2,…,yn},其中xi 是第i个词的文本,yi是第 i个词的标签。CRF的目标是最大化给定输入序列X 的条件下,标注序列Y的条件概率P(Y|X)。
Outi,yi是ALBERT的输出矩阵,T为标签i转移为标签j的概率矩阵,则其标签分数函数为
S X , Y= i = 0 n - 2Ti,j+1+ i = 0 n - 1outi,yi
则预测序列Y的条件概率即CRF结果为
P(Y|X)= e S ( X , Y ) Y - Z X e S ( X , Y - )
其中,ZXX所有可能的标签序列,两边取对数后得
log(P(Y|X))=S(X,Y)-log( Y - Z X e S ( X , Y - ))
将式(5)作为损失函数,利用梯度下降法求得最小损失,即为P(Y|X)最大值,得到在Outi,yi输出条件下,Y的全局最优标签序列。

3 模型训练方法及步骤

本文采用演训文书文本与公开军事新闻数据集作为数据源输入,经数据预处理、数据标注等操作后进行模型训练,通过ALBERT+CRF算法提取演训事件的五类要素。本文作者引入交叉验证来验证模型以及对准确率、召回率、F1值3个性能指标进行评估。模型训练流程如图4所示。
图4 模型训练流程图

Fig.4 Flowchart of model training

3.1 数据源输入

数据源包括公开军事新闻数据集与多类演训文书,其中使用公开军事新闻数据集15 000条包含演训计划、评估反馈等种类的数据,去除标点和特殊字符后,标注5类关键信息用作模型训练。演训文书以某部队实际演练活动后产生的文书为主,包含要报、详报、小结等多种类型,一共40份,用于模型预测。实验将各类文书中的坐标、时间、地点、编成等,经过数据清洗后用于模型提取。处理后的样例数据如表2所示。
表2 演训文书样例数据及其种类表

Tab.2 Sample data of training documents and their types

序号 样例数据 文书种类
1 6月8日1000至1200,红方某舰模拟发射X型舰舰导弹1枚、X型舰空导弹1枚。 演训要报
2 蓝方某舰位北纬25度50分点4,东经105度10分点2,航向107度,航速5节,对红方某舰实施导弹攻击,发射X型舰舰导弹1枚,目标方位125度,目标距离40.8千米。 演训详报
3 14时47分蓝方X型飞机进入01号空域,在指挥部引导下,听令前出截击红方空中目标,15时20分退出01空域。 演训小结
将公开军事新闻类数据集15 000条全部用于模型训练,对40份演训文书随机取样,按0.75、0.15、0.15的比例划分成训练集、验证集和测试集。

3.2 数据预处理及训练集标注

本文采用哈工大LTP分词工具实现对演训文书的分词处理,使用ALBERT生成词向量,并以人工的形式对训练集进行不同实体元素标注。本文使用“BIO”策略进行标注,其中B代表实体元素的开头,I代表实体元素中间及结尾部分,O表示非实体元素。根据演训文书事件提取的需求,选择标注5类实体,以“121412时,X型雷达加高压,加强对方位050-100度低空快速小目标搜索。”为例,BIO标记结果如表3所示。
表3 BIO标记结果样例

Tab.3 Sample data of BIO

121412 X型 雷达 050
B-time I-time B-Form I-Form O O O B-ELE I-ELE I-ELE O
100
I-ELE I-ELE O O O O O O O B-act I-act

3.3 模型训练与输出

深度学习算法由ALBERT+CRF组成,输入分词后的演训文书语句,通过ALBERT中文预训练模型获取输入的字符级特征向量,然后利用softmax得到输入的最大概率标签,最后利用CRF对输出进行优化,得到全局最优标记。根据输入的文本序列,经模型输出为标签序列,采用交叉验证方法,在验证集中得到输出的准确率等指标。

4 实验分析

4.1 实验环境

实验以适用Python语言的编译软件Pycharm作为调试工具,主要调用Pytorch深度学习框架进行开发,以下是训练模型所用的环境,如表4所示。
表4 Pytorch深度学习训练环境

Tab.4 PyTorch deep learning training environment

实验环境 配置参数
编程语言及环境 Python3.9,Pycharm Community Edition2024
深度学习框架 Pytorch2.3
服务器参数 GPU:Nvidia 4070 super
GRAM:DDR4 32 G
SYS:windows 10

4.2 实验结果

实验使用BiLSTM+CRF、BERT+CRF、ALBERT、ALBERT+CRF等模型进行试验对比,神经网络参数如表5所示。
表5 实验参数表

Tab.5 Experimental parameters

超参数 Dropout LR Batch_size Epoch Optimizier Embedding_size
预设值 0.1 0.02 8 1000 Adam 128
在训练过程中,研究人员使用Adam优化器对网络参数进行优化,并采用Warm Up策略,使得开始时以较小学习率0.001进行训练,缓慢到达预设值0.02,避免陷入局部最优解。模型也通过使用Dropout减少一部分不必要参数,达到快速收敛的目的,在1 000 Epoch之后,最终选择训练过程中在验证集上损失最低的模型参数作为训练结果。对4组模型进行训练,结果如表6所示。
表6 实验模型训练结果表

Tab.6 Experimental model training results

算法 精确率/% 召回率/% F1值/%
BiLSTM+CRF 88.49 88.91 88.70
BERT+CRF 91.20 90.57 90.88
ALBERT 92.56 91.88 92.22
ALBERT+CRF 94.78 95.60 95.20
为评估本文提出事件提取算法ALBERT+CRF性能,研究人员采用精确率(Precision)、召回率(Recall)、F1(F1 Score)分数作为评价指标,3个性能指标对应公式如下。
Precision= T P T P + F P
Recall= T P T P + F N
F1= 2 * P r e c i s i o n * R e c a l l P r e c i s i o n + R e c a l l
其中,精确率是指被预测为正,实际也为正的样本占被预测为正的样本的比例;召回率是指实际为正的样本中被预测为正所占的比例;F1值是综合精确率和召回率的调和平均式。
研究人员通过对比BiLSTM+CRF、BERT+CRF和ALBERT+CRF算法,可见基于深度学习的算法为事件提取带来较高的准确率、召回率、F1值提升。ALBERT与ALBERT+CRF实验结果表明,CRF能更好利用前后相邻标签之间的关系,使得模型有更好的识别效果。从上述实验结果可以看出,使用ALBERT预训练模型与CRF,能够有效提升演训文本中关键信息的抽取能力。

5 结束语

本文根据演训文书存在中英文共存、短句关键信息密集等问题,提出一种基于ALBERT+CRF模型的深度学习演训文书事件提取方法,通过对自建演训数据集实验,最终使整体准确率、召回率、F1值分别达到94.78%、95.60%、95.20%,证明了模型的有效性和可靠性。模型融合ALBERT与CRF各自的优点,自动抽取演训文书时间、地区、编成、动作、属性等5类关键信息,能够帮助演训保障人员自动提取文本中关键事件,提升信息的利用效率,并为下游数据提供来源。
[1]
吴蕾, 邓甡屾, 柳少军, 等. 事件提取方法在军事领域的应用趋势[J]. 指挥控制与仿真, 2021, 43(6): 122-127.

DOI

WU L, DENG S S, LIU S J, et al. Event extraction methods and development trend in military field[J]. Command Control & Simulation, 2021, 43(6): 122-127.

[2]
李健龙, 王盼卿, 韩琪羽. 基于双向LSTM的军事命名实体识别[J]. 计算机工程与科学, 2019, 41(4): 713-718.

LI J L, WANG P Q, HAN Q Y. Military named entity recognition based on bidirectional LSTM[J]. Computer Engineering & Science, 2019, 41(4): 713-718.

[3]
刘卫平, 张豹, 陈伟荣, 等. 基于迁移表示学习的军事命名实体识别[J]. 指挥信息系统与技术, 2020, 11(2): 64-69.

LIU W P, ZHANG B, CHEN W R, et al. Military named entity recognition based on transfer representation learning[J]. Command Information System and Technology, 2020, 11(2): 64-69.

[4]
金浩哲, 董宝良, 杨诚. 基于预训练模型与神经网络的军事命名实体识别[J]. 电子设计工程, 2022, 30(20): 51-55.

JIN H Z, DONG B L, YANG C. Military named entity recognition based on pre-trained modelsand neural networks[J]. Electronic Design Engineering, 2022, 30(20): 51-55.

[5]
张晓海, 操新文, 彭双震, 等. 基于BI-LSTM-CRF的作战文书命名实体识别[J]. 信息工程大学学报, 2019, 20(4): 502-506, 512.

ZHANG X H, CAO X W, PENG S Z, et al. Named entity recognition for combat documents based on BI-LSTM-CRF[J]. Journal of Information Engineering University, 2019, 20(4): 502-506, 512.

[6]
王学锋, 杨若鹏, 李雯. 基于深度学习的作战文书事件抽取方法[J]. 信息工程大学学报, 2019, 20(5): 635-640.

WANG X F, YANG R P, LI W. Operational document event extraction approach based on deep learning[J]. Journal of Information Engineering University, 2019, 20(5): 635-640.

[7]
陈勇, 邢欣, 张锦文. 面向文书的情报关键信息抽取算法[J]. 火力与指挥控制, 2023, 48(1): 142-148, 157.

CHEN Y, XING X, ZHANG J W. Document-oriented intelligence key information extraction algorithm[J]. Fire Control & Command Control, 2023, 48(1): 142-148, 157.

[8]
杨飘, 董文永. 基于BERT嵌入的中文命名实体识别方法[J]. 计算机工程, 2020, 46(4): 40-45, 52.

DOI

YANG P, DONG W Y. Chinese named entity recognition method based on BERT embedding[J]. Computer Engineering, 2020, 46(4): 40-45, 52.

DOI

[9]
余丹丹, 黄洁, 党同心, 等. 基于ALBERT的中文简历命名实体识别[J]. 计算机工程与设计, 2024, 45(1): 261-267.

YU D D, HUANG J, DANG T X, et al. Recognition of named entity in Chinese resume based on ALBERT[J]. Computer Engineering and Design, 2024, 45(1): 261-267.

[10]
丁泽源, 杨志豪, 罗凌, 等. 基于深度学习的中文生物医学实体关系抽取系统[J]. 中文信息学报, 2021, 35(5): 70-76.

DING Z Y, YANG Z H, LUO L, et al. Chinese biomedical entity relation extraction system based on deep learning[J]. Journal of Chinese Information Processing, 2021, 35(5): 70-76.

[11]
丁建平, 李卫军, 刘雪洋, 等. 命名实体识别研究综述[J]. 计算机工程与科学, 2024, 46(7): 1 296-1 310.

DING J P, LI W J, LIU X Y, et al. A review of named entity recognition research[J]. Computer Engineering & Science, 2024, 46(7): 1 296-1 310.

[12]
张华丽, 康晓东, 李博, 等. 结合注意力机制的Bi-LSTM-CRF中文电子病历命名实体识别[J]. 计算机应用, 2020, 40(S1): 98-102.

ZHANG H L, KANG X D, LI B, et al. Medical Name entity recognition based on Bi-LSTM-CRF and attention mechanism[J]. Journal of Computer Applications, 2020, 40(S1): 98-102.

[13]
刘宇瀚, 刘常健, 徐睿峰, 等. 结合字形特征与迭代学习的金融领域命名实体识别[J]. 中文信息学报, 2020, 34(11): 74-83.

LIU Y H, LIU C J, XU R F, et al. Utilizing glyph feature and iterative learning for named entity recognition in finance text[J]. Journal of Chinese Information Processing, 2020, 34(11): 74-83.

Outlines

/