中国科技核心期刊      中国指挥与控制学会会刊     军事装备类重点期刊
Theory & Research

Named Entity Recognition for Combat Documents Based on Deep Learning

  • ZHANG Xiao-Hai ,
  • CAO Xin-Wen ,
  • GAO Yuan
Expand
  • Joint Operation College, NDU of PLA, Shijiazhuang 050084, China

Received date: 2019-01-14

  Revised date: 2019-01-16

  Online published: 2022-05-19

Abstract

With the development of deep learning, BiLSTM-CRF model are widely used in combat documents and military named entity recognition. This paper proposes a method based on CNN-BiLSTM-CRF for identifying the named entity of combat documents. In this paper, the character-level feature is extracted by convolutional neural network (CNN). Then we have stitched character vectors and word vectors and part-of-speech(POS) vectors together. At the same time, we analyze the impact of different annotations on the performance of the models. A labeling strategy of fine classification is proposed. Finally, the result has shown that, the performance of our method is better than others without relying on artificial features. And the labeling strategy of fine classification is helpful for the expression of features.

Cite this article

ZHANG Xiao-Hai , CAO Xin-Wen , GAO Yuan . Named Entity Recognition for Combat Documents Based on Deep Learning[J]. Command Control and Simulation, 2019 , 41(4) : 22 -26 . DOI: 10.3969/j.issn.1673-3819.2019.04.005

为适应信息化战争的特点,指挥文书信息数据化的概念被提出,并且取得了一定的研究成果。指挥文书信息数据化,是解决指挥文书信息的内容如何转变为更利于指挥信息系统直接使用的数据的问题,其核心任务是信息抽取。作战文书是指挥信息的一种重要载体,面向作战文书的命名实体识别,是作战文书信息抽取的基础性研究工作,对于指挥文书信息数据化具有重要的研究价值。命名实体识别(Named Entity Recognition,简称NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。作战文书命名实体识别中,主要是针对部队编制、作战编成、武器装备、地点、坐标、时间等实体进行识别。
随着深度学习的快速发展,文书信息抽取领域取得较大突破。然而,由于中文自身的特殊性,该领域的发展始终落后于国外的相关研究。在早期的作战文书命名实体识别的相关研究中,均是基于规则、模板等传统方法。这类方法较难对语料全面覆盖,且规则和模板库的设计和维护异常困难,因此基于统计的机器学习方法成为主流。其中,统计机器学习主要模型有:条件随机场(Conditional Random Fields,CRF)、隐马尔科夫(Hidden Markov Model,HMM)、支持向量机(Support Vector Machine,SVM)等。冯蕴天[1]、单赫源[2]、姜文志[3]等人的研究比较具有代表性。单赫源等人针对组合嵌套特征较为明显的实体类别进行分析,提出的小粒度策略下的基于CRF的军事命名实体识别方法,提高了实体识别准确率;姜文志等人将CRF模型与基于规则的方法进行了结合,并说明了方法的可行性,为后续的研究打下了一定的基础。然而这一类统计模型普遍存在一个不足,即需要有经验的人员进行特征选取,且识别结果非常依赖选取特征的质量,使得人工特征和领域知识在提高模型性能的同时也导致整个模型的鲁棒性和泛化能力大大下降。
近年来,基于深度学习的军事命名实体识别的相关研究越来越多,它们使用双向长短期记忆网络(Bi-directional Long Short-Term Memory,BiLSTM)和条件随机场结合的神经网络模型,来完成命名实体识别的序列标注问题。神经网络模型可以大大减少复杂的人工特征,从大量的语料中,自动学习特征表示。目前已有的研究中,使用的方法和所解决的问题虽如出一辙,却又不尽相同。如:游飞[4]等人利用一个四层神经网络,进行了面向武器装备名称的识别研究,对深度学习解决该类问题进行了初步探索;王学峰[5]等人提出的基于BiLSTM-CRF的军事命名实体识别,利用预训练的字向量作为输入,在自建语料库的测试中,F值达到98%;朱佳晖[6]等人面向网络军事文本,提出了15种命名实体类别的体系,与王学峰等人工作类似,使用BiLSTM-CRF模型进行命名实体识别,并提出军事命名实体的链接框架。

1 CNN-BiLSTM-CRF模型

1.1 模型总体框架

图1所示,本文的模型框架主要由三个部分组成,CNN、BiLSTM和CRF模块。其首先对军事领域语料进行分词和词性标注,将输入的句子转换为词向量序列;其次通过CNN模块对每个词内的字向量进行卷积操作,以此作为字符级的特征,并采用独热编码对词性特征进行向量表示;再将每个词的词向量、字符级向量、词性向量进行拼接,输入BiLSTM网络,最终通过CRF模块输出预测标注序列。
图1 CNN-BiLSTM-CRF模型框架

1.2 CNN模型

卷积神经网络(Convolutional Neural Networks, CNN)主要包含卷积层和池化层,可以更好地表示数据的局部特征。Collobert[7]等人以整个句子作为当前预测词的输入,引入词在句中的相对位置特征,它使用了一层卷积神经网络结构进行特征的提取。Santos[8]等利用CNN获取字符级特征,使得词性标注的效果得到提升。以上是较早将CNN用于自然语言处理任务的两项研究工作,均证明了CNN在字符级特征提取中的优势。本文采用CNN提取字符级特征向量,与词向量、词性向量进行拼接作为输入,以提高模型性能。
图2为字符级的卷积神经网络模型示意图,由于词的长度不同导致字符级矩阵大小不一,将词中的每个字进行字符向量转换后,以语料中最长的词为基准,在词的左右两端分别补充占位符,从而得到大小一致的字符级矩阵。将构建的字符级矩阵送入CNN,经过卷积层和池化层进行反向传播训练,最终得到字符级的特征向量。
图2 字符级CNN模型

2.3 BiLSTM模型

长短期记忆模型(Long Short-Term Memory,LSTM)[9]是一种循环神经网络(Recurrent Neural Network,RNN)模型[10],该模型可通过输入、输出和遗忘三个控制门,对上下文的信息进行选择性记忆传递,从而捕获到长距离依赖信息。而记忆机制最大的贡献,则是解决了传统RNN中存在的梯度消失和梯度爆炸的问题。公式(1)为LSTM网络的形式化表示。
i t = σ ( x t · w x h i + h t - 1 · w h h ' i + b h i ) f t = σ ( x t · w x h f + h t - 1 · w h h ' f + b h f ) o t = σ ( x t · w x h o + h t - 1 · w h h ' o + b h o ) c ˙ t = t a n h ( x t · w x h c + h t - 1 · w h h ' c + b h c ) c t = i t c ˙ t + f t c t - 1 h t = o t t a n h ( c t )
其中,σ为sigmoid函数,x是词嵌入向量,h是输出,i,o,f分别表示输入、输出和遗忘三个门,ω,b分别表示不同状态时各控制门的权重和偏置, c ˙ t表示由当前输入得到的状态转移矩阵,ct表示t时刻的状态,下标t表示第t时刻。
LSTM网络很好地解决了RNN梯度弥散的问题,但单向LSTM只能通过前文信息对结果进行预测,双向LSTM对词序列分别采取正序和逆序两个方向进行递归,如图3所示。进行正向计算时,隐层t时刻的状态与t-1时刻相关,而反向计算时,又与t+1时刻状态相关,最终将两个向量拼接得到最终的隐层表示,因此可以更好地利用上下文信息。
图3 双向LSTM(BiLSTM)模型

2.4 CRF线性层

CRF模型是一种基于条件概率分布的无向图模型,它可以在给定输入观测序列的前提下,输出最大概率的预测序列,常用在序列标注任务中。
P表示BiLSTM的输出,其中n为序列长度,k表示不同的标签个数。Pn×k的矩阵,Pi,j表示矩阵中第i行第j列的概率。那么,对于给定序列X={x1, x2,.…, xn},和预测标注序列Y={y1, y2,.…, yn},该模型可定义为
S(X,Y)= i = 0 n A y i , y i + 1+ i = 1 n P i , y i
Ai,j表示由标签ij的状态转移概率,y0,yn为句子开始和结束的标记,由此,矩阵A是一个维度为k+2的方阵。最后通过softmax计算得到标签序列Y的概率
P(Y|S)= e s ( X , Y ) Y ˙ Y X e s ( X , Y ˙ )
训练中,标记序列的似然函数
log(P(Y|S))=S(X,Y)-log Y ˙ Y X e s ( X , Y ˙ )
其中, Y ˙表示真实标记值,YX表示所有可能标记序列集合(包括不符合标注规则的情况)。最后,输出概率最大的一组序列作为预测序列
Y*= a r g m a x Y ˙ Y Xs(X, Y ˙)

3 训练方法与步骤

3.1 预处理及训练集标注

分词及词性标注采用中科院开发的ICTCLAS工具进行处理,词向量采用Word2vec工具进行训练。根据Ratinov[11]和Lample[12]的研究,语料库采用效果更好的“BIOES”策略进行手工标注。其中,B表示实体的开始,I表示实体内部,E表示实体结尾,O表示非实体部分,S表示该词独立成为实体。
为了更好地表达不同实体的特征,本文将命名实体类别进行了细分类,最终将位置、部队、人员、物品、数量五大类细分为13个小类进行标注,标注方法如表1所示。
表1 实体类别及标注方法
序号 实体类别 标注
1 位置(LOC) 地名 LOC-DM
2 坐标 LOC-ZB
3 作战地域 LOC-DY
4 方位 LOC-FW
5 部队(ORG) 编制 ORG-BZ
6 作战编成 ORG-BC
7 机构、部门 ORG-JG
8 人员(PER) 职务 PER-ZW
9 姓名 PER-XM
10 物品(THG) 武器、装备 THG-WQ
11 时间 NUM-SJ
12 数字(NUM) NUM-SH
13 NUM-LI
14 非实体 O
例如对句子[合成预备队由合成第2营编成,配置在王庄(22,34)东北100米。]经预处理和实体标注后,得到标注序列如表2所示。
表2 训练集样本示例
分词 标注 分词 标注
合成 B-ORG-BC 22 I-LOC-ZB
预备 I-ORG-BC , I-LOC-ZB
E-ORG-BC 34 I-LOC-ZB
配置 O ) E-LOC-ZB
O 东北 S-LOC-FW
B-LOC-DM 100 S-NUM-SH
E-LOC-DM S-NUM-LI
( B-LOC-ZB O

3.2 参数设置

CRF模型在序列标注任务中效果较好,而在神经网络中,通常在BiLSTM隐层输出的基础上,用CRF层代替softmax方法来计算上下文的联合概率,从而得到最优的预测序列。本文在此基础上,利用CNN对分词后的字符级向量特征进行提取,从而在词嵌入阶段,更好地表示词的语义信息。训练过程中,优化器采用SGD,学习率0.1。同时,为减轻过拟合问题,在BiLSTM的输入和输出中使用Dropout,取值0.5。

3.3 评价标准

模型训练完毕后,通过测试集进行识别效果的测评。采用召回率R、精确率PF值3个指标评判模型的性能,计算方法如下:
R= ×100%
P= ×100%
F= 2 × R × P R + P

4 结果分析

4.1 样本集

收集作战文书100篇,通过分词和手工标注得到作战文书语料库,共计830句、39 347字。按照3:1的比例,随机选择207句作为测试集,其余作为训练集。

4.2 实验结果分析

1)识别结果及模型对比分析
表3为CNN-BiLSTM-CRF模型实验结果,考虑到实体类别较多,因此仅选取几个具有代表性数据进行分析。
表3 CNN-BiLSTM-CRF作战文书命名实体识别结果
实体类别 精确率/% 召回率/% F值/%
编制 92.47 93.89 93.17
作战编成 81.87 76.74 79.22
地名 96.93 97.18 96.90
坐标 100.00 100.00 100.00
时间 100.00 92.31 96.00
姓名 73.16 69.77 71.42
武器装备 66.67 79.77 72.63
综合 94.40 93.43 93.91
得分相对较高的实体类别主要有编制、地名、坐标、时间、职务等。首先,这类实体大多以相对规范的格式出现,其次,地名实体一般紧邻坐标实体,编制实体通常以“旅、团、营”等字结尾,这些实体的边界特征比较明显。作战编成、姓名、武器装备等类别得分较低,可能是由于该类别的训练语料不足所导致。
表4为不同模型的对比实验结果。首先,BiLSTM模型的精确率为89.49%,召回率为88.30%,F值为88.89%,F值比单向LSTM模型高出了2.91%。可见,双向LSTM由于能够更好地利用上下文信息,效果要优于单向LSTM网络。其次,增加CRF层后,BiLSTM的精确率、召回率、F值分别提高了2.32%、1.83%和2.07%。这是由于CRF模块能够通过联合概率的计算,更加充分地利用标签的相邻信息,比如“155自行加榴炮第1营”这类长度较大的编制实体在增加CRF后的模型可以正确识别,而在LSTM中则识别错误。因此,通过增加CRF层来计算BiLSTM隐层输出的联合概率,可以一定程度上解决长距离实体的识别问题。为使词向量能够更好地表示语义信息,使用独热编码对词性(POS)进行向量表示,将词性向量与词向量进行拼接作为输入。结果显示,增加词性特征的模型F值提高了1.25%。并在此基础上,通过CNN对字符级特征进行提取,由于字符级向量对于中英混合、包含特殊符号、边界模糊等实体的特征获取能够更加充分,提升了如武器装备类别的实体识别效果,精确率、召回率和F值最终分别达到94.40%、93.43%和93.91%。
表4 各模型对比实验结果
模型 精确率/% 召回率/% F值/%
LSTM 87.16 84.84 85.98
BiLSTM 89.49 88.30 88.89
BiLSTM-CRF 91.81 90.13 90.96
BiLSTM-CRF+POS 92.75 91.67 92.21
CNN-BiLSTM-CRF 94.40 93.43 93.91
2)标注策略的影响
作战文书中,对于编制、作战编成等类别的实体,常常出现复杂的嵌套组合现象。如:“集团军炮兵群/ORG”中,“集团军”是编制实体,“炮兵群”为作战编成实体。因此,本文对于长度最小的可独立成为实体的序列进行标注,即“集团军/ORG-BZ 炮兵群/ORG-BC”,这样可以一定程度上避免对组合实体的错误识别。通过模型预测出标注序列后,再根据预先设定的规则对组合实体进行连接,从而得到最终的实体名。根据这个思路,本文将最初的位置、部队、人员、武器装备及时间共5个类别的实体,细分成13类。将位置细分地名、坐标、方位、作战地域4类,部队细分编制、编成和机构部门3类,人员细分职务、姓名2类,数字细分时间、数、量3类。
本文对相同的生语料,分别按5类和13类进行手工标注,得到两个内容相同但实体标注类别不同的样本集,并使用CNN-BiLSTM-CRF对两个样本集进行对比实验,结果如表5所示。细分类的语料集对模型性能有不小的提升,分析主要有两方面原因:一方面,由于对实体类别进行了细分类,使得实体特征更加突出;另一方面,这样的标注方法可以充分利用邻近实体间的语义关系,对于嵌套组合现象突出的实体识别效果有所提升。
表5 不同标注语料结果对比
粒度 类别 精确率/% 召回率/% F值/%
粗分类 5 90.42 89.37 89.89
细分类 13 94.40 93.43 93.91

5 结束语

本文针对作战文书的命名实体识别,使用CNN获取字符级特征,并将字符级特征向量、词性向量拼接到词向量中,进而构建了CNN-BiLSTM-CRF模型,在自建语料上取得了较好的效果,结论如下:
1)传统的统计机器学习中,模型的效果非常依赖人工特征的选取,而选取合适的特征需要丰富的经验和大量的人工处理,导致成本较高;并且,由于需要根据特定任务选取不同的特征,泛化能力较弱。因此,采用神经网络模型可以自动学习到特征信息,代替了人工选取,在语料充足的情况下,能够获得更好的效果。
2)通过CNN模块,对字符级向量进行卷积操作,提高了原BiLSTM-CRF模型对于包含特殊字符、中英混合等实体的识别效果;另外,将词性向量作为外部特征,与字符级向量一起拼接到词向量中,可以一定程度表达出更多的语义信息,对于模型性能的提升有一定帮助。
3)细分类的标注策略,能够更好地表现实体特征,一定程度减轻数据稀疏问题;同时,还能更充分的表达相邻实体间的语义关系,从而提高模型的整体性能。
[1]
冯蕴天, 张宏军, 郝文宁. 面向军事文本的命名实体识别[J]. 计算机科学, 2015, 42(7):15-18,47.

[2]
单赫源, 张海粟, 吴照林. 小粒度策略下基于CRFs的军事命名实体识别方法[J]. 装甲兵工程学院学报, 2017, 31(01):84-89.

[3]
姜文志, 顾佼佼, 丛林虎. CRF与规则相结合的军事命名实体识别研究[J]. 指挥控制与仿真, 2011, 33(4):13-15.

[4]
游飞, 张激, 邱定, 等. 基于深度神经网络的武器名称识别[J]. 计算机系统应用, 2018, 27(1):239-243.

[5]
王学锋, 杨若鹏, 朱巍. 基于深度学习的军事命名实体识别方法[J]. 装甲兵工程学院学报, 2018, 32(4):94-98.

[6]
朱佳晖. 基于双向LSTM和CRF的军事命名实体识别和链接[A].中国指挥与控制大会论文集(上册)[C]. 中国指挥与控制学会, 2018.

[7]
Collobert R, Weston J, Bottou L, et al. Natural Language Processing(almost) From Scratch[J]. Journal of Machine Learning Research, 2011, 12(8):2493-2537.

[8]
Santos C D, Zadrozny B. Learning character-level representations for part-of-speech tagging[C]// Proceedings of the 31st International Conference on Machine Learning(ICML-14), 2014:1818-1826.

[9]
Hochreiter S, Schmidhuber J. Long short-term memory[J]. Neural Computation, 1997, 9(8):1735-1780.

PMID

[10]
Pollack J B. Recursive Distributed Representations[J]. Artificial Intelligence, 1990, 46(1):77-105.

DOI

[11]
Ratinov L, Roth D. Design Challenges And Mis-Conceptions in Named Entity Recognition[C]// Pro-ceedings of the 13th Conference on Computa-tional Natural Language Learning Association for Computational Linguistics, 2009:147-155.

[12]
Lample G, Ballesteros M, Subramanian S, et al. Neural Architectures for Named Entity Recognition[C]// Proceedings of NAACL-HLT, 2016:260-270.

[13]
鞠久朋, 张伟伟, 宁建军, 等. CRF与规则相结合的地理空间命名实体识别[J]. 计算机工程, 2011, 37(7):210-212,215.

[14]
李丽双, 郭元凯. 基于CNN-BLSTM-CRF模型的生物医学命名实体识别[J]. 中文信息学报, 2018, 32(1):116-122.

Outlines

/