为适应信息化战争的特点,指挥文书信息数据化的概念被提出,并且取得了一定的研究成果。指挥文书信息数据化,是解决指挥文书信息的内容如何转变为更利于指挥信息系统直接使用的数据的问题,其核心任务是信息抽取。作战文书是指挥信息的一种重要载体,面向作战文书的命名实体识别,是作战文书信息抽取的基础性研究工作,对于指挥文书信息数据化具有重要的研究价值。命名实体识别(Named Entity Recognition,简称NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。作战文书命名实体识别中,主要是针对部队编制、作战编成、武器装备、地点、坐标、时间等实体进行识别。
随着深度学习的快速发展,文书信息抽取领域取得较大突破。然而,由于中文自身的特殊性,该领域的发展始终落后于国外的相关研究。在早期的作战文书命名实体识别的相关研究中,均是基于规则、模板等传统方法。这类方法较难对语料全面覆盖,且规则和模板库的设计和维护异常困难,因此基于统计的机器学习方法成为主流。其中,统计机器学习主要模型有:条件随机场(Conditional Random Fields,CRF)、隐马尔科夫(Hidden Markov Model,HMM)、支持向量机(Support Vector Machine,SVM)等。冯蕴天
[1]、单赫源
[2]、姜文志
[3]等人的研究比较具有代表性。单赫源等人针对组合嵌套特征较为明显的实体类别进行分析,提出的小粒度策略下的基于CRF的军事命名实体识别方法,提高了实体识别准确率;姜文志等人将CRF模型与基于规则的方法进行了结合,并说明了方法的可行性,为后续的研究打下了一定的基础。然而这一类统计模型普遍存在一个不足,即需要有经验的人员进行特征选取,且识别结果非常依赖选取特征的质量,使得人工特征和领域知识在提高模型性能的同时也导致整个模型的鲁棒性和泛化能力大大下降。
近年来,基于深度学习的军事命名实体识别的相关研究越来越多,它们使用双向长短期记忆网络(Bi-directional Long Short-Term Memory,BiLSTM)和条件随机场结合的神经网络模型,来完成命名实体识别的序列标注问题。神经网络模型可以大大减少复杂的人工特征,从大量的语料中,自动学习特征表示。目前已有的研究中,使用的方法和所解决的问题虽如出一辙,却又不尽相同。如:游飞
[4]等人利用一个四层神经网络,进行了面向武器装备名称的识别研究,对深度学习解决该类问题进行了初步探索;王学峰
[5]等人提出的基于BiLSTM-CRF的军事命名实体识别,利用预训练的字向量作为输入,在自建语料库的测试中,F值达到98%;朱佳晖
[6]等人面向网络军事文本,提出了15种命名实体类别的体系,与王学峰等人工作类似,使用BiLSTM-CRF模型进行命名实体识别,并提出军事命名实体的链接框架。