中国科技核心期刊      中国指挥与控制学会会刊     军事装备类重点期刊
Weapon & Information System

Weapon equipment question answering system based on BERT and knowledge graph

  • WANG Bo ,
  • JIANG Xuping ,
  • HUANG Qihong
Expand
  • College of Information and Communication, National University of Defense Technology, Wuhan, 430035, China

Received date: 2024-08-30

  Revised date: 2024-09-13

  Online published: 2025-05-28

Abstract

Knowledge of weaponry and equipment is a crucial basis for formulating equipment utilization strategies and development pathways. To address issues such as data redundancy, high interaction difficulty, and low match accuracy of question answers, this paper constructs a Q&A system based on a knowledge graph for weaponry and equipment. The system achieves named entity recognition and classification of questions by fine-tuning the BERT model; it generates graph database query statements by filling named entities into question templates and generates answers by filling answer templates. Analysis of test results shows that this system is capable of effectively ranking correct answers at the top and has achieved a good balance between accuracy and comprehensiveness, although there is still room for improvement.

Cite this article

WANG Bo , JIANG Xuping , HUANG Qihong . Weapon equipment question answering system based on BERT and knowledge graph[J]. Command Control and Simulation, 2025 , 47(3) : 99 -103 . DOI: 10.3969/j.issn.1673-3819.2025.03.013

武器装备基础数据作为制定装备运用策略和发展方向的重要依据,重要性不可忽视。然而,随着武器装备数据存量的飞速增长,基于关系数据库的存储与查询方法,具有数据冗余、交互难度大、模糊查询匹配度不高等问题。因此,构建准确、高效、灵活、智能的武器装备问答系统,具有广阔的应用前景。
基于知识图谱的问答算法属于通用问答算法的一种[1],常见的实现方式有模板匹配[2]、语义解析[3]和深度学习[4]3种,其中模板匹配方法在构建完备的模板库后,在查询任务的准确度和效率上表现较好,符合军事领域的应用需求。但由于单一的分类模板对分类库的数量要求较高,因此分类匹配模板与实体抽取相结合的问答算法被提出[5-6];李代祎[7]针对其中的实体抽取任务进行了优化,并应用到武器装备领域;王震南[8]对结合实体抽取和模板匹配算法的问答系统进行了设计,着重提升了实体抽取性能,并设计了简单的问句模板类型,然而模型泛化能力仍有提升空间。
本文以环球网兵器库和中华武器库作为数据来源,参考相关研究对于武器装备实体及其关系的定义,设计了知识图谱构建规则,实现了武器装备知识图谱构建。在此基础上,基于BERT模型实现了实体抽取和问句分类,设计了匹配模板将问句转化为图数据库查询语句,并将查询结果嵌入答句模板生成问题答案。最后评估测试了该问答系统的性能,验证了所提方法的可行性和有效性。

1 知识图谱构建

知识图谱基于图的形式组织信息,使得数据之间的关系变得更加直观和易于理解,相较于传统数据库,知识图谱不仅仅存储数据,还存储数据之间的关系,从而提供了对数据更深层次的理解。知识图谱构建过程主要包含数据的获取处理和图谱建立两个阶段。

1.1 数据获取和处理

参考文献[9-10]对于武器装备知识图谱本体的定义,作者对6种实体类型和12种关系类型进行标注。作者首先对网页获取的原始数据进行清洗,删除重复、无效数据,对异常的、不便于标注的数据进行剔除,得到有效文本;其次,在此基础上,使用标注软件依据实体及关系的定义对数据进行标注,得到标注式文本;最后将标注式文本转化为可输入知识图谱的三元组数据,具体流程实例如图1所示。
图1 知识图谱构建流程及示例

Fig.1 Knowledge graph construction process and examples

1.2 知识图谱建立规则

知识图谱对于实体和关系的创建有两种方式:链接创建和独立创建,如图2所示。
图2 两种节点构建方式

Fig.2 Two methods of node construction

链接创建不会重复创建节点或关系,而是在创建节点后,检索同名节点或者关系然后合并;独立构建则会根据图谱需求,允许重复创建同名节点和关系。
两种方式各有优劣,链接构建可以突显出实体间的链接关系,使得图谱的网络结构更加紧密,但也容易导致数据关系的错误匹配;独立构建确保数据关系的正确性,但是会割裂实体间的关系,降低知识推理能力。
具体而言,描述专有名词属性的实体存在较多同名情况,不同的专有名词节点可能链接了相同属性节点,如图2(a)所示,“导弹A”和“导弹B”均链接了“射程”节点,此时无法正确区分二者具体射程的数值参数。而对于节点间关系,两个节点间有且只会有一种关系,使用链接创建可避免同一关系的重复创建。可见,单独使用任一种构建方式均无法得到合理完备的知识图谱架构。为了使相同型号的装备节点属性相互合并以增加推理能力,同时减少由于同名属性节点合并带来的知识逻辑混乱,制定了如下知识图谱构建规则:
(1)专有名词类型实体,统一使用链接构建;
(2)描述专有名词属性的实体统一使用独立构建;
(3)实体间关系统一使用链接构建。

1.3 知识图谱构建流程

链接构建的节点e,若不存在同名节点,则新建节点;若存在同名节点,则直接返回节点e
独立构建的节点e,当是三元组(e1,r,e2)中的e1时,若存在出度为0的同名节点时,返回符合条件的节点,否则新建节点e1;当是e2时,若存在入度为0的同名节点时,返回符合条件的节点,否则新建节点e2
建立节点间关系时,在返回的两个e1e2节点间以链接构建的方式创建关系r
在知识图谱实际构建过程中,输入(e1,r,e2)三元组数据。首先判断e1节点的类型,选择链接构建或者独立构建方式创建节点e1;再根据e2节点类型选择构建方式创建节点e2;最后链接构建关系r,算法如图3所示。
图3 知识图谱构建算法

Fig.3 Algorithms for knowledge graph construction

2 问答系统实现

在完成知识图谱数据库的构建后,问答系统的实现流程如图4所示。用户提出问题后,问句作为算法输入,经过实体识别模型和问句分类模型进行解析;实体识别模型结合实体类型词典,推理提取问句中的命名实体及其类型;问句分类模型对问句类型进行推理,根据问句类型映射检索语句模板和答句模板;将问句中的实体及类型代入检索语句模板,形成完整的查询语句,进行知识图谱的查询;查询结果代入到答句模板,形成符合场景的答句返回用户。
图4 问答系统实现流程

Fig.4 Q&A System implementation process

2.1 BERT

BERT(Bidirectional Encoder Representation from Transformers)是一种预训练语言表征模型[11],其核心架构由多层双向Transformer编码器堆叠而成,每层编码器包含多头自注意力机制和前馈神经网络。BERT通过在大规模语料库上的预训练来捕捉语言的词汇语义、句法结构和上下文关系等广泛知识。BERT模型在完成预训练完成后,只需在小规模的任务特定数据集上进行短时间的训练,就可以获得优秀的性能。本文旨在基于中文预训练BERT模型,实现用户问句中实体的识别以及问句类型的划分,从而为问句、答句匹配合理的模板并自动填充数据。

2.2 实体识别

实体识别任务的目标是识别文本中具有特定意义的实体,如试验要素、任务场景、性能指标等。
标注数据处理后可以形成模型微调所需的BIO序列化标注文本,标注文本输入BERT模型后,模型会对各个文本所对应的标签进行预测,并不断调整顶层分类器的参数,以提高模型对问句中的实体提取和类型识别的能力。
由于训练数据有限,模型微调后仍存在提取出不完整的实体情况,为此,本文通过进一步将实体识别模型与实体类型词典相结合,能够提高模型的识别军事实体的泛化能力。本文所使用的数据词典是根据知识图谱数据所构建的,即将标注的实体构建为6种类型的词典索引,从而使实体识别结果可以最大程度上与知识图谱中的实体对应。

2.3 问句分类模型

问句分类任务的目标是将问句分类到预定义的类别中,从而匹配相应的问句、答句模板。通过调整BERT模型微调的任务目标和训练数据,即可实现问句类型的划分。
微调过程中,问句文本首先经过分词、向量化后作为模型输入,其中句子首部会添加[CLS]标记作为问句的类别标签。输入的序列经过多层Transformer Encode架构,BERT模型对问句的所有分词以及句子类型标签进行关注训练,并根据问句特征,对问句进行推理,并不断调整顶层分类器参数,从而逐步提高模型对问句类型的识别能力,如图5所示。
图5 BERT模型微调

Fig.5 Fine-tuning of BERT model

2.4 问句类型映射

针对不同类型的问句,需要进一步确定各类型问句对应的检索方式及答句句式,本文建立的部分映射关系如表1所示。
表1 问句类型映射示例

Tab.1 Question type mapping examples

问句关系
类型
知识图谱查询语句 答句句式
安装平台 MATCH (p1:%s)-[:安装平台]->(p2)
WHERE p1.Name='%s' RETURN p2.Name
%s部署在%s
功能部件 MATCH (p1:%s)-[:功能部件]->(p2)
WHERE p1.Name='%s' RETURN p2.Name
%s由%s组成

3 测试与分析

本节首先对问答系统开展实例测试,评测其问答效果,随后基于MRR、Accuracy@N、Average F1指标[12]客观评测系统性能。

3.1 实例测试

标注数据按照7∶2∶1的比例随机分配构建训练集、开发集及测试集,以支撑BERT模型训练与问答系统测试。通过调用训练后的BERT模型参数,按照问答系统的数据处理流程,最终得到的测试结果如表2所示。
表2 问答实例测试结果

Tab.2 Result of Q&A example test

输入问句 输出答句
“宙斯盾”弹道导弹防御系统有哪些功能部件? “宙斯盾”弹道导弹防御系统由“标准”-6、“标准”-2Block IV、“标准”-3导弹、拦截导弹、雷达组成。
“布拉莫斯”海射对陆攻击型导弹速度可达多少 “布拉莫斯”海射对陆攻击型导弹射程可达到290千米,速度可达到马赫数2.8。
“标准”-6导弹和“鱼叉”Block-IC型导弹功能上有什么不同 “标准”-6导弹可用于弹道导弹防御,可用于防空。
作者分析测试结果发现,该系统对于包含安装平台、试验场地、功能部件类型的专有名词的问句回答效果较好,但也出现了一部分回答效果差的问句,分析原因主要有两点:一是当问句中包含别称、缩写时,识别出的别称没有与知识图谱中描述同一对象的实体对齐,会导致检索的答案出现偏差;二是对于复合问句的解析能力还有待提升,当问句较为复杂,出现多个实体和提问关系时,答案往往不够全面。

3.2 性能分析

本文在测试集Q上对问答系统开展性能分析,具体测试了MRRAccuracy@NAverage F1、MAP四项指标。
MRR是用于评估问答系统准确性的一种指标,表示第一个正确答案的排名的倒数的平均值;Accuracy@N表示前N个结果中包含正确答案的比例;Average F1是精确率和召回率的调和平均数,用于均衡两者影响。计算公式如(1)(2)(3)所示:

MRR= 1 Q i = 1 Q 1 r a n k i

Accuracy@N= 1 Q i = 1 Q δ(Ci,Ai)

F1= 2 δ ( C i , A i ) | C i | · δ ( C i , A i ) | A i | δ ( C i , A i ) | C i | + δ ( C i , A i ) | A i |

对于测试集Q中每个问题Qi的预测答案集C,当前N(N=3)个结果中包含有正确答案A时,δ(Ci,Ai)取值为1,否则取0,ranki代表第一个正确答案的排名。
本文构建的问答系统的性能测试结果如表3所示,其中,MRRAccuracy@N的测试值分别为0.67和0.75,表明系统倾向于把正确答案排在比较靠前的位置,从而有助于用户快速找到正确答案。F1测试值为0.67,表明系统在准确性和全面性上的平衡性较好,但仍有一定的提升空间。此外,相较于使用双向长短期记忆神经网络(Bidirectional Long Short Term Memory, LSTM)[13-14]实现问句中实体的识别以及问句类型的划分,基于BERT模型能够使得问答系统的MRRAccuracy@NF1分别提升21.8%、15.4%、28.8%,但同时也会使得系统响应时间增加47.7%。这表明BERT作为预训练语言模型,在同等规模的微调语料上,能够更好地实现军事领域实体识别及文本分类任务,进而提高基于知识图谱的问答系统性能,但BERT相较于Bi-LSTM模型增加的参数量也会使得系统响应速度降低。
表3 问答系统性能测试

Tab.3 Result of Q&A system performance test

Bi-LSTM BERT
MRR 0.55 0.67
Accuracy@N 0.65 0.75
Average F1 0.52 0.67
平均响应时间(ms) 257.2 379.8

4 结束语

本文建立了武器装备知识图谱,实现了基于BERT的命名实体识别和问句分类算法,设计了查询、回答语句匹配模板,实现了基于知识图谱的武器装备知识问答,为解决传统关系数据库数据冗余、交互难度大、模糊查询匹配度不高等问题提供了新思路。
[1]
闫悦, 郭晓然, 王铁君, 等. 问答系统研究综述[J]. 计算机系统应用, 2023, 32(8): 1-18.

YAN Y, GUO X R, WAND T J, et al. Survey on question answering system research[J]. Computer Systems & Applications, 2023, 32(8): 1-18.

[2]
郑泳智, 朱定局, 吴惠粦, 等. 知识图谱问答领域综述[J]. 计算机系统应用, 2022, 31(4): 1-13.

ZHENG Y Z, ZHU D J, WU H L, et al. Overview on knowledge graph question answering[J]. Computer Systems & Applications, 2022, 31(4): 1-13.

[3]
胡旭阳, 王治政, 孙媛媛, 等. 融合语义解析的知识图谱表示方法[J]. 计算机研究与发展, 2022, 59(12): 2 878-2 888.

HU X Y, WANG Z Z, SUN Y Y, et al. Knowledge graph representation method combined with semantic parsing[J]. Journal of Computer Research and Development, 2022, 59(12): 2 878-2 888.

[4]
萨日娜, 李艳玲, 林民. 知识图谱推理问答研究综述[J]. 计算机科学与探索, 2022, 16(8): 1 727-1 741.

SA R N, LI Y L, LIN M. Survey of question answering based on knowledge graph reasoning[J]. Journal of Frontiers of Computer Science and Technology, 2022, 16(8): 1 727-1 741.

[5]
王智悦, 于清, 王楠, 等. 基于知识图谱的智能问答研究综述[J]. 计算机工程与应用, 2020, 56(23): 1-11.

DOI

WANG Z Y, YU Q, WANG N, et al. Survey of intelligent question answering research based on knowledge graph[J]. Computer Engineering and Applications, 2020, 56(23): 1-11.

DOI

[6]
论兵, 王月春, 郝晓慧, 等. 知识图谱问答研究进展[J]. 软件导刊, 2022, 21(3): 226-236.

LUN B, WANG Y C, HAO X H, et al. Knowledge graph question answering: a review[J]. Software Guide, 2022, 21(3): 226-236.

[7]
李代祎, 盛杰, 刘运星, 等. 基于知识图谱的军事武器问答系统[J]. 指挥信息系统与技术, 2020, 11(5): 58-65.

LI D Y, SHENG J, LIU Y X, et al. Military weapon QA system based on knowledge graph[J]. Command Information System and Technology, 2020, 11(5): 58-65.

[8]
王震南, 董宝良, 田飞. 基于知识图谱的军事知识问答系统设计[J]. 信息技术, 2020, 44(12): 121-124, 128.

WANG Z N, DONG B L, TIAN F. Design of military knowledge question answering system based on knowledge graph[J]. Information Technology, 2020, 44(12): 121-124, 128.

[9]
刘一博, 张海粟, 左青云, 等. 面向作战指挥的武器装备知识图谱本体构建[J]. 火力与指挥控制, 2024, 49(5): 44-51.

LIU Y B, ZHANG H S, ZUO Q Y, et al. Ontology construction of weapon equipment knowledge graph for combat command[J]. Fire Control & Command Control, 2024, 49(5): 44-51.

[10]
WANG B, XU Z X, HUANG J M, et al. Construction of entity and entity relationship annotation corpus for test identification[J]. Journal of Physics Conference Series, 2022, 2 363(1): 12 018.

[11]
岳增营, 叶霞, 刘睿珩. 基于语言模型的预训练技术研究综述[J]. 中文信息学报, 2021, 35(9): 15-29.

YUE Z Y, YE X, LIU R H. A survey of language model based pre-training technology[J]. Journal of Chinese Information Processing, 2021, 35(9): 15-29.

[12]
陈子睿, 王鑫, 王林, 等. 开放领域知识图谱问答研究综述[J]. 计算机科学与探索, 2021, 15(10): 1 843-1 869.

CHEN Z R, WANG X, WANG L, et al. Survey of open-domain knowledge graph question answering[J]. Journal of Frontiers of Computer Science and Technology, 2021, 15(10): 1 843-1 869.

[13]
刘建伟, 宋志妍. 循环神经网络研究综述[J]. 控制与决策, 2022, 37(11): 2 753-2 768.

LIU J W, SONG Z Y. Overview of recurrent neural networks[J]. Control and Decision, 2022, 37(11): 2 753-2 768.

[14]
唐荻音, 丁奕州, 王轩, 等. 知识图谱技术在预测与健康管理中的应用现状与研究展望[J]. 电光与控制, 2024, 31(2): 1-11.

TANG D Y, DING Y Z, WANG X, et al. Research progress and prospects of knowledge graph technology applied in prognostics and health management[J]. Electronics Optics & Control, 2024, 31(2): 1-11.

Outlines

/