中国科技核心期刊      中国指挥与控制学会会刊     军事装备类重点期刊
Command & Control

Research on big data technology for military human resources combining knowledge graph and large language model

  • FENG Qi ,
  • WANG Jigang ,
  • WANG Jian
Expand
  • Unit 96741 of PLA,Weinan 714000, China

Received date: 2024-10-14

  Revised date: 2024-12-10

  Online published: 2025-07-28

Abstract

Aiming at the field of military human resources data in the era of big data, this paper proposes a military human resource big data technology combining knowledge graph and large language model (Mhr-KL). This technology eliminates data silos by constructing multi-source knowledge graph, and introduces large language model to improve intelligent interaction ability, so as to solve the problems of difficult data application and low degree intelligent interaction in the field of military human resources. The feasibility and accuracy of this technology are proved by the data island inventory test, intelligent question answering performance verification and comparative analysis in the test environment.

Cite this article

FENG Qi , WANG Jigang , WANG Jian . Research on big data technology for military human resources combining knowledge graph and large language model[J]. Command Control and Simulation, 2025 , 47(4) : 34 -39 . DOI: 10.3969/j.issn.1673-3819.2025.04.006

随着大数据时代的到来和社会发展的需要,海量、多样化且高速增长的数据已经成为重要的资产和决策依据,它们的处理需要依赖强大的数据处理中心、智能的算法和处理技术[1-3]。在人力资源领域,人力资源数据中与人员强相关的信息数据体量极大,是社会各组织(单位)管理过程中不可或缺的部分。它对推动各组织(单位)高效、创新发展起到重要作用,但也面临来自大数据时代的挑战[4]。这些挑战在涉密程度高、数据使用严格遵守法规、更侧重数据规范化管理和新技术采纳更加保守的军队等组织(单位)体现得尤为明显。因此,在大数据时代背景下研究一项相对通用、使用便捷、准确性高且更加智能的军事人力资源大数据技术,具有较大的现实意义。

1 研究现状及存在的问题

我军的人力资源信息化工作起步较早,目前,已经积累了大量的、时间跨度很长的军事人力资源数据,并进行了部分开发利用,建立了基本的管理和维护机制[5]。这些数据大多是军队人力资源管理部门、军内其他部门和社会相关部门三类有关部门以信息系统录入和日常填表上报的方式采集、留存下来的。
对于注重数据统一化、规范化管理和使用的军队而言,任何形式的不统一都是难以容忍的。然而,目前的军事人力资源数据时间跨度很大,各类填表模板、属性字段以及填写规范等内容已经发生了重大变化,兼容不同历史阶段的军事人力资源数据信息是一个挑战。另外,基于不同历史阶段的信息技术发展水平和人力资源信息使用需求而设计的军事人力资源信息化系统在建设标准和技术路线上不统一:系统之间不兼容或兼容性很差,数据流动性较低;同质化数据重复收集现象严重,各部门脱节情况明显,部门间的互联互通和数据共享还有较大的提升空间[5]。同时,军事人力资源领域存在庞大的政策、制度和法规等方面的问答需求,目前军内各级基本上以信箱留言、人工回复的形式进行处理,同类型问题多,牵扯精力大,处理周期长。
总体来说,在军事人力资源数据的具体使用过程中,主要存在以下问题:
(1)数据应用难度大,缺乏统一、有效的管理手段处理不同历史阶段、不同格式、不同系统的军事人力资源数据,信息数据“孤岛化”问题严重,数据共享、校验和维护更新机制不完善,难以被充分挖掘、利用;
(2)智能化程度低,缺乏人机交互能力,问答类需求无法智能化处理,对复杂任务场景支持程度低或不支持,难以应对非预设模式的内容生成。
这些问题出现的深层次原因在于军事人力资源数据不是单一的结构化数据或非结构化数据,而是两者高度绑定的复杂嵌合体。当前亟须通过异构融合、重研新建等途径对军事人力资源数据进行分类整合和深度解析,消除数据孤岛并提升其智能化水平,为军事人力资源领域的业务办理和辅助决策提供坚强支撑。

2 解决方案

知识图谱(knowledge graph, KG)在解决数据孤岛问题上具有显著作用,它通过构建一个基于语义关系的数据结构将分散的数据连接起来形成一个统一的知识体系,从而提升数据整体的管理和利用效率,YAGO[6]、WiKidata[7]等都是基于KG开发的知名产品。大型语言模型(large language model, LLM)具备高效的自然语言处理能力和知识泛化能力,被广泛用于开发智能系统,如ChatGPT[8]、GPT-4[9]等先进的LLM具有数百甚至上千亿个参数,它们已经能通用地解决许多现实存在的复杂任务。在学术研究领域,KG与LLM的联合成为研究热点[10-12]
本文基于KG与LLM联合的思路,提出了一种知识图谱与大型语言模型联合的军事人力资源大数据技术(a big data technology for military human resources combining knowledge graph and large language model, Mhr-KL),该技术通过深度解析军事人力资源数据,构建多源军事人力资源知识图谱(multi-source knowledge graph of military human resources data, Mhr-Mkg),消除数据孤岛,并以Mhr-Mkg赋能Bert[13]的改进模型Mhr-Bert完成智能化推理,有效地应对大数据时代背景下的军事人力资源数据领域数据应用难度大和智能化程度低的问题。Mhr-KL的工作流程如图1所示,图中主要包含Mhr-Mkg和Mhr-Bert两部分,但为完整描述其流程,添加了必要的其他内容。
图1 Mhr-KL工作流程

Fig.1 The workflow of Mhr-KL

2.1 多源知识图谱构建,消除数据孤岛

军事人力资源数据历史遗留多、时间跨度长,数据格式和存储策略存在极大的差异性,数据孤岛现象严重。推动军队人力资源数据领域创新发展,实现信息互联互通和数据共享、军事人力资源相关单位之间业务协同,解构军事人力资源数据嵌合体,消除数据孤岛是当前必须要面对的一项挑战。
消除数据孤岛,在技术层面需要做到实时收集最新产生的军事人力资源数据,并兼容、纳入历史军事人力资源数据。KG能够以三元组(实体-关系-实体)整合、存储巨量结构化和非结构化的事实内容,并随着新知识的持续输入而积极演进,稳定、精确地提供特定领域的专业知识[14],是处理军事人力资源数据的理想选择。
为避免军事人力资源数据大规模的物理迁移,本文梳理军队人力资源数据字典,合理划分密级,采取“逻辑集中、物理分散”的分布式策略,基于KG将分散的海量军事人力资源数据存入图数据库Neo4j,汇聚整合为逻辑上集中的军事人力资源数据(体系)图谱Mhr-Mkg,其构建过程如图2所示。
图2 Mhr-Mkg构建过程

Fig.2 The construction process of Mhr-Mkg

2.1.1 多源数据提取

军事人力资源数据体量庞大、内容复杂且格式多样,依据存储格式可细分为基础数据、业务数据和问答数据三大类。其中,基础数据是人员的自然(属性)信息和待遇等级、被装、住房等其他关联信息的数据集合,主要以文档、表格等可编辑的(资源)文件存储;业务数据是人员的业务办理信息数据集合,以PDF、扫描件、照片甚至纸质文件等不可(易)编辑的存储格式为主,主要包括请示、报告、批复、人事档案以及命令通知等材料;问答数据是面向军队全体人员的人力资源业务办理需求,对政策法规执行、相关业务办理过程中的问答数据整合而形成的问答数据集合,多以数据库字段的形式进行存储。
多源数据提取是构建多源知识图谱的基础性工作,需要兼顾各历史阶段、不同数据格式的原始军事人力资源信息Mhr-data-raw。为兼容这些资源信息存储格式的差异性,数据提取工作依赖Python database drivers、Pandas、Openpyxl、Python-docx、LibreOffice以及Ocr等工具组合而成的多源数据提取工具链(data extraction tool chain, DETC)进行提取,进而得到待处理的军事人力资源数据Mhr-data-pending。
需要说明的是,PDF、扫描件、照片以及纸质文件仅获取存放路径(地点)的“链接”字符串,作为Mhr-Mkg内对应节点的属性值。

2.1.2 知识抽取

Bert是Google AI研究院基于Transformer[15]结构开发的预训练LLM,它仅需通过小规模的标注数据集完成微调过程Fine-tune后即可适应不同的下游自然语言处理任务。
基于Bert无须大量标注样本进行初始化训练的优势特性,知识抽取阶段将标注的军事人力资源数据集Mhr-data注入Bert的Bert-base-chinese版本,完成Fine-tune训练生成Mhr-Bert后,再以Mhr-Bert对2.1.1中获取的Mhr-data-pending进行实体识别、关系抽取、语义消歧和指代消解,区分信息源抽取出多源军事人力资源数据中实体Mhr-E和关系Mhr-R。
需要注意的是,文本类非结构化的材料在被关联到对应实体后不再递归识别,保留为结构化的图谱信息节点。

2.1.3 知识融合

军事人力资源数据在解构后通常会存在重复实体,为消除冗余、整合信息,确保不同源信息语义的一致性,知识融合阶段对多源军事人力资源数据中来自不同源的Mhr-E和Mhr-R进行唯一性区分、同一性合并,然后存入图数据库Neo4j生成Mhr-Mkg。
唯一性区分的执行过程中,系统为Mhr-E和Mhr-R分别建立唯一标识符Mhr-E-Id和Mhr-R-Id,同一性合并时,保留合并属性字段的别名,建立历史属性别名表Mhr-E-List和Mhr-R-List以支持Mhr-Mkg兼容历史军事人力数据。

2.1.4 新知缓解

KG在处理知识表示和数据集成方面具有优势,但KG往往需要经常更新以反映现实世界的变化,进而提供最新的语义信息和知识背景,否则会导致查询结果不准确或不完整,对于大规模的KG,及时更新数据具有挑战,特别是数据源多样且分布广泛时[16]
当新知识产生时,LLM需要及时更新KG并完成自身状态(参数)调整,本文的情况是,新的军事人力资源数据Mhr-data-new产生时,Mhr-Bert需要及时维护Mhr-Mkg并进行自身参数的适应性更新。对此,本文构建了新知缓解策略:一方面,Mhr-Bert将Mhr-data-new存入临时知识图谱Mhr-Mkg-temp,并在执行查询任务时优先对Mhr-Mkg-temp的内容进行搜索,缓解因Mhr-Bert的参数调整时间窗口而引发的Mhr-data-new延迟同步现象;另一方面,Mhr-Bert定期将Mhr-Mkg-temp并入Mhr-Mkg并微调自身参数,以维护Mhr-Bert的实用性和Mhr-Mkg中数据的时效性。

2.2 知识图谱赋能大型语言模型,提升智能化水平

LLM可以通过自我学习和迁移学习的方式不断学习新知识,然而,其在本质上是基于概率的黑箱模型,缺乏对真实世界的常识和深层理解,不具备特定领域的专业知识,使得它们在泛化到未知领域时可能会出现不可预料的结果,存在无法回忆事实、易产生幻觉知识等问题,严重影响了LLM的可信度[14]。KG作为存储海量事实的知识库,可为LLM提供专业领域的知识数据以辅助解释产生的结果,克服LLM泛化能力的缺陷。两者的联合具有较强的优势互补性,可以造就执行知识表征和推理能力的强大模型,以应对军事人力资源数据智能化水平较低的问题。
Bert作为双向Transformer结构开源LLM的代表模型之一,能够在理解一个词的意义时同时考虑其前、后的上下文。相比于适合长文本生成、对话生成和多轮对话的单向Transformer结构LLM,Bert可以提供更高精度的查询、搜索结果,对分析军事人力资源数据、为管理者提供辅助决策更具现实意义。另外,虽然Bert是非国产化工具,但其作为一个成熟的LLM,部署运行在不涉及数据向非安全域流转的本地(内网安全域)环境中,在技术层面完全可以实现监督透明化,确保军事人力资源数据和信息的安全性。同时,Bert拥有庞大的社区支持和丰富的资源,提供了高质量中文语料版本Bert-base-chinese,避免了模型应用过程中的本土化挑战。近年来,国内的华为、阿里云也对其展开研究,并取得了丰硕成果,相继发布了Bert的国产化改造版本MacBert[17]和RoFormer[18]
最重要的是,Bert模型体量相对较小,适合在资源有限的环境中部署,使得它在小型企业和资源受限的通用场景或领域中更具优势,对本文关注的军事人力资源领域尤其有用。因此,本文选取了原生Bert作为为军事人力资源领域提供智能交互能力的上游LLM,并通过改造它的Encoder结构,使得2.1.2训练生成的Mhr-Bert可以在推理期间接受Mhr-Mkg子图的动态注入,增强其在军事人力资源领域的推理能力,Mhr-Bert的工作流程如图3所示。
图3 Mhr-Bert工作流程

Fig.3 The workflow of Mhr-Bert

2.2.1 Encoder改造

Bert本质上是一个预训练Transformer结构的编码器Encoder堆栈,原生Encoder接受非结构化上下文输入序列Context转换输出一个上下文向量token。为了将Mhr-Mkg(子图)注入Mhr-Bert并可被正确处理,本文在原生的Encoder中添加多源知识层Mkg-layer和融合层Fusion-layer,使得显式的结构化图谱(子图)数据也可以编码后作为输入,联合Context展开后续推理。

2.2.2 Mhr-Mkg子图生成

为了获取推理期间所需子图,本文基于Mhr-Bert将Context中的文本实体Context-E与Mhr-Mkg中的Mhr-E进行链接,得到Mhr-Mkg子图的初始节点集合G。考虑Mhr-Mkg子图的生成质量,G添加其中各节点的3跳邻居节点进行扩容得到节点集合G-A,依据实体链接置信度对G-A降噪,同时将Context作为头节点注入,得到最终的子图节点集合G-Sub,最后依据Mhr-Mkg检索G-Sub中任意两节点的所有连接边,构建Mhr-Mkg子图[19-20]

2.2.3 多模态数据联合

Context为隐式的非结构文本语料,Mhr-Mkg子图为显式的结构化图谱数据,在训练或推理期间,Context在原生的Encoder中被转换为字token,而Mhr-Mkg子图节点被新添加的Mkg-layer处理为独特的node结构。
其中,Encoder的初始输入为Context的单字划分token0= { h 1 0, h 2 0, h 3 0,…, h k 0},ktoken的长度,tokeni-1tokeni的层间轮次信息传递表示为:
$\ { token }^{i-1}=\left\{h_{1}^{i-1}, h_{2}^{i-1}, h_{3}^{i-1}, \cdots, h_{k}^{i-1}\right\}$
$\ { token }^{i}=\left\{h_{1}^{i}, h_{2}^{i}, h_{3}^{i}, \cdots, h_{k}^{i}\right\}$
$\ { token }^{i}=\operatorname{Enc}\left(\ { token }^{i-1}\right)$
Mkg-layer实际上是一个图注意力网络GAT,其初始节点嵌入表示为node0={ e 1 0, e 2 0, e 3 0,…, e p 0},pnode的长度。node0传入GAT(即Mkg-layer),从而完成图节点之间的信息传播,nodei-1nodei的层间轮次信息传递表示为:
${node}^{i-1}=\left\{e_{1}^{i-1}, e_{2}^{i-1}, e_{3}^{i-1}, \cdots, e_{p}^{i-1}\right\}$
$\ { node }^{i}=\left\{e_{1}^{i}, e_{2}^{i}, e_{3}^{i}, \cdots, e_{p}^{i}\right\}$
$\ { node }^{i}=\mathrm{Mkg}^{\left(\ {node } ^{i-1}\right)}$
由于nodetoken是不同模态的数据,存在数据结构引起的语义鸿沟,改造后的Mkg-layer也为node构建了定制化的注意力机制。因此,Mhr-Bert实际上是双重注意力机制。原生Encoder的注意力机制是关于Context的基础语境注意力,而Mkg-layer的注意力机制则是关于Mhr-Mkg子图的外源信息注意力。Mkg-layer的注意力机制通过GAT的层间轮次信息传播过程实现, e m i - 1 e m i的信息传递可表示为
$e_{m}^{i}=\mathrm{FN}\left(\sum \alpha_{m} m_{m}\right)+e_{m}^{i-1}$
其中,FN是一个数据单向传播、没有反馈的前馈神经网络,αmmm分别为 e m i - 1的任意邻域节点对 e m i传播消息的注意力权重和消息。

2.2.4 交互编码深度绑定

为实现两种模态数据的深度信息交互,需要将编码后生成的tokennode形成初始联合表征信息TN0={token0, node0},注入融合层Fusion-layer中展开推理,其中,TN0[0]=token0,TN0[1]=node0。Fusion-layer是前馈神经网络,在Fusion-layer中,tokeninodei直接发生传递、交互,然后输出的联合表征信息再次拆分,TNi-1TNi信息层间轮次传递表示为:
$T N^{i-1}=\left\{T N^{i-1}[0], T N^{i-1}[1]\right\}$
$T N^{i}=\left\{T N^{i}[0], T N^{i}[1]\right\}$
$T N^{i}=\text { Fusion }\left(T N^{i-1}\right)$

3 评估验证

为了验证本文所提出的Mhr-KL的可行性和准确性,在试验环境搭建了简单的测试系统对该模型进行检测评估,检测评估包括数据孤岛存量测试、智能问答性能验证和对比分析三个方面。

3.1 数据孤岛存量测试

Mhr-KL的可行性和准确性建立在基础数据支撑完备的情况下,为测试模型基础数据支撑情况,测试评估阶段首先对Mhr-Mkg进行了数据孤岛存量测试。测试结果如表1所示。
表1 数据孤岛存量测试

Tab.1 The testing of data silo legacy

类型 测试内容 具体指标 测试总量 未通过存量
单项 完整性测试 缺失值 8 974 195
时效性验证 时间戳 973 29
整体 一致性检验 交叉验证值 194 15
冗余度检查 重复记录 194 11
为全面体现数据孤岛存量测试的有效性,测试结果区分完整性测试、时效性验证、一致性检验以及冗余度检查四个维度进行验证。完整性测试和时效性验证针对单项的测试记录,以缺失值和时间戳对测试记录的完整程度和实时适用性进行检测;一致性检验和冗余度检查着眼整体的测试记录关联结果,以交叉验证值和重复记录验证关联结果的正确性和重复程度。
测试在2 017个文件共计8 947项记录上进行,数据孤岛存量测试结果如表1所示。其中,8 947项测试记录涉及973项不同的时间戳,测试记录关联涉及194项关联结果。从实验结果来看,各项指标的未通过存量均能够保持在该项总量的3%以下,验证了Mhr-Mkg对数据孤岛的有效抑制。

3.2 智能问答性能验证

为评估Mhr-KL的智能化水平,在数据孤岛存量测试的基础上,测试评估阶段继续使用该8 947项记录(其中包含658项问答记录)组合设计了1 000项属性问答、200项文本问答测试用例对Mhr-KL中Mhr-Bert的进行测试,结果如表2所示。
表2 智能问答性能验证

Tab.2 Performance verification of intelligent Q&A

测试项目 完备性 可理解性 响应时间 鲁棒性
属性问答 874/1 000 904/1 000 3.4 s 865/1 000
文本问答 175/200 170/200 5.2 s 161/200
需要说明的是,测试指标区分完备性、可理解性、(平均)响应时间以及鲁棒性四项,其中,完备性以问答结果中关键字段是否完全命中体现Mhr-Bert测试结果的完整程度,可理解性针对Mhr-Bert中文语境(本地化)语言组织能力使用开源工具Readability[19]进行自动化易读性指数(ARI)评估并二值化评估结果于0/1,响应时间和鲁棒性分别以平均时间和报错(崩溃)次数的补集来侧重检测Mhr-Bert的整体性能。
从实验结果看,属性问答测试与文本问答测试的各项指标的合格率总体保持在80%以上,但与3%的数据孤岛存量相比,提升空间仍较大。智能问答的性能取决于多方面因素,根据实验结果, Mhr-Bert对输入的鲁棒性是限制其他指标提升的最主要因素。

3.3 对比分析

测试评估阶段的最后进行了对比分析,以量化Mhr-KL与传统方法的效果差异,整体评估Mhr-KL带来的性能提升。由于传统方法涉及对多源数据的查询,为排除人为因素(如业务熟练程度)干扰,提升对比分析的可信度,对比分析过程中的传统方法使用自动化程序模拟人力资源领域工作人员实际的业务办理流程,实现对8 947项记录所在原始文件(资源)的查询与搜索。
对比分析沿用(改造)了3.2设计的1 000项属性查询、200项文本查询,共计1 200项测试用例,并在统一设计输入的条件设定下排除鲁棒性差异对两种方法进行类似于3.2的完备性、可理解性以及(加权平均)响应时间三项指标测试,结果如表3所示。
表3 对比分析

Tab.3 Comparative Analysis

测试方法 完备性 可理解性 响应时间
Mhr-KL 1 049/1 200 1074/1 200 3.7 s
传统方法 1 037/1 200 813/1 200 5.8 s
分析实验结果,Mhr-KL的各项指标表现均优于传统方法,得益于KG和LLM的联合效果,其查询结果不再是字段的简单堆叠,在响应时间和可理解性上对比传统方法也有较大提升。

4 结束语

本文提出了一种知识图谱与大型语言模型联合的军事人力资源大数据技术,解构军事人力资源数据嵌合体,以应对大数据时代的军事人力资源数据领域数据应用难度大和智能化程度低的问题。通过在试验环境中进行数据孤岛存量测试、智能问答性能验证和对比分析三项评估,证明了该技术的可行性和准确性。
分析实验可知,3.2中Mhr-Bert的鲁棒性制约了Mhr-KL的整体性能,使用提示工程Prompt[20]“格式化”来自用户的“任意”输入,使Mhr-Bert能够更好地理解任务要求,引导其生成期望的高质量输出,避免不必要的迭代次数,提升模型鲁棒性和交互质量,值得在下一步工作中考虑。另外,本文应用大型语言模型时的输入涉及两种模态数据[21],并通过一一对应的形式进行联合编码,探索跨模态数据编码(对齐)技术,将多模态数据更合理地编码绑定、映射到同一个潜空间,促进不同模态数据深度融合、高效交互,提升Mhr-Bert应对跨模态数据输入的能力,也是一个重要的研究方向。
[1]
王鹏. 数据资产赋能数字经济高质量发展:解析《关于加强数据资产管理的指导意见》[N]. 中国日报,2024-01-23.

WANG P. Empowering high quality development of digital economy with data assets: analysis of the guiding opinions on strengthening data asset management[N]. China Daily, 2024-01-23.

[2]
王爱敏, 王崇良, 黄秋钧. 人力资源大数据应用实践: 模型、技术、应用场景[M]. 北京: 清华大学出版社, 2017.

WANG A M, WANG C L, HUANG Q J. Human resource big data application practice[M]. Beijing: Tsinghua University Press, 2017.

[3]
穆胜. 人力资源管理新逻辑[M]. 北京: 新华出版社, 2015.

MU S. New logic of human resource management[M]. Beijing: Xinhua Publishing House, 2015.

[4]
QAMAR N. Big data analytics: recent trends and applications in human resource management[J]. Journal of Data Acquisition and Processing, 2023, 38(2): 10.

[5]
王涛, 邹玉, 陈国升, 等. 军事人力资源大数据体系与应用展望[J]. 网络安全与数据治理, 2023, 42(S1): 51-54.

WANG T, ZOU Y, CHEN G S, et al. Military human resources big data system and application prospect[J]. Information Technology and Network Security, 2023, 42(S1): 51-54.

[6]
Suchanek F M, Kasneci G, Weikum G. Yago: a core of semantic knowledge[C]// Proceedings of the 16th international conference on World Wide Web. 2007: 697-706.

[7]
Vrandečić D, Krötzsch M. Wikidata: a free collaborative knowledge base[J]. Communications of the ACM, 2014, 57(10): 78-85.

[8]
KALLA D, SMITH N, SAMAAH F, et al. Study and analysis of chat GPT and its impact on different fields of study[J]. International Journal of Innovative Science and Research Technology, 2023, 8(3):1-15.

[9]
Achiam J, Adler S, Agarwal S, et al. Gpt-4 technical report[EB/OL]. arxiv preprint arxiv:2303.08774, 2023.

[10]
黄勃, 吴申奥, 王文广, 等. 图模互补: 知识图谱与大模型融合综述[J]. 武汉大学学报(理学版), 2024, 70(4): 397-412.

HUANG B, WU S A, WANG W G, et al. KG-LLM-MCom: a survey on integration of knowledge graph and large language model[J]. Journal of Wuhan University(Natural Science Edition), 2024, 70(4): 397-412.

[11]
LIU W, ZHOU P, ZHAO Z, et al. Kbert:Enabling language representation with knowledge graph[J]. Proceedings of the AAAI Conference on Artifical Intellig-ence, 2020, 34(3):2901-2 908.

[12]
YAO L, MAO C S, LUO Y. KG-BERT: BERT for knowledge graph completion[EB/OL]. 2019: 1909.03193. https://arxiv.org/abs/1909.03193v2.

[13]
KENTON J D M W C, TOUTANOVA L K. Bert: Pretraining of deep bidirectional transformers for language understanding[C]// Proceedings of naacL-HIT, 2019: 2.

[14]
PAN S R, LUO L H, WANG Y F, et al. Unifying large language models and knowledge graphs: a roadmap[J]. IEEE Transactions on Knowledge and Data Engineering, 2024, 36(7): 3 580-3 599.

[15]
VASWANI A. Attention is all you need[J]. Advances in Neural Information Processing Systems, 2017(1):1-10.

[16]
王明皓, 殷涛, 杨洪杰, 等. 知识图谱和大模型技术发展与应用[J]. 网络安全与数据治理, 2023, 42(S1): 126-131.

WANG M H, YIN T, YANG H J, et al. Knowledge graphs and large language models technology development and application[J]. Information Technology and Network Security, 2023, 42(S1): 126-131.

[17]
CUI Y M, CHE W X, LIU T, et al. Revisiting pre-trained models for Chinese natural language processing[EB/OL]. 2020: 2004.13922. https://arxiv.org/abs/2004.13922v2.

[18]
SU J L, AHMED M, LU Y, et al. RoFormer: enhanced transformer with rotary position embedding[J]. Neurocomputing, 2024(568): 127 063.

[19]
NLTK Contributors, "Readability," in NLTK Contrib, GitHub[EB/OL]. Avai-lable: https://github.com/nltk/nltk_contrib/tree/master/nltk_contrib/readability.

[20]
SAHOO P, SINGH A K, SAHA S, et al. A systematic survey of prompt engineering in large language models: techniques and applications[EB/OL]. 2024: 2402.07927.https://arxiv.org/abs/2402.07927v1.

[21]
唐荻音, 丁奕州, 王轩, 等. 知识图谱技术在预测与健康管理中的应用现状与研究展望[J]. 电光与控制, 2024, 31(2):1-11.

TANG D Y, DING Y Z, WANG X, et al. Research progress and prospects of knowledge graph technology applied in prognostics and health Management[J]. Electronics Optics & Control, 2024, 31(2):1-11.

Outlines

/