实体链接是知识图谱构建与应用过程中的关键步骤,是指将文本中抽取出的非标准命名实体规范化,并链接到知识图谱上的过程
[1],也可理解为将候选集合中的最佳目标实体赋予实体指称明确的含义
[2]。实体链接是词义消歧任务中的一种类型
[3],需要通过建立知识库中的实体条目与输入文本中带歧义的实体之间一一对应的关系来进行歧义消除。
文本中存在的实体叫作实体指称(Mention),一般包括三种类型
[4]:名称性指称、名词性指称和代词性指称。例如,在句子“[外交部发言人][华春莹]称,[我国]火星探测任务受到广泛关注”中,[外交部发言人]是名词性指称,[华春莹]是名称性指称,[我国]则是代词性指称,自然语言文本中存在歧义且查询操作频繁的指称主要是名称性指称,因此,本文将重点关注名称性指称的实体链接。
当前实体链接方法主要分为单实体链接和关联实体链接
[5]。单实体通常出现在包含少量实体的简洁文本中,实体上下文信息较少,一般来说,不规范形式有迹可循
[6];而关联性实体通常出现在长文本中,大量实体的含义需通过上下文语义进行确定,一词多义或多词一义等现象比较普遍
[7],对不规范形式很难用简单规律进行总结。与医药、影视、电商等其他领域
[8]不同的是,为准确发号施令,顺畅通信联络,进而确保“万无一失”,军事指挥员在作战、训练及其他行动和工作中,依据《中国人民解放军军语》,统一使用规范化军事用语,因此,其需求语句通常具有命令简明,无歧义,缩略形式有迹可循等特点。面向指挥员命令语句的实体链接属于典型的单实体链接形式。
因此,本文面向指挥员需求命令提出一种基于改进编辑距离模型的单实体链接方法。该方法在为标准实体建立索引的基础上,通过融合改进编辑距离的BM25模型完成候选实体排序,最后将排序位次最高的实体返回为链接目标实体,实现了将指挥员自然语言问句中的实体映射到知识图谱中标准实体的过程。