中国科技核心期刊      中国指挥与控制学会会刊     军事装备类重点期刊
建模仿真与评估

基于信息需求的自动推荐算法与仿真

  • 蔡理金 ,
  • 张锋军 ,
  • 卢迅
展开
  • 国防科技大学信息通信学院, 湖北 武汉 430010

蔡理金(1979—),男,副教授,博士研究生,硕士生导师,研究方向为作战指挥保障。

张锋军(1979—),男,副教授。

Copy editor: 许韦韦

收稿日期: 2023-11-16

  修回日期: 2024-01-25

  网络出版日期: 2024-11-26

Algorithm and simulation of automatic recommendation based on information requirements

  • CAI Lijin ,
  • ZHANG Fengjun ,
  • LU Xun
Expand
  • Academy of Information Communication, National Defense Science and Technology, Wuhan 430010, China

Received date: 2023-11-16

  Revised date: 2024-01-25

  Online published: 2024-11-26

摘要

信息获取是指挥决策的前提。在充斥着海量信息的大数据时代,高价值信息淹没于海量信息之中,如何高效获取指挥人员所需的有用信息,成为提升作战指挥效能的关键。运用基于信息需求的信息自动推荐算法,依据指挥人员提出的信息需求,通过对信息文本的向量化处理,基于文本相似性比较提取有用信息并向指挥人员自动推荐,可有效提高信息获取的时效性,提升指挥决策及时性和科学性。

本文引用格式

蔡理金 , 张锋军 , 卢迅 . 基于信息需求的自动推荐算法与仿真[J]. 指挥控制与仿真, 2024 , 46(6) : 117 -121 . DOI: 10.3969/j.issn.1673-3819.2024.06.019

Abstract

Information acquisition is the prerequisite for command decision-making. In the era of big data filled with massive information, the useful information is submerged in useless information. How to efficiently obtain the useful information needed by command personnel is the key to improve operational command effectiveness. The author uses the information automatic recommendation algorithm, on the basis of the information requirements proposed by the commander, extracts the useful information and automatically recommends to commander based on the text similarity. It can effectively improve the timeliness of information acquisition and command decision-making, and thus improve the effectiveness of combat command.

“科学的决策是90%的信息+10%的决断”,信息是点亮指挥人员前行的明灯,作战指挥人员开展指挥决策,必须依赖来自战场的各类信息。随着现代社会进入大数据时代,现代战争亦步入大数据时代,信息已经成为打赢现代战争的关键支撑[1]。但信息并非多多益善,海量信息会导致作战指挥人员深陷信息迷雾而难以窥透战争制胜“密码”。实践亦表明,作战指挥人员指挥决策的科学性随着其所获取信息量的增加而增加并达到最大值,而后则随着信息量获取的增加而降低。“兵之情主速”,现代战场更是瞬息万变,战争基本制胜机理强调以快制慢,快速作战行动依赖于对信息的及时获取,基于信息优势获取决策优势和行动优势。因此,作战指挥人员及时有效获取支撑作战指挥的高价值信息已成为夺取战争主动权的关键点。面对大数据时代的海量信息,指挥人员在实战责任性、时间紧迫性等多重压力之下,如何采取有效方法获取作战指挥所需的有用信息,就成为制约作战指挥效能发挥的关键性问题。
本文以作战指挥人员提出的信息需求为依据,研究采取基于文本相似度的自动匹配算法,为指挥人员自动推荐与信息需求具有一定相关度阈值的有用信息,并利用Python语言进行仿真。仿真结果表明,本方法能够根据指挥员所提出的信息需求合理推送文本信息,为指挥员和指挥机构作战指挥提供高效及时的信息服务保障。

1 基本思路

基于信息需求的信息自动推荐算法[2-3]的基本思路是,在海量的源信息中找到与信息需求最为匹配的信息文本,按照匹配度大小排序自动向作战指挥人员进行推荐,基本思路如图1所示。
图1 基于信息需求的信息自动推荐算法流程

Fig.1 Process of information automatic recommendation algorithm based on information requirements

首先,对信息需求文本和海量源信息文本进行分词、去停用词以及提取出关键词等处理,使连续的信息文本呈现离散化;其次,运用“词频(Term Frequency, TF)-逆文档频率(Inverse Document Frequency, IDF)”(TF-IDF)方法[4-5],提取源信息文本、信息需求文本的关键词,将文本以词向量的形式表征;再次,基于不同文本的向量表示形式,运用文本相似性计算方法,计算源信息文本与信息需求文本之间的相似性;最后,根据实际情况选取合适的阈值,将相似度大于所设定阈值的源信息文本作为有用信息,自动推送给指挥人员。

2 算法流程

2.1 文本信息的预处理

文本信息的预处理,就是对信息需求文本以及各类源信息文本进行离散化处理,使其能够被计算机自动识别,其步骤包括分词和去停用词[6]。分词采取Jieba 分词方法[7],基于已有的前缀词典对文本信息进行切分,将文本信息分解为离散化的词语。去停用词是基于构建的停用词库,消减离散化词语中不能表征文本特征的无用高频词,以提高表征文本特征的词语质量。高质量的停用词库对于提高文本预处理质量具有重要作用,其构建方法是在已有词库基础上,针对待处理信息文本的特点调整停用词,使停用词库满足文本处理需要。

2.2 提取文本关键词

提取文本关键词[8],就是从离散化的词语中,提取出最能表征文本特征的少数关键词。本文采取TF-IDF 提取关键词,其基本思想是,词语的重要性与它在文本中出现的次数成正比,但同时与它在其他文本中出现的频率成反比。词语在本文本中出现的频度用TF表征,在其他文本出现的频度用IDF表征,TF-IDF则是两者的乘积,共同表征词语关键性大小。在计算TF-IDF值后,根据设定的阈值选择文本关键词,具体步骤如下:
1)统计词频
分别计算每一个词在文本中出现的次数。由于文本长度大都不一样,需要对词频进行标准化处理,标准化词频TF计算公式为
TF(wi)= N u m ( w i ) N u m ( w t o t a l )
式(1)中,Num(wi)表示词语wi在文本中出现的次数,Num(wtotal)表示信息文本中的总词数。
2)计算逆文档频率
词语的逆文档频率IDF表示该词在其他文本中出现的频率,其计算公式为
IDF(wi)=log N u m ( a l l _ t e x t ) N u m ( t e x t _ i n c l u d e _ w o r d i ) + 1
式(2)中,Num(all_text)表示搜取的所有文本总数;Num(text_include_wordi)表示包含该词语的文本数。如果词语在各个文本中出现得越多,分母就越大,逆文档频率越小、越接近零,则表明词语越常见,其本身的特征性越小。反之则越具备特征性,能够表征它所在文本的特征。
3)提取关键词
用词频(TF)和逆文档频率(IDF)的乘积表征词语的重要性,词语的TF-IDF计算公式如下
TF-IDF(wi)=TF(wiIDF(wi)
词语TF-IDF 值越大,表示该词对信息文本越重要,按照 TF-IDF 值的大小对词语排序,选择值较大的若干词作为信息文本的关键词。

2.3 计算文本相似性

文本相似性用于衡量文本之间的相似程度,本文采取余弦相似度算法[9],计算源信息文本与信息需求文本的相似度,将相似度较高的源信息文本自动推荐给指挥人员。余弦相似度是指用向量空间中两个文本向量之间夹角的余弦值来表征两个向量所代表文本的相似度。设信息需求的n维关键词向量表示为Vec(inf_req)=(x1,x2,…,xn),其中xi表示位置为i的关键词的 TF-IDF 值,in;源信息文本的m维关键词向量表示为Vec(source_inf_text)=(y1,y2,…,ym),其中yj表示位置为j的关键词的 TF-IDF 值,jm;信息需求文本X 与源信息文本Y的组合向量的维度k=mn,显然k∈[max(n,m),n+m]。当信息需求文本X与源信息文本Y的关键词全部重合时,k=max(n,m)。当信息需求文本X 与源信息文本Y的关键词共有 q 个重合时,k=m+n-q。根据余弦相似定理,可知 k 维的向量空间中,其余弦值计算公式为
cos θ= i = 1 k x i × y i i = 1 k ( x i ) 2 × i = 1 k ( y i ) 2
式(4)中,θ表示两个文本向量之间的夹角,夹角越小,表明两个文本向量的方向越相近,夹角越大,表明两个文本向量的方向偏差越远。由于余弦值 cos θ的范围在[-1,1]之间,将其归一化,文本 X 与文本 Y 向量相似度计算公式为
cosineSIM=0.5cos(θ)+0.5= 1 + i = 1 k x i × y i 2 i = 1 k ( x i ) 2 × i = 1 k ( y i ) 2
余弦相似度值cosineSIM越接近 1,就表明夹角越接近 0 度,也就是两个向量方向越相近,其所代表的信息文本也越相似,如果余弦值 cosineSIM等于1,可以认为两个向量是相等的,即它们分别代表的文本是相等的,或者说是相似的。相反,余弦值 cosineSIM越接近于 0,表明两个向量方向越远,其所代表文本也越不相似。

2.4 自动推荐关键信息文本

设置相似度阈值[10]来对源信息文本进行筛选,将相似度大于所选阈值的源信息文本,按相似度由大到小排序,并向指挥员和指挥机构自动推荐。一般情况下,由指挥人员根据现实情况来确定阈值,另外也可以根据简单多数规则计算得出阈值,阈值τ计算公式为
τ=sim(-)+ s i m ( + ) - s i m ( - ) 3
式(6)中,sim(+)sim(-)分别表示相似度的最大值和最小值,将相似度计算结果从大到小排序,将相似度值大于τ的源信息文本提取出来自动推荐给指挥人员。

3 仿真与实现

现代战争是基于信息系统的体系对抗,如何实施体系破击成为作战双方指挥员作战指挥首先需考虑的关键性问题。根据美空军沃登上校的“五环打击目标”理论,体系破击的关键是针对对方指挥信息系统实施打击,即作战双方火力突击的核心是打击对方的指挥、控制和通信系统。因此,这里以火力打击作战指挥信息需求为例进行分析。以指挥员作战指挥信息需求文本《关键信息需求—要害目标》:“蓝军要害目标:蓝军海岸浅近纵深的地面雷达站、空中预警机、电子战飞机等电子侦察与干扰器的部署位置、技术性能和干扰能力”为例,基于《蓝军电子战部队的编制与装备》《蓝军预警系统以及信息战能力》等10个源信息文本,采取基于信息需求的信息自动推荐方法,运用Python语言对算法具体流程与实现进行仿真,并从10个源信息文本中自动推荐产生与信息需求相似度较高的信息文本。

3.1 文本信息的预处理

为使信息需求和源信息文本能够被计算机所识别,需要对信息需求文本以及所有的源文本进行预处理,这里以《信息需求文本》和《蓝军电子战部队的编制与装备》等两个文本进行预处理,分词结果分别如图2图3所示,这里只列出前20个词频最高的词语。
图2 信息需求文本预处理后前20词频最高的词语

Fig.2 The top 20 words with the highest frequency after text preprocessing for information requirements

图3 源文本预处理后前20词频最高的词语

Fig.3 Top 20 words with the highest frequency after source text preprocessing

由于信息需求文本比较简短,词频基本都相同,词频最高的前20个词语分别是(蓝军、要害、目标、海岸、浅近、纵深、地面、雷达站、空中、预警机、电子战、飞机、电子、侦察、干扰器、部署、位置、技术、性能、干扰能力)。在《蓝军电子战部队编制与装备》文本中,词频最高的前20个词语分别是(电子战、电子、干扰、雷达、装备、部队、干扰器、预警、导弹、通信、蓝军、侦察、干扰机、投放、侦测、空军、信号、海军、截收)。

3.2 提取关键词

基于信息需求文本以及《蓝军电子战部队的编制与装备》分词结果,计算不同词语TF-IDF值,取TF-IDF值靠前的词语作为两个文本的关键词。计算结果如图4图5所示。
图4 信息需求文本TF-IDF排序前20的关键词

Fig.4 Top 20 keywords in TF-IDF ranking for information requirements text

图5 源文本TF-IDF排序前20的关键词

Fig.5 Top 20 keywords in TF-IDF sorting of source text

根据分析结果,信息需求排序前20的词语及TF-IDF值为(蓝军0.066 5、要害0.047 6、浅近0.047 6、地面0.047 6、干扰能力0.047 6、干扰器0.033 3、雷达站0.024 9、位置0.024 9、技术0.024 9、性能0.024 9、海岸0.018 9、预警机0.018 9、电子0.018 9、纵深0.014 3、空中0.014 3、目标0.010 6、电子战0.010 6、飞机0.010 6、侦察0.010 6、部署0.010 6)。
《蓝军电子战部队的编制与装备》排序前20的词语及TF-IDF值为(干扰0.015 5、电子0.014 7、干扰器0.01 2、电子战0.010 9、蓝军0.008 6、投放0.006 9、雷达0.004 6、干扰机0.003 9、信号0.003 9、预警0.003 8、截收0.003 4、通信兵0.003 4、诱饵弹0.003 4、阻塞0.003 4、杂波0.003 4、金属0.003 4、波条0.003 4、机载雷达0.003 4、红外线0.003 4、舰炮0.003 4)。

3.3 计算文本相似性

将信息需求文本向量和《蓝军电子战部队的编制与装备》源文本信息的特征向量进行组合。根据组合向量空间,将两个向量表示为35维的向量形式(即蓝军、要害、浅近、地面、干扰能力、干扰器、雷达站、位置、技术、性能、海岸、预警机、电子、纵深、空中、目标、电子战、飞机、侦察(截收)、部署、干扰、电子、投放、干扰机、信号、预警、通信兵、诱标弹、阻塞、杂波、金属、箔条、机载雷达、红外线、舰炮)。《信息需求》文本向量可表示为
Vec(info_req)=(0.066 5,0.047 6,0.047 6,0.047 6,0.047 6,0.033 3,0.024 9,0.024 9,0.024 9,0.024 9,0.018 9,0.018 9,0.018 9,0.014 3,0.014 3,0.010 6,0.010 6,0.010 6,0.010 6,0.010 6,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0)。
《蓝军电子战部队的编制与装备》文本向量可表示为
Vec(source_info_text_twdzz)=(0.006 9,0,0,0,0,0.012,0.003 9,0,0,0,0,0,0,0,0,0,0.010 9,0,0.003 8,0,0.015 5,0.014 7,0.004 6,0.003 9,0.003 9,0.003 8,0.003 8,0.003 8,0.003 4,0.003 4,0.003 4,0.003 4,0.003 4,0.003 4,0.003 4)。
将两个文本向量代入式(5)中,可以得到:
cosineSIM= 1 + i = 1 k x i × y i 2 i = 1 k ( x i ) 2 × i = 1 k ( y i ) 2=0.628 9
根据计算结果可知,文本《信息需求》和《蓝军电子战部队的编制与装备》具有一定的相似度。同理可以得到《信息需求》与其他源信息文本的相似度,具体如表1所示。
表1 信息需求文本与源信息文本余弦相似度

Tab.1 Cosine similarity between information requirement text and source information text

序号 源信息文本 余弦相似度
1 《蓝军本岛与外岛兵力部署》 0.505 5
2 《蓝军城市防御战斗突出特点》 0.500 0
3 《蓝军军事地理形势分析》 0.500 0
4 《蓝军火力打击武器装备》 0.500 0
5 《蓝军电子战部队的编制与装备》 0.628 9
6 《蓝军海军》 0.500 0
7 《蓝军武器装备评析》 0.588 0
8 《蓝军预警系统及信息战能力》 0.534 6
9 《蓝军C4ISR系统简况》 0.508 3
10 《蓝军战略指挥中枢》 0.500 0

3.4 自动推荐关键信息文本

根据表1的相关结果,sim(-)=0.5,sim(+)=0.628 9,代入公式(6),可以得到推荐的阈值τ

τ=sim(-)+ s i m ( + ) - s i m ( - ) 3=

0.5+ 0.628   9 - 0.5 3=0.543 0
表1的相似度分别进行计算后,结果如图6所示。
图6 基于相似度的文本自动推荐图

Fig.6 Text automatic recommendation based on similarity

图6可知,《蓝军本岛与外岛兵力部署》《蓝军城市防御战斗突出特点》等8个文本由于与《关键信息需求-要害目标》的余弦相似度值小于规定阈值,都不向指挥员推荐。《蓝军电子战部队的编制与装备》和《蓝军武器装备评析》与《关键信息需求-要害目标》的余弦相似度值大于规定阈值,且前者与《关键信息需求-要害目标》相比,大于后者,因此可以按照《蓝军电子战部队的编制与装备》《蓝军武器装备评析》的排序向指挥人员推荐信息。

4 结束语

正如克劳塞维茨所说,“分析判断能力是将领应该具有的微光,那么决策就是跟随这种微光前进的能力”。指挥员科学高效的决断力,绝不是“眉头一皱、计上心来”那么简单,而是来源于对各类有用信息的高效快速收集与科学的综合分析判断。本文针对大数据时代,作战指挥人员深陷数据迷雾而难以快速获取所需信息的现实问题,提出了运用基于信息需求的信息自动推荐算法,阐明了算法的基本思路、实现流程,并运用Python对算法进行了仿真实现。仿真验证表明,基于信息需求的信息自动推荐算法,可以在指挥人员提出信息需求的基础上,通过对信息文本的向量化处理,自动从各类信息文本中选择出指挥人员所需的关联度较高的信息,自主推荐给指挥员辅助指挥决策,缩短信息搜集的时间,提高指挥人员指挥决策的时效性,有利于将信息优势转换为指挥员和指挥机关的决策优势,进而转化为部队行动优势和作战优势。
[1]
邹静, 高智慧, 杨巍. 大数据处理技术在现代战争中的应用[C]. 中国指挥与控制学会.第十届中国指挥控制大会论文集(上册), 2022.

ZOU J, GAO Z H, YANG W. Application of big data processing technology in modern war[C]. Chinese Institute of Command and Control. Proceedings of the 10th China Command and Control Conference (Volume 1), 2022.

[2]
李加军. 基于大数据技术的电子商务个性化信息自动推荐算法应用[J]. 自动化技术与应用, 2021, 40(10): 38-42.

LI J J. Application of personalized information automatic recommendation algorithm in E-commerce based on big data technology[J]. Techniques of Automation and Applications, 2021, 40(10): 38-42.

[3]
GUAN Y, WEI Q. Deep learning based personalized recommendation with multi-view information integration[J]. Decision Support Systems, 2019, 118(5):58-69.

[4]
皎海军, 杜胜贤, 廖晨阳, 等. 基于词频-逆文档频率(TFIDF)算法的公文处理智能推荐技术研究[J]. 办公自动化, 2020, 25(13): 23-26.

JIAO H J, DU S X, LIAO C Y, et al. Research on intelligent recommendation technology for official document processing based on TFIDF algorithm[J]. Office Informatization, 2020, 25(13): 23-26.

[5]
蓝峥杰, 王烈, 聂雄. 一种基于词频-逆文档频率和混合损失的表情识别算法[J]. 计算机工程, 2023, 49(1): 295-302, 310.

DOI

LAN Z J, WANG L, NIE X. An expression recognition algorithm based on term frequency-inverse document frequency and hybrid loss[J]. Computer Engineering, 2023, 49(1): 295-302, 310.

DOI

[6]
曾小芹. 基于Python的中文结巴分词技术实现[J]. 信息与电脑, 2019, 31(18): 38-39, 42.

ZENG X Q. Technology implementation of Chinese jieba segmentation based on python[J]. China Computer & Communication, 2019, 31(18): 38-39, 42.

[7]
祝永志, 荆静. 基于Python语言的中文分词技术的研究[J]. 通信技术, 2019, 52(7):1612-1 619.

ZHU Y Z, JING J. Chinese word segmentation technology based on Python Language[J]. Communications Technology, 2019, 52(7):1612-1 619.

[8]
武永亮, 赵书良, 李长镜, 等. 基于TF-IDF和余弦相似度的文本分类方法[J]. 中文信息学报, 2017, 31(5): 138-145.

WU Y L, ZHAO S L, LI C J, et al. Text classification method based on TF-IDF and cosine similarity[J]. Journal of Chinese Information Processing, 2017, 31(5): 138-145.

[9]
张瑞典, 钱晓东. 用余弦相似度修正评分的协同过滤推荐算法[J]. 计算机工程与科学, 2020, 42(6): 1 096-1 105.

ZHANG R D, QIAN X D. A collaborative filtering recommendation algorithm with revised rating by cosine similarity[J]. Computer Engineering & Science, 2020, 42(6): 1 096-1 105.

[10]
郭锋, 郑雷, 葛黄徐, 等. 基于相似度阈值模糊聚类的红外区域提取方法[J]. 红外技术, 2022, 44(8): 863-869.

GUO F, ZHENG L, GE H X, et al. Infrared image segmentation method based on fuzzy clustering with similarity thresholding[J]. Infrared Technology, 2022, 44(8): 863-869.

文章导航

/