中国科技核心期刊      中国指挥与控制学会会刊     军事装备类重点期刊
Information Fusion

Exploration of the application of large language models in military information service work

  • HE Jinyue ,
  • WANG Yixiang ,
  • LIANG Li ,
  • HUA Shiling
Expand
  • Troops 32269 of PLA, Lanzhou 730030, China

Received date: 2024-11-02

  Revised date: 2024-11-17

  Online published: 2025-09-25

Abstract

The innovative development of large language models in the field of natural language processing provides new ideas for the application of artificial intelligence in the military. At present, the information service work of our army is carried out according to the traditional service concept, the submitted documents are reviewed and screened before being published. However, the ability of officers and soldiers to transform military specialized content into official documents such as news and special issues generally needs to be strengthened. This article aims to address the current situation by collecting military news from open-source channels and constructing a dataset containing over 5 000 pieces of important information and news. Using the Chatglm2-6b model from Tsinghua University as the base model, the retrieval-augmented generation method is used to improve the military domain information cognition ability of the large language model, the prompt engineering is used to optimize the document generation containing professional military knowledge. Through model evaluation and case analysis, the feasibility of the experiment has been verified, which can further support the generation of military text content and improve the efficiency of information service work in the future.

Cite this article

HE Jinyue , WANG Yixiang , LIANG Li , HUA Shiling . Exploration of the application of large language models in military information service work[J]. Command Control and Simulation, 2025 , 47(5) : 79 -83 . DOI: 10.3969/j.issn.1673-3819.2025.05.011

2020年5月,国外OpenAI公司发布1 750亿参数规模的大语言模型(large language model, LLM)GPT-3,引领人工智能自然语言处理领域的新革命[1]。通过引入Transformer架构和大规模预训练,大语言模型可以处理包括问答、文本分类在内的多种自然语言任务,并且具备强大的泛化能力。但GPT模型非开源且无法在国内使用,此后国内厂商陆续推出大语言模型。其中,清华大学推出支持中英双语的ChatGLM-6B开源模型,模型具有62亿参数,并在后续不断完善。当然,丰富的优化算法和强大的硬件算力等也为大语言模型的使用和推广提供了重要支持。
当前,我军按照传统服务思路开展信息服务工作,依赖于广大官兵主动报送军事简讯、军事新闻,经审查筛选后刊发至军事专刊或发布于军队网站、主流媒体等网宣阵地。其中,作者大都从事细分专业,聚焦于业务建设、观点建议、敌军研究等视角撰写公文,将上述内容转变为简讯、新闻等文稿的公文能力不够突出。
基于此,可利用大语言模型的自然语言处理能力,在军队信息服务领域展开应用探索。但在实际应用中,可能存在以下问题:(1)许多开源模型在大量英语语料上训练,对多语言能力的理解有所欠缺;(2)模型训练及部署环境需要强大的GPU算力,即使是轻量化的ChatGLM-6b也需要至少13GB的显存才可进行推理。
本研究旨在利用大语言模型自动且准确地生成特定军事业务的专业文稿。本文利用一个包含5 000余条军事文稿的自建数据集对基座模型进行检索增强生成[2](retrieval-augmented generation, RAG),利用提示工程[3](prompt engineering, PE)推理生成内容,为军事领域大模型的优化应用提供实证基础。

1 数据集制作

为提高模型对军事公文的生成能力,同时能学习互联网开源信息,区分来源收集数据,包含军事简讯、新闻和互联网开源涉军新闻,其中军内刊发稿件与互联网稿件比例相当。
以半自动化的方式构建数据集:(1)收集的互联网稿件为txt格式,而军内刊发稿件均为doc格式,为方便进行数据处理,使用Spire.Doc库将doc格式转化为txt格式。(2)对txt文本进行数据预处理,去除稿件来源、作者信息、生僻字、复杂符号等信息杂质。(3)对文本数据进行分类统计、词频统计和长度分析,以便在后续过程中进行实验对比效果。(4)对文本进行人工复核,最终整编构建出包含5 000余条军事文稿的数据集。

2 实验过程

2.1 训练环境

本研究基于windows10环境,开发语言Python 3.10,开发平台Pytorch2.0.0(Cuda11.7),CPU为Intel ® CoreTM i7-8750H,内存32G,GPU单张,型号NVIDIA Quadro RTX 6000,独显24G。

2.2 实验流程

强化LLM对领域知识的认知能力,一般通过模型微调或检索增强生成方法。模型微调指通过学习新的数据集对LLM的参数进行微小的调整,其利用了LLM在大规模预训练过程中学习到的通用语义表征,从而大幅提高了模型收敛的速度和效率。检索增强生成,指利用外挂的数据集知识库作为LLM的记忆扩充,无须重新训练模型,便可扩展对专业领域的知识认知。考虑实验为小样本无标签数据集,采用检索增强生成方法更为合适。
完整的实验流程如图1所示,可分为选择基座模型、检索增强生成、提示工程3个步骤[1]
图1 实验过程流程图

Fig.1 Experimental process flow chart

2.3 基座模型

考虑LLM在军事领域中的应用需兼顾模型安全性、数据隐私性和中文理解能力,选择国内厂商开源中文模型。根据中文通用大模型的综合性评测基准SuperCLUE[4]网站数据,绘制表1对比模型表现,综合考虑笔者的硬件环境及部署环境迁移条件,本论文最终选择ChatGLM2-6b开源模型作为基座模型。
表1 中文大模型表现(2023年7月)

Tab.1 Performance of Chinese LLM

模型 机构 是否
开源
总分 中文
特性
Baichuan2-13B 百川
智能
49.35 55.4
文心一言
v2.2.0
百度 62 71.4
通义千问
v1.0.3
阿里
巴巴
51.52 61.7
MOSS-16B 复旦
大学
35.36 38
GPT-4 OpenAI 70.89 72.7
ChatGLM2-6B 清华&
智谱AI
53.85 63.6
Llama2-13B Meta 34.26 37.4
ChatGLM2-6b是基于Prefix Decoder-only架构的大语言模型,具有60亿参数,主要特点如下:
(1)基于Flash Attention技术,扩展长文本处理能力。经过1.4T中英标识符的预训练与人类偏好对齐训练,扩展了上下文对话能力,在同尺寸开源模型中具有较强的竞争力。
(2)基于Multi-Query Attention技术,优化GPU内存访问开销,通过重计算、核融合等方式完善注意力机制,提高推理生成速度。生成2 000字符平均仅需44.62 s,推理速度相比初代提升约42%。
(3)采用Causal Mask进行对话训练,显著优化显存占用,进行量化推理时,初代模型最多能生成1 119个字符,就会提示显存耗尽,而ChatGLM2能生成至少8 192个字符。
(4)采用Rotary Position Embedding,该编码方式引入相对位置信息,能够帮助模型区分不同位置的token,从而更好地理解上下文的语义结构。

2.4 检索增强

考虑在实际使用中LLM存在幻觉问题,即面对训练数据不包含的专业领域知识时,容易给出虚构信息答案,同时加强大模型对军事专业知识的学习,采用检索增强生成方法,增强模型处理密集专业知识的能力[5-6]。RAG结合信息检索与语言生成,检索模型从外部知识库中检索出问题相关的知识,并将其作为LLM的上下文输入提示(Prompt)。
本实验基于LangChain框架进行检索增强,分为以下两个步骤:
(1)数据准备阶段:①对数据集根据固定长度进行文本分割,分别选择100、150、200词块量进行分割实验[7],对比模型表现,最终选择200词块量定长;②数据向量化(embedding),分别选择M3E模型和Text2Vec模型进行向量化处理,并存储于chromaDB向量库,对比模型表现,最终选择Text2Vec模型;
(2)检索生成阶段:①使用相同Embedding模型将问题转换为查询向量,建立索引,根据检索策略、使用检索算法进行相似性检索;②根据检索结果使用排序算法进行重排序,最终筛选最相关的N个向量,根据索引提取数据;③把检索到的相关数据知识与提问并入Prompt,充分发挥ChatGLM2的泛化能力,生成回答。

2.5 提示工程

经过检索增强后的LLM仍具有语义不一致性现象,即语义相同的问题,由于表述方式不同,回答大相径庭,同时还存在回答不受提示词约束的影响,仍旧回答错误的问题。因此,一般通过增加约束性的指令提示、链式思维提示、路径语言模型[3]等多种提示工程方法,弥合期望输出与LLM实际输出的差距。本实验采用类似思维链(chain-of-thoughts, CoT)[8]和迭代提示(iterative prompting)的方式,流程如图2所示。
图2 提示工程流程图

Fig.2 Prompt engineering process diagram

(1)思维链通过增加LLM中间的推理步骤,将复杂问题分解为一系列子问题并依次求解,从而构建清晰的推理思路和逻辑关系,提高推理能力。一个完整的包含CoT的Prompt往往由指令(instruction),逻辑依据(rational),示例(examples)3部分组成,其中示例分为Zero-Shot-CoT与Few-Shot-CoT。
本实验以Few-Shot-CoT的方式提问,由问题描述、示例、偏好要求3部分构成[9],示例如表2所示。
表2 提示工程示例

Tab.2 Example of prompt engineering

问题描述 专业并准确地写一篇新质作战力量建设及建议的文稿,请一步一步思考,并严格遵守规则。
示例 从力量运用模式、力量运用情况、平台系统建设三方面展开分析。
偏好要求 规则:不允许在答案中编造信息。如果无法从中得到答案,请回答“根据已知信息无法回答该问题”。文章字数在500字以内,用中文作答,建议精炼且不超过100字。
(2)迭代提示通过与LLM不断交互,迭代改进提问,逐渐找到能够满足期望输出的提问方式或得到较符合预期的输出。这种渐进式提示与LLM良好的上下文理解能力契合,常用于实际使用中。
本实验根据实际情况,①通过LLM对提问抽取关键词,对比该提问检索到的相似上下文,根据经验准确提问语义。②对回答内容增加自我验证[1]、深度思考引导,通过LLM交互式上下文感知,提高LLM回答问题准确性。

3 实验结果及分析

3.1 模型指标评估

本实验采用“自动+人工”方式对大模型回答结果进行评估,包含相似度评价指标ROUGE[10]和准确性评价指标准确度。
相似度评价借鉴摘要生成[10]常用的文本生成评价指标ROUGE,该指标常用于衡量文本摘要质量,考虑了模型译文和参考译文之间的最长公共子序列,实验调用rouge_chinese包进行计算。准确度指标由人工评估,选择三位具备相同军事知识且不参与实验者进行准确度打分,从文章完整度、逻辑性、文章结构、实用参考性和用词专业性五个方面进行百分制量化评分,最终取平均值。模型效果评估见表3,各项指标仍有较大的上升空间,通过“小样本数据+提示工程”方法,LLM具备对军事专业知识的回答能力,但不完全能做到“仿真拟人”。
表3 模型效果评估

Tab.3 Model effect evaluation

指标 模型
ROUGE-1 55.4
ROUGE-2 38.8
ROUGE-L 45.0
准确率 65.3

3.2 案例分析

以具体案例(见表4)分析,实验结果逻辑通顺,LLM能够掌握特定军事业务的专业词汇,对实际文稿的撰写具有借鉴意义,还提供一些开拓性思考,符合预期[11-12]。但模型仍然存在语义理解不足的问题,回答部分中有与提问相关度不大的描述。
表4 模型具体案例

Tab.4 Specific case of LLM

提问 写一篇美陆军反无人机装备发展及建议的文稿,请一步一步思考,并严格遵守规则。从装备发展方向、实战应用等方面写作。规则:不允许在答案中编造信息。如果无法从中得到答案,请回答"根据已知信息无法回答该问题"。文章字数在500字内。
回答 为应对战场无人系统威胁,美陆军制定反无人机战略,积极发展反无人机装备。首先,加强指挥机构指导。2020年,美国防部建立联合反小型无人机系统办公室,出台反无人机战略方针、方法、实施,优化反无人机系统采购、开发、集成。其次,构建立体防护体系。构建高中低、远中近等不同层次的立体拦截体系,密切协同,应对多种无人作战战术。美陆军积极发展基于高能激光武器和定向能武器的反无人机系统,配备装有高能激光器系统的反无人机车辆,该系统可拦截炮弹和火箭弹。最后,开展反无人机训练。美陆军于2023年在新招募士兵训练中增加反无人机类技能训练,利用"随机敌人行动接触训练器"系统生成模拟战斗演习,将进攻性小型无人机的使用纳入课程。建议采取措施,优化反无人机装备体系的顶层设计,确保战斗环节的紧密衔接;加强激光、微波等新型反无人机技术的研发投入,注重实现技术和资源共享,推动反无人系统实战化进程;强化实战化训练,设计不同无人作战场景,制定针对性的反无人机战术,提高反无人机作战能力。

4 结束语

[1]
董昭轩, 王卫锋, 刘美丽. 基于生成式大语言模型的军事领域受控文本生成方法[C]// 第五届体系工程学术会议论文集——数智时代的体系工程, 西宁, 2023.

DONG Z X, WANG W F, LIU M L. Method for controlled text generation in the military domain based on generative large language models[C]// Proceedings of the 5th Academic Conference on Systems Engineering-Systems Engineering in the Digital Age, Xining, 2023.

[2]
张艳萍, 陈梅芳, 田昌海, 等. 面向军事领域知识问答系统的多策略检索增强生成方法[J/OL]. 计算机应用,1-12[2024-10-11].

ZHANG Y P, CHEN M F, TIAN C H, et al. Multi-strategy retrieval-augmented generation method for military domain knowledge question answering system[J/OL]. Journal of Computer Applications,1-12[2024-10-11].

[3]
李姝, 韦有涛, 乔芷琪. 大语言模型Prompt的设计原则和优化流程[J]. 中国信息化, 2024(9):31-33.

LI Z, WEI Y T, QIAO Z Q. Design principles and optimization process of the Large Language Model prompt[J]. China informatization, 2024(9):31-33.

[4]
谢明华. 基于大模型的电子信息领域知识图谱自动构建与检索技术[J]. 电讯技术, 2024, 64(8):1 228-1 234.

XIE M H. Automatic construction and retrieval of knowledge graph in electronic information field based on Large Language Model (LLM)[J]. Telecommunication Engineering, 2024, 64(8):1 228-1 234.

[5]
李铂鑫. 面向私有问答系统的检索增强式大模型稳定输出方法[J/OL]. 计算机科学与探索,1-11[2024-10-11].

LI B X. A method of retrieval-augmented large language models with stable outputs for private question-answering systems[J/OL]. Journal of Frontiers of Computer Science and Technology,1-11[2024-10-11].

[6]
张华平, 李春锦, 魏顺平, 等. 大语言模型驱动的开源情报认知[J]. 国防科技, 2024, 45(3): 51-57.

ZHANG H P, LI C J, WEI S P, et al. Large language model-driven open-source intelligence cognition[J]. National Defense Technology, 2024, 45(3): 51-57.

[7]
邹佰翰, 汪莹, 彭鑫, 等. 重新审视代码补全中的检索增强策略[J/OL]. 软件学报,1-28[2024-10-11].

ZOU B H, WANG Y, PENG X, et al. Revisiting retrieval-augmentation strategy in code completion[J/OL]. Journal of Software,1-28[2024-10-11].

[8]
李荣涵, 浦荣成, 沈佳楠, 等. 基于思维链的大语言模型知识蒸馏[J]. 数据采集与处理, 2024, 39(3): 547-558.

LI R H, PU R C, SHEN J N, et al. Knowledge distillation of large language models based on chain of thought[J]. Journal of Data Acquisition and Processing, 2024, 39(3): 547-558.

[9]
程云, 吕爽, 陈国祥. 基于大模型的标准文献智能问答技术研究[J]. 信息技术与标准化, 2024(8): 38-43.

CHEN Y, LYU S, CHEN G X. Research on intelligent question answering for standard literature based on large-scale models[J]. Information Technology & Standardization, 2024(8): 38-43.

[10]
LIU Y, LAPATA M. Text summarization with pretrained encoders[C]// Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). 2019: 3730-3740.

[11]
崔健, 汪永伟, 李飞杨, 等. 结合知识蒸馏的中文文本摘要生成方法[J/OL]. 计算机科学与探索, 1-12[2024-12-24].

CUI J, WANG Y W, LI F Y, et al. Chinese text summarization with knowledge distillation[J/OL]. Journal of Frontiers of Computer Science and Technology, 1-12[2024-12-24].

[12]
刘佳, 孙新, 张宇晴. 知识图谱与大语言模型协同的教育资源内容审查[J]. 华东师范大学学报(自然科学版), 2024(5): 57-69.

SUN J, SUN X, SUN Y Q. Educational resource content review method based on knowledge graph and large language model collaboration[J]. Journal of East China Normal University (Natural Science) 2024 (5): 57-69.

Outlines

/