中国科技核心期刊      中国指挥与控制学会会刊     军事装备类重点期刊
Modeling & Simulation

Research and insights on multimodal large models in military intelligence

  • LEI Xiayunbin 1 ,
  • WU Yuqing 2, ,
  • WANG Hui 2
Expand
  • 1 Unit 69218 of PLA, Urumqi 844799
  • 2 Military Science, Beijing 100091, China

Received date: 2025-01-20

  Revised date: 2025-02-17

  Online published: 2026-03-25

Abstract

As a cutting-edge technology, multimodal large models are gradually transforming the information-processing paradigm in the military intelligence domain. This paper delves into the applications of multimodal large models in the military intelligence field. It first traces the development trajectory of multimodal large models, elaborates on the technological improvement paths of multimodal data and network models. Subsequently, it analyzes the application scenarios of five typical multimodal large models in future combat and conducts an in-depth analysis in combination with actual military intelligence platforms. This research reveals that multimodal large models constitute a crucial algorithmic component in intelligent warfare. Given their immense application potential in the military field, multimodal large models offer novel ideas and methods for military intelligence applications, thereby contributing significantly to the enhancement of the level of military intelligence.

Cite this article

LEI Xiayunbin , WU Yuqing , WANG Hui . Research and insights on multimodal large models in military intelligence[J]. Command Control and Simulation, 2026 , 48(2) : 89 -96 . DOI: 10.3969/j.issn.1673-3819.2026.02.013

技术的革新必然作用于军事领域,人工智能技术的发展成为军事斗争准备的新高地,智能化作战将逐渐成为各类战场空间博弈的新方式[1]。现代战争实践证明,战争形态正在向智能化快速迈进。无人作战系统的广泛应用和指挥控制系统的智能化升级,使得人工智能正深度融入军事领域的每一个环节。现代智能化作战需要与之相适应的作战指挥理念,而大模型技术是作战指挥理念实践运用的重要技术依托。这些生成式人工智能作为人脑的外延,突破人体生理极限,实现作战指挥艺术和智能技术的有机融合。
大模型技术是人工智能领域的关键发展之一,它正在经历从单一模态向多模态的显著演变。以GPT系列为代表的先进大型语言模型,通过不断的技术升级和大规模数据集的精细化训练,实现了性能的飞跃,不仅在文本生成与对话理解方面取得了显著成就,而且在视觉-文本、音频-文本等多模态融合推理方向上取得了重要进展[2]。模态信息的丰富不仅拓宽了模型的应用场景,也为实现跨模态信息的深度整合与高效利用提供了可能,同时为智能化作战中的信息获取、处理与决策等方面开辟了全新的路径。
军事数据作为支撑现代军事行动的重要基石,其复杂性与多样性不言而喻。从传统的文本报告、作战指令,到现代的卫星图像、无人机侦察视频、战场通信录音等,军事数据涵盖了文本、图片、音频、视频等多种模态,呈现出典型的多模态数据特征[3]。有效利用这些多模态数据,通过构建神经网络等算法模型进行知识推理与图文生成,不仅能够实现对装备类型、兵力部署、行动规划等关键信息的快速识别与确认,还能进一步挖掘潜在威胁,预测战场态势,为指挥决策提供科学依据,显著提升军事行动的精准度与效率[4]
探索多模态模型在军事领域的应用,不仅是对现有军事信息系统的升级与改造,更是推动智能化作战能力跃升、确保国家安全利益的重要战略选择。

1 多模态大模型技术概述

1.1 发展历程

预训练模型是深度学习领域中理论的延伸,主要体现为在一个大型的数据集上预先训练好模型,该模型可以被用来解决相似的问题[5]。在目标数据集上微调预训练模型是一种高效的迁移学习技术。这种方法能够显著减少深度学习模型的训练周期,同时提升模型的开发效率与性能表现。系统利用预训练模型在相关任务上积累的知识,可以快速适应新的目标任务,实现更精准的模型定制。多模态大模型的简要发展历程如表1所示。
表1 大模型技术发展历程

Tab.1 Development history of large model technology

发展阶段 发展时间 技术核心 关键进展 代表作品
预训练模型基础构建阶段 20世纪90年代至2015年左右 在大型数据集上进行无监督或自监督训练,预先训练好模型,为后续任务积累通用知识 预训练模型通过微调可快速适应特定任务,显著减少深度学习模型训练周期,提升开发效率与性能 BERT[6]
大模型参数拓展与泛化阶段 2015年左右至2020年左右 大规模且多样性更高的数据集中训练,拥有更多参数信息,在特定任务表现出色,同时泛化处理与训练数据不同的任务 大模型突破了预训练模型在任务适应性上的局限,展现出更强的泛化能力,为后续多模态发展奠定数据和模型基础 GPT-3[7]
多模态融合技术发展阶段 2020年左右至今 继承大型语言模型优势,将文本交互拓展到图像、音频、视频等多模态信息处理领域,通过Transformer架构处理不同模态特征融合 不同模态特征拼接后由Transformer网络处理;不同模态分别由Transformer网络编码,再通过特征交互融合机制融合,实现跨模态语义理解和推理 CLIP[8]
大模型应用创新阶段 2025年左右至今 针对特定领域需求,利用大模型进行应用层面的创新,结合新的数据处理方式或应用框架,满足专业领域的独特要求 军事生成领域,针对文本和对话序列提出新框架;在多模态视觉领域,通过扩展图像样本数量,提升图像分割、检测效果,网络模型创新度提升 Med-PaLM 2[9]
预训练模型是在大规模数据上进行的无监督或者自监督训练得到的,大模型同样需要在大规模数据集上进行训练,但数据的规模和多样性通常更高。预训练模型通过微调可以快速适应特定任务,提高模型的性能和效率,而大模型在未见过的数据上表现更出色,甚至能够处理一些与训练数据截然不同的任务。大模型方法通常包含更多的参数信息。
多模态大模型是在大模型概念的基础上发展起来的,它继承了大型语言模型(LLMs)的优势[10],并将原有的文本信息交互拓展到了图像、音频、视频等多种模态的信息处理领域。不同模态的特征通过维度的改变进行表达,将原有数据样式作为矩阵形态输入网络模型[11]。在模型方面,Transformer架构[12]同时考虑输入特征中的全部信息,显著提升了模型的参数规模和表达能力,为多模态大模型的发展奠定了重要基础。
多模态大模型将不同模态的特征拼接,然后由Transformer网络进行处理,其也可以将不同模态分别由Transformer网络进行编码处理,并通过特征上的交互融合机制进行融合。多模态大模型通过将原始数据进行量化,从中提取高维特征,捕捉数据的复杂结构和潜在信息,实现跨模态的语义理解和推理。越来越多的学者通过预训练的方式整合多模态的输入数据,在图像和文本以及图像和图像之间应用广泛[13]

1.2 技术手段

1.2.1 多模态数据对齐

对齐过程是实现不同模态数据有效融合的关键环节,其核心在于精准识别并构建不同模态数据之间的内在关联。通过这一过程,多模态模型能够深度掌握不同模态间的对应关系,从而显著提升对复杂环境信息的理解与处理能力,实现对多样化数据输入的深度解析与有效响应。对齐的主要目的是确保不同模态在表达同一事物时,能够一致地传递和解释相同的语义信息。文字表达的灵活性易于产生歧义,图像信息则依赖像素值来精确描绘,视频信息则通常采用连续帧的方式呈现动态场景。
将不同模态的语义信息映射到一个共享空间,借助高质量嵌入技术增强语义关系学习,是目前主流且极具代表性的处理思路。Engilberge等[14]将图像和文本映射到统一的特征空间中,通过联合学习的方式进行图像描述、图文检索等。在视觉输入方面采用全卷积残差网络结构,充分提取图像特征;文本输入采用预训练的 word2vec 嵌入将文本转换为向量表示,为多模态数据在统一空间内的交互学习提供了清晰的技术路径,有效验证了共享空间映射和联合学习在多模态处理中的可行性与有效性。何佳月等[15]聚焦于图像内部模态细分,将光学和SAR图像视为两种不同模态,采用基于全局注意力的网络进行处理。系统针对不同级别的特征,采用对应的对齐方式,这种精细化的处理策略能够深度挖掘不同模态的丰富特征,为图像内部多模态信息的融合与分析提供了新的视角和方法,在图像多模态处理领域具有重要的创新意义和代表性。
多模态数据对齐处于多模态融合技术的核心位置,其本质是突破模态间的信息壁垒,构建起通用且精准的语义关联桥梁,使不同模态数据能够协同表达,从而赋予系统对复杂信息更全面、深入的理解能力,是推动人工智能从单一模态理解向多模态协同感知跨越的重要驱动力。实践中,模态数据的异质性是对齐的主要障碍。文字的模糊性、图像的具象性以及视频的动态连续性,这些独特的表达形式造成了信息转换与统一的困难。

1.2.2 多模态数据融合

融合是将来自不同模态的数据合并成一个统一的表示,获得数据在不同特征空间全面信息,并提高任务的性能,如分类、检测或预测等。人们通常采用的是特征提取与融合技术,如多层感知器(MLP)、卷积神经网络(CNN)、注意力机制(attention)等方法,对不同模态的特征进行编码后,进行综合处理。
在众多融合方式中,以注意力机制为主的骨干网络成为主流。这一技术路线的核心优势在于能够动态分配不同模态特征的权重,使模型聚焦关键信息,增强对多模态数据的理解与处理能力。Li等[16]通过联合学习视频和文本数据,构建了基于Transformer的整体网络架构,实现了视频局部和全局信息的有效融合。该方法通过动态调整不同模态特征之间的权重,提升模型对多模态信息的理解和生成能力,为视频-文本多模态融合提供了高效的技术范式。张换香等[17]在情感分析中,构建了多模态情感分析体系,将原文本内容中的一种模态拓展至声音信号和视频。针对不同模态数据特点,采用不同方式提取特征,通过多头注意力的方式,迭代优化不同模态数据的权值,以上策略在情感计算相关研究中具有典型性。才华等[18]针对图像和文本的融合提出了三个模块,从特征提取、相似度度量到融合策略,构建了一套完整的图像-文本融合体系。其首先对文本和图像分别提取特征,特征提取时采用的是Transformer和残差架构;在表示文本和图像的相似度中间采用的是基于对比学习的推理方式;融合时,通过执行图像文本匹配(image-text matching,ITM)和掩蔽语言建模(masked language modeling,MLM)两个预训练任务,实现模态细粒度融合。
当前,多模态融合技术研究主要围绕三大核心方向展开:一是基于注意力机制构建动态权重分配机制,通过Transformer架构实现跨模态时空特征交互,结合迭代优化与对比学习解决模态异质性对齐问题;二是建立层次化融合架构,从前端特征提取、中间语义空间构建到任务驱动预训练,形成递进式融合范式;三是技术演进呈现联合编码、自监督学习与动态建模的转向。然而,该领域仍面临表征空间对齐、计算复杂度与数据长尾分布等共性挑战,未来需在轻量化动态模块以及多粒度可解释性等方向寻求突破。

1.2.3 跨模态网络设计

各种模态的数据携带不同的特征和语义内容,因此,网络结构往往需要能够处理这些多样化的输入。多模态大模型的结构通常较为复杂,涉及大量的参数。在确保模型性能的前提下,我们需要关注模型的复杂度,力求简化模型结构,以提升其可扩展性和效率。
Cheng等[19]使用FasterR-CNN提取区域间的语义关系和空间关系。在训练阶段,模型使用图节点匹配损失和嵌入损失来优化网络。在检索阶段,模型通过计算图像和文本的独立表示(嵌入)之间的相似度来进行匹配,提高检索效率。在同等体量的数据集中,大模型训练的模型架构可以提升模型整体性能。Liu等[20]在改进后的DeepSeek-V3模型设计中注重模型效率与性能平衡。DeepSeek-V3推理时采用了MLA技术。MLA是一种多头潜在注意力机制,它能够在减少计算开销的同时,保持模型的高性能。同时该机制引入了MoE方法,这是一种基于混合专家(mixture of experts)的方法。通过这种方法,模型可以在训练过程中动态地选择和使用不同的专家(即子模型),从而实现更高效的资源利用和更好的性能。石泽男等[21]针对图像内部的多模态信息,利用了图像的频域信息,在模型主体上将预训练ImageNet的ResNet50参数直接用于初始化主干网络结构。此外,人们还在编码器中引入Transformer模块,并通过Scharr卷积层和边界残差块捕获图像中被篡改区域的边界信息。Ravi等[22]提出的多模态视觉大模型SAM-2包含一种新的数据引擎,整体算法使用的网络模型的创新程度不高,但极大扩展了图像的样本数量,对于图像分割、检测等方面提升效果显著。
跨模态网络结构设计聚焦于异构数据表征的协同优化与计算效率的平衡,其核心挑战在于构建高效的多模态交互机制与轻量化架构。其本质是通过异构数据的协同表征与计算,构建类人的多模态理解能力。当前研究在认知表征层面,突破传统单模态学习的局限,通过图神经网络、频域分析等跨模态交互机制,实现对语义、空间、时序等多维度信息的统一建模;在计算范式层面,基于注意力机制与动态路由技术,构建任务自适应的计算架构,实现模型性能与计算效率的帕累托最优;在数据驱动层面,通过海量多模态数据的自监督预训练与知识蒸馏,突破模型容量瓶颈,推动多模态认知能力的涌现。

2 多模态大模型在军事领域的应用场景

2.1 武器系统强化

随着人工智能技术更新迭代,人与武器的结合更为分散,武器系统性能上限进一步提高[23]。无人集群作战系统作为新兴军事力量,在执行作战任务时,面临复杂的动态目标决策打击问题。高效、准确地分配弹药参数并执行空域搜索方案,是提升无人集群作战效能的核心挑战。Luo等[24]针对武器目标分配问题进行建模分析,通过建立动态博弈模型实现了作战资源的优化配置,其研究揭示了战场信息处理质量与资源分配效能的强关联性。然而,无人集群面临的战场环境复杂多变,传统的静态优化模型难以适应实时变化的战场态势,在处理多源异构信息时存在响应延迟、数据融合度低等局限性。此时,多模态大模型可通过跨模态特征对齐和时空上下文建模,突破传统方法对结构化数据的依赖,为武器目标分配提供具备环境自适应能力的决策依据。
无人作战系统的武器打击依赖于对作战目标行为的准确预测,这需要综合考虑局部战场环境中的多种信息。高嵩等[25]通过对局部动态环境中的语义信息、社会信息以及场景图像序列的分析,实现对道路交通参与中行人轨迹的预测,为无人系统提供了技术支持。这一思路与多模态大模型的应用高度契合, 深入挖掘其中的潜在联系,更准确地预测作战目标行为,为武器打击提供更可靠的指导。

2.2 战场数据融合

数据的全面性和持续稳定的分析能力是多模态大模型系统运行的关键。现代战争中,情报获取逐步由封闭方式转为开源信息获取。多模态大模型通过网络对世界各地不同用户上传的媒体数据进行甄别和分析,通过广泛的社交中的文字表达和及时上传的前线图片和视频极大地促进了对战场态势的全面洞察与深刻理解。通过对内容进行评判,可以帮助指挥员更加明智地进行战略部署和战术调整[26]。基于多模态数据的分析模式打破了传统情报获取的局限性,极大地提升了战场信息的时效性和全面性。
李嘉晖等[27]在数据生成方面使用的大模型主要针对文本和对话序列,该模型结构提供了一种新的军事生成领域框架,为军事指挥模拟、情报分析训练等提供了有力的数据支持。邓徐韬[28]通过图像、文本两种模态的融合,实现无人机在复杂环境中的视觉语言导航任务。无人机在执行任务时,能够实时获取环境图像信息,并结合文本指令和语义理解,准确规划飞行路径,避开障碍物,完成侦察、打击等任务。Lee等[29]在利用视觉和语言描述的基础上,增加了对城市空间环境的建模,创新性地将城市空间环境的建模纳入分析,引入地理信息作为第三种模态,提升了智能体在空中导航时的能力。在城市作战环境中,智能体能够综合考虑地形地貌、建筑物分布等地理信息,以及实时的视觉和语言情报,增强了作战系统在复杂城市环境中的适应性和作战效能。

2.3 战场态势检索

高效处理海量的战场数据,精准实现战场态势检索,是提升作战指挥效能和情报分析能力的关键。跨模态检索是目前处理海量视频数据的重要方式,视频语义中包含丰富的时空信息,同时与文本结构性特征有显著差异。检索主要通过对视频特征与文本特征进行匹配,实现相似度计算,从而达到检索效果,即通过文本描述定位视频片段和视频生成文档等。
随着战场无人设备的广泛应用,实时回传的视频数据成为监视、分析战场态势的重要信息源[30]。视频数据不仅提供了直观的战场画面,还蕴含着丰富的战术信息与战略线索。Ding等[31]通过文本描述可以实现对图像中的物体检索和语义分割,提升了对视觉图像的感知和描述能力。在战场环境中,可从复杂的战场视频画面里,精准定位关键作战装备、人员或特定战场事件,为作战指挥提供关键情报。在后勤医疗方面,Saha等[32]通过在本地微调,对医学样本进行视觉问答,有效提升疾病诊断效率。类比是通过对战场医疗视频、图像与医疗文本信息的跨模态检索,快速获取伤病员的诊断信息和治疗方案,为战场伤员救治争取宝贵时间。

2.4 隐藏模式识别

多模态大模型利用深度学习算法,能够从海量数据中识别出不易察觉的模式和异常行为,通过高分辨率卫星图像、精密雷达信号等[33-34],揭示隐蔽的军事行动、未知的武器系统以及异常的聚集活动。
多模态大模型通过将单一模态下的可见光图像与深度图像、红外图像等进行融合,大幅提高了对目标的显著性检测。不同维度的观测数据相互补充,让模型能够从多个视角理解场景,通过模态间的不断拟合实现更准确的预测,有助于发现伪装目标、识破敌方隐蔽部署。无人系统能够基于历史数据和当前环境特征,运用先进的算法模型对敌方可能的位置、行动路线等进行预测。这种预测能力不仅能够帮助本方提前布局、占据有利位置,还能在实战中显著提升对对手的监控和反应速度,为取得战场主动权提供有力支持。
Saxena等[35]使用实时的3D语义场景图和与任务相关的图像作为多模态记忆,以在未见环境中执行具体化问题并实现问题对答,通过层次化的规划方法,充分利用 3D 语义场景图的层次化特性进行结构化规划和语义引导的探索,显著提高了系统对复杂环境的理解和问题回答的准确性,帮助军事人员快速了解陌生战场的地形、设施分布等关键信息。

2.5 认知渗透攻击

认知渗透攻击是认知战中一种典型的作战方式,它不同于传统意义上摧毁肉体的物理打击,而是通过灵活运用宣传方式和心理学等手段,构建出具有倾向性或不实的内容,不断摧毁敌方的认知基础来达到攻心夺志的目的[36]。这种战争形式利用技术手段放大和支持认知攻击,影响目标的认知、态度和行为。多模态大模型的技术能力使得信息战的实施变得更加高效和隐蔽。通过生成逼真的消息、图像和视频内容,这些模型能够在敌方造成混乱[37],影响其决策过程,甚至改变公众舆论。
Kawar等[38]通过对扩散模型的改进,实现了通过文字描述和已有图像的输入,生成全新的图像,在原有图像基础上进一步提高了图像的欺诈性,在认知渗透攻击中,可用于制造虚假的情报图像,误导对手的情报分析。例如,生成看似真实的军事部署图像,使对手对本方军事力量和战略意图产生错误判断。Wang等[39]从视频中提取运动向量作为时间动态的显式控制信号,提高了输出视频的连续帧间的相关性。此外,用户还可将文本描述、图像输入作为视频生成的输入部分,制作出情节连贯、看似真实的虚假视频,进一步增强虚假信息的可信度。

3 多模态大模型在军事领域的应用成效

3.1 典型应用平台分析

AI技术在军事领域的广泛应用,特别是武器装备平台中不同模型的融合应用与多模态大模型的引入,极大地推动了军事智能化的发展,深刻改变了军事战略与战术格局,成为未来战争形态变革的关键驱动力,形成了未来战争形态的新趋势。
Meta公司2024年11月宣布修改了Llama不能用于军事战争的协议。模型未来将在国防科研、后勤规划及作战支持等军事相关领域发挥作用。在国防科研中,通过Llama的高级语言理解和生成能力,军事机构可高效处理海量军事文档,如作战计划、情报报告等,在后勤规划方面,它可以根据物资储备、运输路线等信息,优化资源调配方案。但 Llama 在军事应用中也面临数据安全和隐私保护的挑战,军事数据高度敏感,需建立严格的数据加密和访问控制机制,确保信息安全。
Anthropic也将向国防和情报部门提供支持,为美国情报和国防机构提供其Claude系列AI模型。Claude模型以其卓越的理解能力和生成文本的准确性著称,将主要服务于情报收集与分析、战略决策辅助及网络防御等领域。模型可基于对军事形势的理解,为决策者提供多维度的战略选择和风险评估,同时通过分析网络流量数据和攻击模式,及时发现并应对网络威胁。
Palantir AIP平台深度整合 GPT-4 和 BERT 等前沿AI模型,致力于整合战场数据,将复杂的战场信息转化为直观的战略资产。利用 GPT-4 强大的自然语言理解能力,平台能够解读各类战场指令和情报文本;BERT的上下文感知特性则有助于分析战场态势的动态变化,从而构建实时更新的战场态势图。
Scale AI Donovan平台主要用于增强战场理解,生成行动方案建议,其使用了GPT-3.5和Llama-2等模型。信息来源于不同种类的情报报告、卫星图像、无人机侦察视频以及士兵实时通信等。它能够将这些复杂且多样化的信息整合成一个连贯的战场态势图,为指挥官提供清晰、准确的战场全景。Dnovan平台不仅能够评估每种计划的潜在风险和收益,还能够根据指挥员的需求和偏好,提供定制化的建议。但Dnovan平台在处理大规模、高并发数据时,计算资源的消耗较大,需要强大的硬件设施支持,未来可探索更高效的计算架构和算法优化策略。
Elbit Systems在其开发的突击步枪战斗应用系统(assault rifle combat application system,ARCAS)中内置了人工智能系统。该系统集成了多种传感器和信息源,能同步感知、接受步枪的光电瞄准具以及头盔接口信号,为士兵提供实时信息。系统能将传统步枪转变为移动战斗信息中心。通过AI技术,士兵能更快速地获取战场态势。

3.2 多模态大模型在军事领域面临的挑战

多模态大模型在军事领域的应用已取得显著成效,军事应用平台从情报分析、战略决策到集群分布、作战行动以及单兵装备,全面提升了军事行动的智能化水平。各平台之间有望实现更深度地协同与融合,构建一体化的军事智能体系。本节将从技术、数据、应用三个层面介绍当前的客观现实。

3.2.1 技术层面

模型可解释性限制了其在关键决策中的应用,军事决策要求高度可靠性和可理解性。当前主流多模态大模型多基于深度学习架构,其内部神经元连接和参数调整机制十分复杂。以图像识别与语音指令结合的多模态军事场景为例,模型虽能快速判断目标并给出应对指令,但从数据输入到决策输出的中间过程难以被直观理解,这使得军事人员在面对关乎战局走向的决策时,难以完全信任模型结果。
不同模型间的协同融合问题已成为阻碍军事智能化体系构建的瓶颈。目前,统一的模型接口和融合算法尚未完善,模型间难以达成高效协作。军事场景中,需要目标识别模型、态势评估模型、火力分配模型等多种模型协同工作。然而,各模型在数据格式、计算框架、输出形式等方面存在差异,使得数据在模型间流转时需进行复杂的转换操作,耗费大量时间与计算资源,易引入误差[40]

3.2.2 数据层面

军事数据的特殊性体现在其应用场景的复杂性上,数据涵盖图像、语音、文本、传感器数据等多种类型,来源广泛,包括卫星侦察、无人机监测、战场通信等。战场环境中的多模态数据往往伴随着噪声、不完整性和不确定性,对多模态大模型的训练和应用提出了更高要求。同时,不同来源的数据在格式、分辨率、时间戳等核心属性上呈现出显著差异。传感器数据受到电磁干扰,语音数据因战场噪音而失真,文本数据因加密或编码方式不同而难以解析。这些因素都增加了多模态大模型在军事领域应用的难度。
此外,区块链技术凭借其去中心化以及不可篡改的独特属性,能够为军事数据管理构建起一套行之有效的数据溯源与验证机制。在该机制下,数据从产生到流转的每一个环节都被精确记录,且记录内容无法被恶意篡改,提高了军事数据在全生命周期内的完整性和真实性,为军事决策提供了可靠的数据基础[41]。在访问控制方面,系统可采用基于角色的访问控制(RBAC)和基于属性的访问控制(ABAC)等策略,根据军事人员的职责和任务需求,精确分配数据等访问权限。

3.2.3 应用层面

多模态大模型与军事业务的深度融合尚处于探索阶段。军事任务和场景复杂多变,算法结果对决策判断影响重大。定制化开发模型应用,提高模型的实用性和适应性,以满足不同军事业务需求,是当前重要的应用创新。在实际作战中,不同的作战环境(如山地、丛林、城市等)和作战任务(如侦察、突袭、防御等)对算法分析的要求差异巨大[42]。例如,在城市巷战中,环境复杂,信号干扰强,多模态大模型需要具备更强的抗干扰能力和实时处理能力,准确识别隐藏目标和潜在威胁。然而,现有的模型往往是基于通用数据集训练的,难以直接满足这些特殊需求[43]。因此,人们需要根据不同军事业务场景的特点,采集针对性的数据,进行定制化训练和优化,同时,加强模型与军事指挥系统、武器装备系统的集成,实现数据实时交互和指令快速响应更为关键。

4 结束语

多模态大模型在跨模态信息的理解与分析中具有重要作用,是当前多模态信息处理领域的重要研究方向。在战场复杂交互情境中,多模态技术在不同作战任务中的实际应用不仅增强了对战场环境的全面理解,而且在战役指挥决策、自动化等多个领域展现出广泛的应用潜力。
现代战争的实践充分证明,战争范式和作战样式皆无定式,将AI应用于国防和情报,提升AI时代的军事能力是擘画未来的关键手段。军事领域中,大模型支持下的技术博弈在多个作战环节中发挥着不可或缺的作用,是推动国防和军事领域革新发展的重要技术手段。
[1]
罗飞. 未来海战形态演进趋势及启示[J]. 国防科技, 2024, 45(3): 32-36.

LUO F. Evolution trend of naval warfare and its implications[J]. National Defense Technology, 2024, 45(3): 32-36.

[2]
吴友政, 李浩然, 姚霆, 等. 多模态信息处理前沿综述: 应用、融合和预训练[J]. 中文信息学报, 2022, 36(5): 1-20.

WU Y Z, LI H R, YAO T, et al. A survey of multimodal information processing frontiers: application, fusion and pre-training[J]. Journal of Chinese Information Processing, 2022, 36(5): 1-20.

[3]
宗滕, 吴松涛, 周春华. 基于多模态数据分析的典型智能化军事应用[J]. 信息安全与通信保密, 2022, 20(2): 9-16.

ZONG T, WU S T, ZHOU C H. Typical intelligent military application based on multimodal data analysis[J]. Information Security and Communications Privacy, 2022, 20(2): 9-16.

[4]
彭京徽, 汪振, 李越, 等. 装备领域多模态知识图谱技术研究[J]. 兵器装备工程学报, 2022, 43(11): 136-140, 153.

PENG J H, WANG Z, LI Y, et al. Research on multi-modal knowledge graph technology in equipment field[J]. Journal of Ordnance Equipment Engineering, 2022, 43(11): 136-140, 153.

[5]
HE J X, ZHOU C T, MA X Z, et al. Towards a unified view of parameter-efficient transfer learning[EB/OL]. 2021: 2110. 04366. https://arxiv.org/abs/2110.04366v3.

[6]
DEVLIN J, CHANG M W, LEE K, et al. BERT: pre-training of deep bidirectional transformers for language understanding[C]// North American Chapter of the Association for Computational Linguistics, 2019.

[7]
TOM B. BROWN, BENJAMIN MANN, NICK RYDER, et al. Language models are few-shot learners[EB/OL]. Arxiv, 2020, abs/2005.14165.

[8]
RADFORD A, KIM J W, HALLACY C, et al. Learning transferable visual models from natural language supervision[C]// International Conference on Machine Learning, 2021.

[9]
SINGHAL K, AZIZI S, TU T, et al. Large language models encode clinical knowledge[J]. Nature, 2023, 620(7972): 172-180.

DOI

[10]
RAIAAN M A K, MUKTA M S H, FATEMA K, et al. A review on large language models: architectures, applications, taxonomies, open issues and challenges[J]. IEEE Access, 2024(12): 26 839-26 874.

[11]
岳颀, 张晨康. 多模态场景下AIGC的应用综述[J]. 计算机科学与探索, 2025, 19(1): 79-96.

DOI

YUE Q, ZHANG C K. Survey on applications of AIGC in multimodal scenarios[J]. Journal of Frontiers of Computer Science and Technology, 2025, 19(1): 79-96.

[12]
VASWANI A, SHAZEER N M, PARMAR N, et al. Attention is all you need[C]// Neural Information Processing Systems, 2017.

[13]
LIANG C X, TIAN P, YIN C H, et al. A comprehensive survey and guide to multimodal large language models in vision-language tasks[EB/OL]. 2024: 2411.06284. https://arxiv.org/abs/2411.06284v2.

[14]
ENGILBERGE M, CHEVALLIER L, PEREZ P, et al. Finding beans in Burgers: deep semantic-visual embedding with localization[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, 2018: 3 984-3 993.

[15]
何佳月, 宿南, 徐从安, 等. 从光学到SAR: 基于多级跨模态对齐的SAR图像舰船检测算法[J]. 遥感学报, 2024, 28(7): 1 789-1 801.

HE J Y, SU N, XU C A, et al. From optical to SAR: a SAR ship detection algorithm based on multi-level cross-modality alignment[J]. National Remote Sensing Bulletin, 2024, 28(7): 1 789-1 801.

[16]
LI L J, CHEN Y C, CHENG Y, et al. HERO: hierarchical encoder for Video+Language omni-representation pre-training[C]// Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), Online, 2020: 2 046-2 065.

[17]
张换香, 李梦云, 张景. 基于多模态信息融合的中文隐式情感分析[J]. 计算机工程与应用, 2025, 61(2): 179-190.

DOI

ZHANG H X, LI M Y, ZHANG J. Implicit sentiment analysis for Chinese texts based on multimodal information fusion[J]. Computer Engineering and Applications, 2025, 61(2): 179-190.

DOI

[18]
才华, 易亚希, 付强, 等. 基于跨模态引导和对齐的多模态预训练方法[J]. 电子学报, 2024, 52(10): 3 368-3 381.

CAI H, YI Y X, FU Q, et al. Multimodal pretraining with cross-modal guidance and alignment[J]. Acta Electronica Sinica, 2024, 52(10): 3 368-3 381.

[19]
KE X, CHEN B T, YANG X, et al. Cross-modal independent matching network for image-text retrieval[J]. Pattern Recognition, 2025, 159: 111 096.

[20]
DeepSeek-AI, LIU A, FENG B, et al. DeepSeek-V3 technical report[EB/OL]. Arxiv, 2024, abs/2412.19437.

[21]
石泽男, 陈海鹏, 张冬, 等. 预训练驱动的多模态边界感知视觉Transformer[J]. 软件学报, 2023, 34(5): 2 051-2 067.

SHI Z N, CHEN H P, ZHANG D, et al. Pre-training-driven multimodal boundary-aware vision transformer[J]. Journal of Software, 2023, 34(5): 2 051-2 067.

[22]
RAVI N, GABEUR V, HU Y T, et al. SAM 2: segment anything in images and videos[EB/OL]. Arxiv, 2024, abs/2408.00714.

[23]
郭翠萍, 刘美君. 智能化对弈: 军用人工智能对现代战争攻防平衡的重塑[J]. 战略决策研究, 2024, 15(6): 77-97, 117.

GUO C P, LIU M J. Intelligent game: military artificial intelligence reshapes the offense-defense balance of modern warfare[J]. Journal of Strategy and Decision-Making, 2024, 15(6): 77-97, 117.

[24]
LUO W L, LU J H, LIU K X, et al. Learning-based policy optimization for adversarial missile-target assignment[J]. IEEE Transactions on Systems, Man, and Cybernetics: Systems, 2022, 52(7): 4 426-4 437.

DOI

[25]
高嵩, 周江邻, 高博麟, 等. 基于多信息融合网络的行人轨迹预测方法[J]. 汽车工程, 2024, 46(11): 1 973-1 982.

GAO S, ZHOU J L, GAO B L, et al. Pedestrian trajectory prediction method based on multi-information fusion network[J]. Automotive Engineering, 2024, 46(11): 1 973-1 982.

[26]
张伟, 魏鑫磊, 聂芸, 等. 多源情报驱动的国家战略博弈可拓决策分析[J]. 计算机工程与应用, 2024, 60(22): 126-136.

DOI

ZHANG W, WEI X L, NIE Y, et al. Multi-source intelligence driving international strategy game decision analysis based on extenics[J]. Computer Engineering and Applications, 2024, 60(22): 126-136.

DOI

[27]
李嘉晖, 张萌萌, 陈洪辉. 大模型驱动多智能体的军事需求生成框架[J]. 计算机科学, 2025, 52(1): 65-71.

LI J H, ZHANG M M, CHEN H H. Large language models driven framework for multi-agent military requirement generation[J]. Computer Science, 2025, 52(1): 65-71.

[28]
邓徐韬. 面向智能人机交互的视觉—语言跨模态匹配技术[D]. 北京: 军事科学院, 2022.

DENG X T. Vision-language cross-modal matching technology for intelligent human-computer interaction[D]. Beijing: Military Science, 2022.

[29]
LEE J, MIYANISHI T, KURITA S, et al. CityNav: language-goal aerial navigation dataset with geographic information[Z], 2024.

[30]
陈东升, 汪亚斌, 姜晓夏, 等. 面向战场态势视频检索的高效多模态方法研究[C]// 第十二届中国指挥控制大会论文集(下册). 北京, 2024: 122-126.

CHEN D S, WANG Y B, JIANG X X, et al. Efficient multimodal method for battlefield situation video retrieval[C]// The 12th Command and Control Conference, Beijing, 2024: 122-126.

[31]
DING H H, LIU C, WANG S C, et al. Vision-language transformer and query generation for referring segmentation[C]// 2021 IEEE/CVF International Conference on Computer Vision (ICCV), Montreal, 2021: 16 301-16 310.

[32]
SAHA P, MISHRA D, WAGNER F, et al. FedPIA —permuting and integrating adapters leveraging Wasserstein barycenters for finetuning foundation models in multi-modal federated learning[EB/OL]. ArXiv e-Prints, 2024: arXiv: 2412.14424.

[33]
王宏伟, 杨力, 张方雨. 基于神经网络的电磁感应探雷目标识别方法[J]. 探测与控制学报, 2022, 44(5): 90-96.

WANG H W, YANG L, ZHANG F Y. Target identification method of electromagnetic induction mine detection based on neural network[J]. Journal of Detection & Control, 2022, 44(5): 90-96.

[34]
蒋明煜, 张顺生, 肖思瑶. 基于轻量级交叉注意力卷积网络的SAR目标识别[J/OL]. 系统工程与电子技术, 2024: 1-12. (2024-12-06). https://kns.cnki.net/kcms/detail/11.2422.TN.20241206.0902.010.html.

JIANG M Y, ZHANG S S, XIAO S Y. SAR target recognition based on lightweight cross attention convolution network[J/OL]. Systems Engineering and Electronics, 2024: 1-12. (2024-12-06). https://kns.cnki.net/kcms/detail/11.2422.TN.20241206.0902.010.html.

[35]
SAUMYA SAXENA, BLAKE BUCHANAN, CHRIS PAXTON, et al. GraphEQA: Using 3D Semantic Scene Graphs for Real-time Embodied Question Answering[Z], 2024.

[36]
来向武, 蔡添娇. 人工智能技术背景下关于认知战的国内外研究焦点及启示[J]. 中国军转民, 2024(20): 128-129.

LAI X W, CAI T J. Research focus and enlightenment of cognitive warfare at home and abroad under the background of artificial intelligence technology[J]. Defence Industry Conversion in China, 2024(20): 128-129.

[37]
陈诗航, 孙玉宝. 基于模态仿射融合的语音控制说话人脸视频对抗生成[J/OL]. 计算机工程,1-12[2025-02-25]. https://doi.org/10.19678/j.issn.1000-3428.0069992.

CHEN S H, SUN Y B. Speech control speech face video adversarial generation based on modal affine fusion[J/OL]. Computer Engineering, 1-12.

[38]
KAWAR B, ZADA S, LANG O, et al. Imagic: text-based real image editing with diffusion models[C]// 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Vancouver, 2023: 6 007-6 017.

[39]
WANG X, YUAN H J, ZHANG S W, et al. Video Composer[C]// Proceedings of the 37th International Conference on Neural Information Processing Systems, New Orleans, 2023: 7 594-7 611.

[40]
RAWAL A, MCCOY J, RAGLIN A J, et al. Recent advances in multi-modal data fusion: status, challenges and perspectives[C]// Artificial Intelligence and Machine Learning for Multi-Domain Operations Applications IV, Orlando, 2022.

[41]
KOSTOPOULOS N, STAMATIOU Y C, HALKIOPOULOS C, et al. Blockchain applications in the military domain: a systematic review[J]. Technologies, 2025, 13(1): 23.

DOI

[42]
ROSKIN J. The role of terrain and terrain analysis on military operations in the late twentieth to early twenty-first century: a case study of selected IDF battles[C]// Military Geoscience. Cham: Springer International Publishing, 2020: 145-160.

[43]
PAUL S. A survey of technologies supporting design of a multimodal interactive robot for military communication[J]. Journal of Defense Analytics and Logistics, 2023, 7(2): 156-193.

DOI

Outlines

/