中国科技核心期刊      中国指挥与控制学会会刊     军事装备类重点期刊
指挥控制

基于强化学习的直升机智能博弈方法研究

  • 于若颜 ,
  • 吕增岁
展开
  • 中国直升机设计研究所, 江西 景德镇 333000

于若颜(1999—),女,硕士,研究方向为直升机效能评估与仿真。

吕增岁(1990—),女,硕士,高级工程师。

收稿日期: 2025-06-26

  修回日期: 2025-07-04

  网络出版日期: 2026-05-25

Research on helicopter intelligent game method based on reinforcement learning

  • YU Ruoyan ,
  • LYU Zengsui
Expand
  • China Helicopter Research and Development Institute, Jingdezhen 333000, China

Received date: 2025-06-26

  Revised date: 2025-07-04

  Online published: 2026-05-25

摘要

围绕直升机编队智能博弈问题展开研究,运用规则推理与强化学习相结合的思路,提出了知识-数据双驱动直升机编队智能博弈决策方法。针对简单态势,采用分布式知识表达方式构建的专家规则库快速完成分析决策;针对复杂态势或未知态势,基于多智能体近端策略优化算法(Multi-Agent Proximal Policy Optimization, MAPPO)构建强化学习智能博弈模型并做出最优决策,通过集中式训练和分布式执行机制有效提高了直升机编队的协同性。最后,在仿真平台中完成了设计场景下的红蓝博弈决策任务,并根据推演数据进行效能评估,验证了算法的有效性和实用性。

本文引用格式

于若颜 , 吕增岁 . 基于强化学习的直升机智能博弈方法研究[J]. 指挥控制与仿真, 2026 , 48(3) : 41 -48 . DOI: 10.3969/j.issn.1673-3819.2026.03.005

Abstract

Focusing on the problem of helicopter formation intelligent game, this paper uses the idea of combining rule reasoning and reinforcement learning to propose a knowledge-data driven helicopter formation intelligent game decision-making method. In view of the simple situation, the distributed knowledge expression method is used to construct an expert rule base to quickly complete the analysis and decision-making. For complex or unknown situations, a reinforcement learning intelligent game model is constructed based on the Multi-Agent Proximal Policy Optimization (MAPPO) algorithm to make optimal decisions, and the coordination of helicopter formations is effectively improved through centralized training and distributed execution mechanism. Finally, the decision-making task of the red and blue game in the design scenario is completed in the simulation platform, and the efficiency is evaluated according to the deduction data, which verifies the effectiveness and practicability of the algorithm.

智能博弈技术能够推动人机协同决策模式,优化决策效率,提升场景态势感知能力,吸引了大量研究人员的探索和创新。目前,智能博弈技术主要分为基于规则的决策方法和数据驱动的决策方法两种。
传统的智能博弈模型是利用预先建立的信息和丰富的经验构建规则库,根据态势信息在规则库中查找对应的策略[1-2],但规则库难以覆盖所有的态势,模型的泛化性较差。随着以AlphaStar为代表的智能算法在实时对抗中战胜人类,宣告人工智能技术在动态博弈领域取得突破性进展,为用人工智能技术拓展指挥人员思维、辅助博弈决策带来了新契机[3-11]
王成飞等人提出了基于规则推理和深度强化学习的模型框架,为海上兵力行为建模提供了较为可行的技术途径[12]。苏震等人开展了基于深度强化学习的水面无人艇集群协同围捕决策研究,设计了基于距离和相对角度的阶段性奖励函数,并采用DDPG算法进行策略求解[13]。王尔申等人以无人机集群空地对抗为背景,基于战场态势的动态变化提出自适应权重的经验表达式,并以此定义博弈双方的动态目标收益函数,建立非完全信息下的无人机集群空地对抗博弈模型[14]。王训等人设计无人车集群执行再入体着靶协同监视的集群行为模式,提出基于合作博弈的智能集群自主聚集策略,并采用微粒群算法规划局部路径,最终使群体系统涌现出聚集行为[15]。刘冰雁等人提出了一种基于多组并行深度Q网络(DON)的连续空间追逃博弈算法,并将其应用于4轮战车追逃博弈场景中,实验结果表明算法具备自主学习耗时少、追捕应用时间短的优势[16]。施伟等人提出了基于深度强化学习的多机协同博弈决策流程框架,针对近端策略优化算法设计了4种算法增强机制,有效提高了多机协同博弈场景下智能体间的协同程度[17]。殷宇维等人将自注意力机制引入多智能体深度确定性决策梯度算法,提出了一种无人战车协同突防决策方法,有效提升了战车间的协同性[18]。白杨等人提出基于 BiLSTM-Attention 和动态贝叶斯网络的防空目标智能意图预测方法,模拟决策人员对于作战情况的推理过程,实现了体系对抗下对防空目标意图的精准预测[19]。针对大地图和稀疏奖励的兵棋推演对抗环境,张振等人提出了一种基于监督学习和深度强化学习相结合以及设置额外奖励的作战实体博弈对抗算法,有效提高了智能博弈训练的效果[20]
国外军事强国也对智能博弈技术展开了探索。近年来,美国国防部高级研究计划局先后启动并提前布局了“深绿”、分布式战场管理、空战计划(ACE)、HSA-DM等大量基础技术研究与工程实践项目。美国ACE项目聚焦于高强度的视距内空战,通过飞行员与智能算法之间的对抗,提升飞行员对智能算法的信任程度,最终实现人机融合决策的空战模式。HSA-DM项目针对直升机领域,重点关注整体态势感知与决策,提升面向任务的辅助决策能力。
目前,国内外已在直升机指挥控制、编队协同、机载辅助决策等方面开展了较为深入的智能化应用研究,但缺乏与智能蓝方进行动态博弈、闭环验证的有效手段。因此,本文在直升机智能博弈领域展开研究,针对复杂动态环境中非完整信息下的多智能体博弈问题,构建了知识-数据双驱动博弈决策框架,既能够快速决策,又能够适应复杂场景和未知场景。最后,本文对基于仿真平台的推演数据进行效能评估,验证了算法的有效性和实用性。

1 知识-数据双驱动博弈决策框架

1.1 场景设计

1.1.1 场景概述

本文在仿真平台中构建想定,完成红蓝双方自主博弈。主要仿真场景如下:红方通过无人机获取场景态势信息,监视蓝方目标;蓝方在民用建筑中设置多个轻重火力点,同时采用各种手段干扰红方传感器。红方直升机编队由城市外围向目标地突击,通过与无人机和地面单元动态组网,与蓝方力量进行对抗。红方武装直升机到达任务位置后快速机降,由中型无人机为机降的地面人员提供情报和火力支援;蓝方中枢受到红方地面力量的包围和攻击,快速逃窜。红方任务结束返航。

1.1.2 力量构成

红方力量包括地面力量和空中力量。空中力量包括4架武装直升机、5架侦察直升机、9架小型旋翼无人机和9架中型固定翼无人机,其中,武装直升机和侦察直升机搭载多种传感器、干扰器材和弹药。
蓝方力量包括指挥车1辆,防空车5辆,坦克3辆,雷达车1辆,运输直升机1架,火箭筒士兵1人,首脑1人。其中,火箭筒士兵配备3枚防空导弹。

1.1.3 胜负判定

红方空中力量负责掌控场景态势,为地面力量提供信息情报、火力支援、物资保障和伤员转运,火力封锁城市街区并将蓝方力量分割歼灭;红方地面力量负责歼灭蓝方首脑并占领蓝方某地标性建筑。蓝方力量据守某地,歼灭空中或地面突入之敌,视情安排蓝方首脑撤离。
为了开展红蓝博弈决策算法研究,制定红蓝方胜负判定条件:
(1)红方优胜/蓝方失败:红方击毙或俘虏蓝方首脑,且占领蓝方某地标性建筑,裁决结果为1;
(2)红方次胜/蓝方微胜:红方虽击毙或俘虏蓝方首脑,但未能在规定时间内占领蓝方某地标性建筑,裁决结果为2;
(3)红方微胜/蓝方次胜:红方占领蓝方某地标性建筑,但蓝方首脑逃逸,裁决结果为3;
(4)红方失败/蓝方优胜:蓝方首脑逃逸,且红方未能在规定时间内占领蓝方某地标性建筑,裁决结果为4。

1.2 知识-数据双驱动博弈决策框架

本文构建的知识-数据双驱动博弈决策框架由专家知识规则库和决策神经网络两部分协同工作,共同完成设计场景下的红蓝博弈决策任务,如图1所示。在推演仿真平台中构建想定,进行红蓝双方自主博弈,对于简单态势或者已知处理规则的态势由专家知识规则库快速给出决策指令;而对于复杂态势或者未知态势则由决策神经网络给出全局最优或者全局近似最优决策指令。
图1 知识-数据双驱动博弈决策模型框架

Fig.1 A framework for knowledge-data dual-driven game decision-making model

本文采用分布式知识表达方式构建专家知识规则库,为红方提供用于决策的条令条例、约束规则等必须遵守的博弈规则,在训练时可以加速训练过程收敛,在决策时可以针对简单态势或者已有应对规则态势进行快速决策。
红方力量按照专家知识规则库中的规则进行机动、侦察和打击。红方空中力量按照规划路线机动到蓝方可探测的区域边缘展开侦察,然后空中力量分为左翼、中路和右翼三个编组,依托地形优势隐蔽突防至蓝方核心阵地5 km处,如图2所示。中路编组选择蓝方地面目标进行攻击;左翼编组的武装直升机配合中路编组进行蓝方地面目标攻击,侦察直升机配合右翼编组,选择蓝方首脑可能的逃跑路线进行监视打击。红方地面力量按照坦克—雷达车—指挥车—防空车的顺序选择蓝方目标进行打击。任务结束后,红方剩余力量按照规划路线返航。
图2 红方隐蔽突防线路图

Fig.2 Diagram of the Red Party’s covert penetration route

多编队博弈场景下的智能决策技术存在混合博弈问题,即在博弈过程中要兼顾编队内不同装备之间的协同以及和蓝方装备之间的对抗;除此之外,各智能模型要兼顾局部最优回报和全局最优回报。因此,本文采用强化学习中的多智能体近端策略优化算法(Multi-Agent Proximal Policy Optimization, MAPPO)来构建智能博弈决策模型,该算法通过在多智能体系统中引入近端策略优化算法(Proximal Policy Optimization, PPO)的策略优化机制,实现了在混合协作和竞争环境中更加高效的策略学习。

2 基于强化学习的智能博弈算法

本文采用强化学习方法来寻找最优博弈策略。将仿真平台作为强化学习的环境进行算法训练和验证,打通二者之间的交互接口,使得智能模型能够实时读取仿真平台中的场景态势,并生成装备行动方案,驱动平台中的实体模型运行,完成推演,为效能评估提供数据支撑。本章详细介绍了描述智能博弈问题的马尔可夫决策过程、强化学习算法的损失函数、网络结构和训练方法。

2.1 马尔可夫决策过程

强化学习任务通常使用马尔可夫决策过程来描述。马尔可夫决策过程(Markov Decision Process, MDP)可由五元组<S,A,P,r,γ>定义,智能体通过状态st对当前环境进行感知,然后确定动作at来影响环境,使得环境按照状态转移函数P(s'|s,a)转移到另一状态st+1;同时环境会根据奖励函数r(s,a)反馈给智能体奖励rt。强化学习的训练目标是在智能体与环境的不断交互中寻找一个最大化累计折扣奖励Rt的策略πθ(a|s),累计折扣奖励Rt的定义如公式(1)所示。
Rt=$\sum _{t=0}^{\infty }$γtr(st,at)
式中,γ为折扣因子。
根据想定过程中不同阶段的博弈目标,本文分别设计了侦察搜导智能体、隐蔽突防智能体和阵位攻击智能体。智能体根据场景态势决策红方装备应该采取的具体动作方案,并通过交互接口,将动作方案输入仿真平台以驱动相应装备单元执行动作。
描述智能博弈过程的MDP五元组<S,A,P,r,γ>定义如下:状态stst=[wt,xt,ht],其中,wtt时刻的空间态势,描述基于地理环境数据的红蓝双方部署和反应变化情况;xtt时刻的实体状态数据,如实体阵营、位置和损伤程度等;htt时刻的统计特征数据,如仿真时间、被摧毁的红蓝方单位数量等。
动作at为决策网络的输出。为节约计算资源,本文的动作空间为离散动作空间,采用网格化设计,包括执行者、目标、执行方式等。不同智能体的动作空间并不相同,具体内容如表1所示。
表1 智能体的动作空间统计表

Tab.1 The agent’s action space statistics table

智能体 动作空间
侦察搜寻
智能体
1.决策中型固定翼无人机的巡航时间和路径;
2.分析蓝方雷达开关机规律并计算雷达的方位;
3.决策小型旋翼无人机进行抵近侦察和撤退的时间及路径;
4.分析蓝方中枢周边地形、兵力分布情况和蓝方首脑可能的撤退路径。
隐蔽突防
智能体
1.决策武装直升机和侦察直升机的出动时机及飞行路线;
2.根据雷达开关机规律预判悬停时间;
3.决策突防目的地,即选择的攻击阵位。
阵位攻击
智能体
1.决策攻击直升机的目标和弹种,根据阵位上的实体类型和状态以及任务,灵活分配打击目标、先后顺序和弹种选择;
2.决策侦察直升机的机动路线,根据整个场景态势,预判蓝方首脑逃跑方式和路线,机动到合适的位置监视打击。
同样,奖励函数r(st,at)的定义也随着智能体的训练目标不同而发生变化,具体内容如表2所示。
表2 智能体奖励函数统计表

Tab.2 The agent’s reward function statistics table

智能体 奖励函数
侦察搜寻
智能体
通过30分钟内中型无人机侦察到的蓝方雷达开关机规律、蓝方雷达车方位的准确度、小型无人机的自身损失数量、侦察到的蓝方部署信息量来衡量。
隐蔽突防
智能体
通过在任务过程中红方直升机被蓝方雷达侦察到的数量和时间来衡量,发现数量越少、发现时间越晚,奖励值越高。
阵位攻击
智能体
通过消灭蓝方力量的类型、数量、自身战损数以及夺占关键设施三个指标来衡量。

2.2 智能博弈算法损失函数

本文采用多智能体近端策略优化算法(Multi-Agent Proximal Policy Optimization, MAPPO)来构建智能博弈模型。MAPPO算法属于Actor-Critic类型,是近端策略优化算法在多智能体环境中的一种扩展,将裁剪目标函数应用于各个智能体的策略网络即Actor网络上,目标函数如公式(2)所示。每个智能体的价值函数由Critic网络使用全局状态和全局动作来计算,网络损失函数如公式(3)所示。
Lclip(θ)=E[min(γt(θ)${\widehat{A}}_{t}$,clip(γt(θ)),1-ε,1+ε)${\widehat{A}}_{t}$]
γt(θ)=$\frac{{\pi }_{\theta }\left({a}_{t}\right|{s}_{t})}{{\pi }_{\theta old}\left({a}_{t}\right|{s}_{t})}$
${\widehat{A}}_{t}$=$\sum _{l=0}^{T-t}$(γλ)lδt+l
式中,γt(θ)是策略的更新幅度,表示当前策略在状态st下采取动作at的概率与旧策略在状态st下采取动作at的概率之比,γt(θ)越大,表示当前策略相对于旧策略来说更新幅度越大。${\widehat{A}}_{t}$是优势函数,通过加权多步时序差分误差法(Temporal Difference Error, TD Error)计算,能够增加策略更新的稳定性。ε是超参数,用于控制裁剪幅度。
Lcritic=E[(Vθ(s)-Rt)2]
Rt=rt+γVi(st+1)
式中,Vθ(s)是状态s的价值函数,Rt是累计折扣奖励。
在多智能体强化学习中,所有智能体的动作都会影响环境的状态转移情况,这会使得单个智能体在决策时所依据的环境发生变化,进而导致已有的局部策略失效,难以达到多智能体的纳什均衡状态。针对这一问题,MAPPO算法采用集中式训练和分布式执行机制(Centralized Training and Decentralized Execution, CTDE),使智能算法模型在训练时从全局考虑,但在执行时根据局部观察进行决策,这使得各个智能体互相协调的同时也提高执行效率,适用于大规模动态环境下的异构智能体协作场景。

2.3 智能博弈算法网络结构

本文采用多智能体深度强化学习方法来寻找最优对抗策略。智能决策模型由态势编码模块、时序推理模块和任务决策模块构成,如图3所示。态势编码模块将场景空间态势数据、动态实体态势数据、统计态势数据进行融合,生成态势特征向量。时序推理模块基于融合后的态势特征向量,叠加历史态势信号,形成决策模型的决策“意图”。任务决策模块对决策“意图”进行解析,递归生成仿真平台可执行的操作指令,即航路规划、打击时机、目标选择、弹种选择等动作决策方案,对相应装备单元进行控制。
图3 强化学习决策模型网络架构

Fig.3 Reinforcement learning decision model network architecture

2.4 智能博弈算法训练机制

本文采用大规模分布式并行的训练方法进行智能算法的训练。该训练方法需要对仿真平台进行容器化改造,生成多个仿真实例容器,并采用grpc协议以数据流形式完成智能算法与仿真推演平台(强化学习环境)之间的数据交互,使得智能模型能够实时读取场景态势并控制装备行为,可以通过并行加载、加速仿真等方式提高数据生成和训练效率。
为了更好地利用先验数据,提升智能模型的可靠性、稳定性、鲁棒性和场景泛化性,本文设计了三个阶段的学习模式,分别是专家规则学习、深度强化学习和联赛学习。
(1)通过基于行为克隆、逆强化学习和生成对抗网络三种方法进行专家规则学习。利用已有先验数据和专家经验形成具有一定智能水平的红方规则库模型,作为强化学习训练的初始状态。
(2)采用基于分布式并行自博弈学习方法对上述红方规则库模型进行强化学习训练,并通过博弈淘汰机制得到最高水平的智能模型,训练过程如图4所示。
图4 分布式自博弈学习过程

Fig.4 Distributed self-game learning process

(3)在联赛学习阶段,选出前两个阶段训练得到的若干智能模型,两两互弈,最终筛选出鲁棒性最强的智能博弈模型。

3 效能评估

为验证强化学习算法的有效性,本文完成了红方规则库模型和红方强化学习模型分别与蓝方规则库模型的博弈推演仿真,每种类型进行200次对抗仿真。统计结果如表3所示,经过统计分析,红方强化学习智能体与规则智能体相比,优胜胜率提升20.2%,次胜胜率提升58.3%。
表3 红蓝博弈红方裁决结果统计表

Tab.3 Statistical table of the red and blue game and the red side of the ruling

对抗情况 结果统计
优胜 次胜 微胜 失败
红方规则蓝方规则 89 12 83 16
红方强化蓝方规则 107 19 56 18
红蓝双方装备的战损统计结果如表4所示。红方强化智能体对比规则智能体,拥有更小的战损,更长的平均存活时长,在博弈中发射出了更多的弹药,使蓝方各单位拥有更高的战损数量和更短的平均存活时长。红方直升机装备的平均战损数量和战损时间如图5图6所示。
表4 红蓝博弈战损统计结果表

Tab.4 Red-blue game damage statistics table

红方 蓝方 红方直升机单
局平均阵亡数
红方直升机单
局平均耗弹量
红方直升机单局
平均存活时长
蓝方单局平均
阵亡数
蓝方防空车单
局平均耗弹量
蓝方单局平
均存活时长
规则智能体 规则智能体 8.95 11.79 4 178 s 6.255 20.112 4 989 s
强化智能体 规则智能体 8.127 17.35 4 259 s 6.84 25.84 4 921 s
图5 红方直升机装备战损数量的平均结果

Fig.5 The average result of the number of battle damages of the red side’s helicopters

图6 红方直升机装备战损时间的平均结果

Fig.6 The average result of the equipment damage time of the red side’s helicopters

对上述两种情况进行整体分析,结果如表5所示。其中,任务完成率是指红方取得优胜和次胜的局数在200次仿真中的占比;红方存活率和存活时长分别指直升机装备在200次对抗中的平均存活率和平均存活时长即战损时间;红方耗弹量是指直升机装备在200次对抗中的平均耗弹量;蓝方存活率和存活时长分别指蓝方所有装备在200次对抗中的平均存活率和平均存活时长即战损时间;蓝方首脑存活时长是指蓝方首脑在200次对抗中的被击毙或被俘虏的情况下的存活时长平均值(上述所有存活时长仅指战损装备的存活时长,不包含存活到仿真结束的装备,单位为秒)。
表5 不同规则下的智能红蓝博弈指标结果

Tab.5 The results of intelligent red-blue game indicators under different rules

效能指标 红方规则
蓝方规则
红方强化
蓝方规则
任务完成率 50.5% 63%
红方存活率 3.27% 13.57%
红方存活时长 4 279 s 4 358 s
红方耗弹量 11.21 18.73
蓝方装备存活率 43.59% 40.57%
蓝方装备存活时长 4 875 s 4 802 s
蓝方首脑存活时长 4 349 s 4 289 s
本文运用成熟通用的层次分析法(AHP)将专家的思维过程定量化,给各个任务效能指标分配权重,如表6所示。
表6 效能指标权重

Tab.6 Weight of performance indicators

作战指标 指标权重
红方存活率 0.2
红方存活时长 0.2
红方耗弹量 0.15
蓝方存活率 0.1
蓝方存活时长 0.15
蓝方首脑存活时长 0.2
基于模糊数学综合评判法将上述能力指标计算结果进行隶属度转换,假定当前各指标的评价集为[优、良、中、差],并设定对应的评分值为[4,3,2,1],将指标项结果数据转化为评价值,进行聚合计算,计算模型如下:
A=$\sum _{i=1}^{n}$Ni·Ai
其中,n为效能指标及能力项的个数,Ai为指标项的能力值,Ni为其权重。
综合计算后,各状态下的任务效能结果如表7图7所示,与红方规则模型相比,使用强化学习模型执行博弈任务时,红方任务完成率和博弈效能均有提升,充分证明了强化学习算法的有效性。
表7 红蓝博弈的效能结果

Tab.7 The effectiveness result of the red-blue game

序号 红蓝博弈规则 任务完成率 任务效能结果
1 红方规则
蓝方规则
50.5% 1.25
2 红方强化
蓝方规则
63% 2.3
图7 不同红蓝博弈规则的效能评估对比

Fig.7 Comparison of the effectiveness evaluation of different red-blue game rules

4 结束语

针对直升机编队协同博弈的问题背景,本文将专家规则与深度强化学习相融合,设计了满足多智能体任务协同的知识-数据双驱动的智能博弈模型,有效解决了直升机有人/无人协同场景下实体类型众多、状态和动作空间巨大、协同关系高度复杂等问题。效能评估结果表明,本文提出的算法具有良好的探索能力,能够充分利用不同实体间协同合作的机制,根据场景态势实时做出合理决策。
本文重心在于抽象多直升机协同博弈问题,构建适合强化学习算法求解的模型,验证技术路径的可行性,因此并未验证智能算法的泛化性。因此,在未来的工作中,可以深度细化想定的复杂性和真实性,在不同的场景中进一步验证算法的泛化性。另外,可以对不同的智能算法进行对比分析,拓宽可行性。
[1]
周佳炜, 孙宇祥, 薛宇凡, 等. 融合先验知识的异构多智能体强化学习算法研究[J]. 指挥控制与仿真, 2023, 45(3): 99-107.

DOI

ZHOU J W, SUN Y X, XUE Y F, et al. Heterogeneous multi-agent reinforcement learning algorithm integrating prior-knowledge[J]. Command Control and Simulation, 2023, 45(3): 99-107.

[2]
彭莉莎, 孙宇祥, 薛宇凡, 等. 融合三支多属性决策与SAC的兵棋推演智能决策技术[J]. 系统工程与电子技术, 2024, 46(7): 2 310-2 322.

PENG L S, SUN Y X, XUE Y F, et al. Intelligent decision-making technology for wargame by integrating three-way multiple attribute decision-making and SAC[J]. Systems Engineering and Electronics, 2024, 46(7): 2 310-2 322.

[3]
马贤明, 张海林, 王全东, 等. 无人机集群作战智能培育平台构建研究[J]. 军事运筹与系统工程, 2021, 35(2): 68-74.

MA X M, ZHANG H L, WANG Q D, et al. Research on the establishment of combat intelligence cultivation platform for UAV cluster[J]. Military Operations Research and Systems Engineering, 2021, 35(2): 68-74.

[4]
况立群, 冯利, 韩燮, 等. 基于双深度Q网络的智能决策系统研究[J]. 计算机技术与发展, 2022, 32(2): 137-142.

KUANG L Q, FENG L, HAN X, et al. Research on intelligent decision-making system based on double deep Q-network[J]. Computer Technology and Development, 2022, 32(2): 137-142.

[5]
袁婷帅, 冯宇, 李永强. 结合先验知识的多智能体博弈对抗研究[J]. 高技术通讯, 2024, 34(3): 256-264.

YUAN T S, FENG Y, LI Y Q. Research on multi-agent game confrontation combined with prior knowledge[J]. Chinese High Technology Letters, 2024, 34(3): 256-264.

[6]
何扬. 基于深度强化学习的空战机动决策研究[D]. 成都: 四川大学, 2022.

HE Y. Research on air combat maneuver decision based on deep reinforcement learning[D]. Chengdu: Sichuan University, 2022.

[7]
WANG Z, LI H, LI X H, et al. Research on combat intelligent agents based on deep reinforcement learning[C]. 2018 6th Chinese Control Conference(CCC), 2018, 5: 32-36.

[8]
王瑞星, 董诗音, 江飞龙, 等. 稀疏奖励下基于强化学习的异构多智能体对抗[J]. 信息技术, 2021, 45(5): 12-20.

WANG R X, DONG S Y, JIANG F L, et al. Heterogeneous multi-agent confrontation based on reinforcement learning under the sparse reward[J]. Information Technology, 2021, 45(5): 12-20.

[9]
王龙, 杜金铭. 多智能体协调控制的演化博弈方法[J]. 系统科学与数学, 2016, 36(3): 302-318.

DOI

WANG L, DU J M. Evolutionary game theoretic approach to coordinated control of multi-agent systems[J]. Journal of Systems Science and Mathematical Sciences, 2016, 36(3): 302-318.

DOI

[10]
王军, 曹雷, 陈希亮, 等. 博弈强化学习及其军事应用[J]. 陆军工程大学学报, 2022, 1(3): 135-140.

WANG J, CAO L, CHEN X L, et al. Military application of game reinforcement learning[J]. Journal of Army Engineering University of PIA, 2022, 1(3): 135-140.

[11]
武文峰, 龚铮. 基于LVC的导弹智能博弈仿真技术研究[J]. 计量与测试技术, 2023, 50(6): 11-14.

WU W F, GONG Z. Research on missile intelligent game theory simulation technology based on LVC[J]. Metrology & Measurement Technique, 2023, 50(6): 11-14.

[12]
王成飞, 董亚卓, 苏千叶, 等. 海战仿真中的智能对抗行为建模方法研究[J]. 指挥控制与仿真, 2022, 44(1): 79-85.

DOI

WANG C F, DONG Y Z, SU Q Y, et al. Research on modeling method of intelligent confrontation behavior in naval battle simulation[J]. Command Control & Simulation, 2022, 44(1): 79-85.

[13]
苏震, 张钊, 陈聪, 等. 基于深度强化学习的无人艇集群博弈对抗[J]. 兵器装备工程学报, 2022, 43(9): 9-14.

SU Z, ZHANG Z, CHEN C, et al. Deep reinforcement learning based swarm game confrontation of unmanned surface vehicles[J]. Journal of Ordnance Equipment Engineering, 2022, 43(9): 9-14.

[14]
王尔申, 郭靖, 宏晨, 等. 改进目标收益函数的无人机集群空地对抗模型[J]. 南京航空航天大学学报, 2021, 53(6): 888-897.

WANG E S, GUO J, HONG C, et al. UAV swarm air-ground engagement model with improved payoff[J]. Journal of Nanjing University of Aeronautics & Astronautics, 2021, 53(6): 888-897.

[15]
王训, 王兆魁, 张育林. 基于合作博弈的智能集群自主聚集策略[J]. 国防科技大学学报, 2017, 39(2): 146-151.

WANG X, WANG Z K, ZHANG Y L. Strategy about autonomous aggregation of intelligent swarm based on cooperative game[J]. Journal of National University of Defense Technology, 2017, 39(2): 146-151.

[16]
刘冰雁, 叶雄兵, 岳智宏, 等. 基于多组并行深度Q网络的连续空间追逃博弈算法[J]. 兵工学报, 2021, 42(3): 663-672.

DOI

LIU B Y, YE X B, YUE Z H, et al. Continuous space pursuit-evasion game algorithm based on multi-group deep Q network[J]. Acta Armamentarii, 2021, 42(3): 663-672.

DOI

[17]
施伟, 冯旸赫, 程光权, 等. 基于深度强化学习的多机协同空战方法研究[J]. 自动化学报, 2021, 47(7): 1 610-1 623.

SHI W, FENG Y H, CHENG G Q, et al. Research on multi-aircraft cooperative air combat method based on deep reinforcement learning[J]. Acta Automatica Sinica, 2021, 47(7): 1 610-1 623.

[18]
殷宇维, 王凡, 丁录顺, 等. 基于MADDPG的多无人战车协同突防决策方法研究[J]. 指挥控制与仿真, 2025, 47(3): 40-49.

DOI

YIN Y W, WANG F, DING L S, et al. Research on cooperative penetration decision method of multiple unmanned combat vehicles based on MADDPG[J]. Command Control & Simulation, 2025, 47(3): 40-49.

[19]
白杨, 范成礼, 付强, 等. 基于BiLSTM-Attention和动态贝叶斯网络的防空目标智能意图预测方法[J]. 系统工程理论与实践, 2024, 44(11):3738-3 747.

BAI Y, FAN C L, FU Q, et al. Intelligent intent prediction of air defense targets based on BiLSTM-Attention and dynamic Bayesian networks[J]. Systems Engineering—Theory & Practice, 2024, 44(11):3738-3 747.

[20]
张振, 黄炎焱, 张永亮, 等. 基于近端策略优化的作战实体博弈对抗算法[J]. 南京理工大学学报, 2021, 45(1): 77-83.

ZHANG Z, HUANG Y Y, ZHANG Y L, et al. Battle entity confrontation algorithm based on proximal policy optimization[J]. Journal of Nanjing University of Science and Technology, 2021, 45(1): 77-83.

文章导航

/