中国科技核心期刊      中国指挥与控制学会会刊     军事装备类重点期刊
Intelligent Unmanned Combat

Research on cooperative penetration decision method of multiple unmanned combat vehicles based on MADDPG

  • YIN Yuwei ,
  • WANG Fan ,
  • DING Lushun ,
  • BIAN Jinning
Expand
  • Jiangsu Automation Research Institute, Lianyungang 222006

Received date: 2024-06-23

  Revised date: 2024-11-21

  Online published: 2025-05-28

Abstract

Aiming at the problem of how to make intelligent cooperative decision according to the real-time situation in the land penetration operation of multi-vehicle, combined with the process of multi-agent unmanned vehicle penetration operation, Markov (MDP) model is established,and based on the multi-agent depth deterministic strategy gradient algorithm, the decision method of multi-unmanned vehicle collaborative penetration is proposed. In order to solve the problem of mutual influence of multi-agent decision-making agents’ policy changes, an attention mechanism is introduced in AC structure of the algorithm to make each agent pay more attention to those agents that have greater influence on the decision-making and policy evaluation. And the self-attention mechanism is used to calculate the reward weight of each agent, the reward distribution is carried out according to the contribution of each agent, which improves the cooperation of the war shop. Finally, the effectiveness and superiority of the multi-vehicle collaborative penetration decision-making method are verified by experiments in a given environment.

Cite this article

YIN Yuwei , WANG Fan , DING Lushun , BIAN Jinning . Research on cooperative penetration decision method of multiple unmanned combat vehicles based on MADDPG[J]. Command Control and Simulation, 2025 , 47(3) : 40 -49 . DOI: 10.3969/j.issn.1673-3819.2025.03.005

在人工智能技术支撑下,现代战争形态向无人化、智能化快速迈进,各式无人装备凭借无须考虑人员伤亡、极端环境适应性强等突出优势将成为未来战场的中坚力量。因此研究如何实现复杂多变战场环境下的多无人作战单元智能协同作战决策极具现实价值和应用前景。
目前,无人装备智能决策的相关研究主要集中于空战决策领域[1],且更关注单无人作战单元的智能决策,相关决策方法主要包括数学推算[2]、机器搜索[3]、数据驱动[4]、深度强化学习[5]等,与前3种方法相比,基于深度强化学习的决策方法能够基于深度神经网络实现从感知到决策控制的端到端自学习[6],以此构建的突防决策智能体可充分利用深度强化学习的自学习和自提高能力,在与战场环境的交互中不断学习,提升自身作战决策水平,实现对自身态势的精准判断,快速进行最优战术决策[7]
此外,基于突防战场环境复杂性考虑,单无人战车突防决策并不具备较大的现实意义和应用价值,因此必须考虑一个多智能体系统,引入多个智能体,每个智能体之间紧密联系,互相协调,既要考虑智能体自身与战场环境的交互学习,也要考虑与其他智能体的协同合作以及适应其他智能体的策略变化[8]
针对多智能体强化学习的研究,研究者最开始的方法是将单智能体强化学习算法直接用于多智能体的环境中,每个智能体独立训练,不共享信息,文献[9-11]便是采用这种方法,该方法结构简单,但未考虑到智能体间策略的互相影响,算法难以收敛到很好的效果。而后续研究提出的值分解网络(Value-Decomposition Networks,VDN)[12]、反事实多智能体策略梯度(Counterfactual Multi-Agent Policy Gradients, COMA)[13]以及多智能体深度确定性策略梯度(Multi Agent Deep Deterministic Policy Gradient, MADDPG)[14]等方法通过将多智能体的相关因素引入强化学习算法值函数或策略的定义中,并对对应的网络结构进行改进以适用多个智能体,从而实现了多智能体的协同决策。本文决策方法中采用的即是MADDPG算法。
本文针对多战车协同突防决策过程进行适当简化,抽象为多智能体完全合作问题,并以此建立马尔可夫(MDP)模型。本文深入分析MADDPG算法的原理,针对多战车协同突防作战过程的特点,构造MADDPG算法中每个智能体的执行者-评论者(Actor-Critic,AC)网络。针对算法中每个智能体进行决策时互相影响的问题,本文将自注意力机制应用于算法中的AC网络,使每个智能体进行决策和策略评估时更加关注那些对其影响更大的智能体。本文针对多智能体在击中敌方武器或被击中时回报函数如何分配的问题,通过在算法结构中引入自注意力机制计算权值分配回报函数,使得每个智能体依据自身对于特定状态的“贡献”得到回报,提升了多战车之间的协同性。
本文最后搭建仿真环境,通过大量训练以改进算法结构和调整超参数,并通过算法有效性检验和消融对比实验,验证了多战车协同突防决策方法的有效性和优越性。

1 基于MDP的多战车协同突防决策模型

1.1 马尔可夫决策过程(MDP)

强化学习的基本思想是智能体在与环境交互的过程中根据环境反馈得到的回报不断调整自身的策略以实现最佳决策。强化学习方法从理论方面基于马尔可夫决策过程(Markov Decision Process, MDP)进行基础建模。MDP满足马尔可夫特性,即智能体下一时刻的状态仅与智能体当前时刻的状态和动作有关。MDP由四元组<S,A,T,γ,R>定义,其中S为有限状态集,A为动作集,T为状态转移函数,γ表示折扣因子,R为回报函数[15]

1.2 多战车协同突防决策过程的MDP表示

本文以我方战车作为智能体(Agent),多战车协同突防决策过程的MDP 描述模型如下:
(1)状态空间集合
多战车协同突防决策过程状态空间S={S1,S2,…,Sm},表示所有智能体的联合状态空间,其中第i个智能体的状态描述如下:

Si= x i , y i , d i , s i , T   t i , T   I i , T   x i , T   y i

其中(xi∈[0,2 000],yi∈[0,2 000])表示智能体的横纵坐标位置,di∈[0,360)表示战车运动方向,si表示战车弹药剩余量,而T   t i,T   I i,T   x i,T   y i都是数组,其维度是某方战车发现敌方武器装备的数目,数组Tt,TI,Tx,Ty中分别存储发现敌方武器装备类型、编号以及与我方战车的相对位置横纵坐标。
将所有战车相关位置状态整合为一个位置态势矩阵Sp,所有战车剩余的属性状态则整合进So

S= S p i m x i , y i , T   t i , T   I i , T   x i , T   y i S o i m d i , s i

图1所示,采用卷积神经网络对位置态势矩阵Sp进行特征提取,再与通过全连接层的所有智能体的属性状态So进行拼接,作为智能体的状态。
图1 多智能体的状态描述

Fig.1 Status statements for multiple agents

(2)动作空间集合
多战车协同突防决策过程中所有智能体的联合动作空间A= A 1 , A 2 , , A m,而每个智能体的动作空间如式(3)所示。

Ai= D , V , R , F

其中,D,V,R,F分别表示智能体的运动方向选择、智能体的速度选择、智能体探测设备的开关动作以及智能体的攻击动作。
(3)状态转移函数
在多智能体与环境的交互中状态转移取决于包含所有智能体的全局状态和所有智能体的动作。状态转移函数如式(4)所示。

p s t + 1 | s t ; a t=P S t + 1 = s t + 1 | S t = s t , A t = a t

其中,StSt+1指的是t时刻和t+1时刻包含所有智能体的全局状态,而Atatt时刻所有智能体可能的动作变量和实际动作的连接。
(4)回报函数
回报函数是智能体执行动作从环境得到的回报信号,也是智能体决策方法中策略更新的依据,本文基于专家经验回报机制进行回报函数建模。
在多战车突防决策过程中,所有智能体的目标为以最小战损突破敌方布防到达目标区域,因此通过专家经验回报机制引导智能体前往目标区域,该回报仅依赖每个智能体自身位置变化,无须智能体间的协同配合,智能体获得该回报后无须与其他智能体共享。
而智能体间通过协同配合使某个智能体到达特定状态(例如被击中、击中敌方和到达目标区域)而获取的回报需要分配给所有参与配合的智能体。由于场景中每个智能体对获得回报做出的贡献不同,此时采用平均分配的方法显然不合理。一种更恰当的方法是根据参与配合智能体与到达特定状态智能体的相关性来分配回报。因此本文可采用自注意力机制中得到的权值向量来计算特定状态回报的分配。
设环境中存在m个智能体,当第i个智能体到达特定状态获得回报时,所有智能体分配的回报如公式(5)所示:
r 1 , r 2 , , r m=R*αi=
[R* α i 1,R* α i 2,…,R* α i m]
其中, r 1 , r 2 , , r m表示m个智能体分配到的回报,αi表示后续自注意力机制中得到的第i个智能体与其他智能体的相关性权值矩阵,R则为智能体到达不同特定状态下的回报基准值,其设置如表1所示。
表1 智能体到达特定状态获得回报的基准值

Tab.1 The benchmark value at which an agent is rewarded for reaching a specific state

特定状态 回报基准值
击中敌方火力点 20
击中敌方战车 30
被敌方击中 -40
到达目标区域 150
超出时间未完成 -120

2 多战车自主协同突防决策方法

2.1 多战车协同突防决策方法总体框架

多战车突防决策方法总体框架如图2所示,主要包括态势信息处理模块、MADDPG算法模块、经验存储模块、策略解码模块。
图2 多战车突防决策方法总体框架

Fig.2 The overall framework of the decision-making method for multi-vehicle penetration

总体框架中,态势信息处理模块负责处理全局位置态势状态信息以及每个智能体的自身状态信息,并将其送入每个智能体的策略Actor网络;每个智能体的策略Actor网络得到全局状态信息后输出策略到策略解码模块,添加噪声得到所有智能体的联合动作并执行;同时将全局状态信息、所有智能体的联合动作、获得的回报以及执行动作后的全局状态存入经验存储模块。算法训练时,从经验池中优先采样依次对每个智能体的策略网络进行更新,并采用软更新的方式对目标网络进行更新。

2.2 决策方法MADDPG算法结构

面向多战车协同突防决策方法中的MADDPG算法采用“集中训练+去中心化决策”框架[16],即在训练的过程中,需要所有的智能体共同参与改进Actor网络参数和Critic网络参数,这种方式称之为中心化训练。在训练完成后,不再需要价值网络,每个智能体仅通过策略网络进行决策,这种方法被称为去中心化决策。具体如图3所示。
图3 MADDPG算法结构

Fig.3 The algorithm structure of MADDPG

MADDPG算法中每个智能体都有一个中心化的Critic网络,每个Critic网络的输入为所有智能体的全局状态s= s 1 , s 2 , , s m和所有智能体的动作a=[a1,a2,…,am],功能为评估在某一全局状态s下所有智能体执行联合动作a的好坏,具体见图4
图4 MADDPG算法中智能体的Critic网络

Fig.4 Critic network of agents in the MADDPG algorithm

MADDPG算法中策略网络的Actor-Critic框架的训练过程具体如下:
设环境中智能体个数为n,策略网络中Actor网络参数为θμ=( θ 1 μ, θ 2 μ,…, θ n μ),Critic网络参数为θQ=( θ 1 Q, θ 2 Q,…, θ n Q);目标网络Actor网络参数为θμ'=( θ 1 μ ', θ 2 μ ',…, θ n μ '),Critic网络参数为θQ'=( θ 1 Q ', θ 2 Q ',…, θ n Q ')。以下为第i个智能体的Actor和Critic网络的更新过程。
(1)Critic网络的更新
Critic网络的训练目标为更好地评估状态-动作二元组地价值。第i号智能体的Critic网络进行训练时,从经验池中抽样得到经验样本,即四元组(st,at,rt,st+1)(此处stst+1分别指t时刻和t+1时刻的全局状态信息,而at指所有智能体的联合动作),用每个智能体的目标Actor网络计算出状态为st+1时选择的动作[17]:
a t + 1 1(st+1; θ 1 μ ')
a t + 1 2(st+1; θ 2 μ '),…
a t + 1 n(st+1; θ n μ ')
联合动作为at+1=[ a t + 1 1,…, a t + 1 n],输入目标Critic网络以计算更新目标:

y t i= r t i+γQ'i s t + 1 , a t + 1 ; θ i Q '

其中, r t i表示智能体t时刻获取的回报值,Q'i(st+1,at+1; θ i Q ')表示网络参数为 θ i Q '的Critic网络依据t+1时刻状态st+1下动作at+1的评估值,依据Critic网络更新目标及当前值计算差值即网络更新的损失值如式8所示,其中,at=[ a t 1,…, a t n],N为一批次样本数,k为样本编号。
J( θ i Q)= 1 Nk( y t i-Q(st,at; θ i Q))2
根据损失值得到Critic网络更新公式如下:
θ i QJ= 1 Nk θ i QQ(st,at; θ i Q)|   a t i=μi(st)
(2)Actor网络的更新
每个智能体的Actor网络的更新目标为改进自身参数以做出更优决策,具体而言便是使其输出的动作在Critic网络得到更高的平均分数。其训练过程类似于DDPG算法,区别为在更新第i号智能体的Actor网络的时候,除了用到全局状态,还需要用到所有智能体的Actor网络,以及第i号智能体的Critic网络,其更新公式如下:
θ i μJ= θ i QJ* θ i μμ(st; θ i μ)
其中, θ i QJ表示Critic网络评价Actor网络给出怎样的决策能获得更高的评价, θ i μμ(st; θ i μ)则说明Actor按何种方式进行梯度更新使得Actor网络更有可能给出这样的决策。

2.3 MADDPG算法中AC网络结构

2.3.1 自注意力机制

本文MADDPG算法中每个智能体的Actor网络输入为所有智能体的全局状态信息,Critic网络输入则为全局状态信息和所有智能体动作,当环境中智能体的数量≥3时,每个智能体至少应考虑其他两个智能体的状态和动作,但在绝大多数情况下,这两个智能体对该智能体决策所产生的影响必然存在差别(例如距离更近的智能体间影响明显更大)。此时如果将这两个智能体的状态和动作以同等“重要性”输入该智能体的Critic网络,使得该智能体的策略过分“关注”了对其影响较小的智能体,从而对智能体间的协同配合产生不好的影响。
因此本文通过引入自注意力机制的方式对每个智能体的Actor网络和Critic网络进行改进。当环境中智能体数量≥3时,每个智能体网络在进行作战决策和策略评估时更加关注那些对其影响更大的智能体,而不是对其他所有智能体都“一视同仁”。
注意力机制(Attention mechanism)起源于深度学习,最开始被用于改进循环神经网络(RNN),其主要应用于机器翻译、语义理解等相关领域[18]。本文算法中使用的自注意力机制则是注意力机制的重要拓展。
本文算法中各智能体的AC网络进行决策和策略评估时需要其他所有智能体的状态和动作。本文通过自注意力机制将各智能体AC网络的输入进行转化,使智能体更加关注更加重要的信息。设环境中智能体个数为m,则所有智能体输入的动作和状态可定义为输入序列(x1,x2…,xm),其中输入序列(x1,x2…,xm)中每个向量的维度即状态空间或动作空间的维度,第i个智能体需得到的ci定义为输出。如图5所示,要将从输入序列得到输出,可采用全连接网络逐个把向量xi映射到ci,此时输出的ci仅依赖于输入的xi一个向量,而根据本文决策方法要求输出序列的向量ci不仅仅依赖于输入序列中向量xi,而是依赖于输入的所有向量(x1,x2…,xm)。
图5 输入到输出间的映射

Fig.5 Mapping between inputs and outputs

要实现本文决策方法中的要求,可在输入输出之间添加自注意力层。如图6所示,首先将状态(S1,S2,…,Sm)和动作(a1,a2,…,am)送入自注意力层,按式11所示,通过三个参数矩阵WqWkWv将输入映射到三元组(qi,ki,vi)。已知输入序列状态(S1,S2,…,Sm)和动作(a1,a2,…,am)的维度为din,输出ci的维度为dout,则矩阵WqWkWv的尺寸分别为dq*din,dq*din,dout*din
图6 将输入映射到(qi,ki,vi)

Fig.6 Mapping inputs to (qi,ki,vi)

qi=WqSiai,ki=WkSiai,vi=WvSiai
图7所示,使用qi和(k1,k2,…,km)计算权值(α1,α2,…,αm),其中权值向量αi的维度为智能体的个数m,向量中第j个元素 α i j表示输出ci受输入序列中Siai影响大小,影响越大,则元素 α i j就越大。
图7 计算权值α

Fig.7 Calculation of the weight α

计算过程如式(12)所示,其中,(qi·kj)表示qi与每个ki的向量内积,Softmax 函数则是为了保证权值向量αi中所有元素均大于零且累加和为1。
αi=Softmax{(qi·k1),(qi·k2),…,(qi·km)}
图8所示,在得到权值后便可计算得到ci,其通过第i个权值向量αi=[ α i 1, α i 2, α i 3,…, α i m]和(v1,v2,…,vm)计算得到,过程如式(13)所示。
ci= v 1 , v 2 , , v m·αi= j = 1 m α i jvj
图8 加权计算得到输出

Fig.8 The weighted calculation yields the output

自注意力层的输出为ci=v1 α i 1+v2 α i 2++vm α i m,向量中 α i j的大小表示vj对输出的ci影响的大小, α i j越大,则civj影响越大。vj即状态(S1,S2,…,Sm)和动作(a1,a2,…,am)中Sjaj,当输入序列与输出序列维度相同时,xj可直接作为vj,无需通过Wv转换。

2.3.2 添加自注意力机制的AC网络

智能体AC框架中Actor网络如图9所示,其中SP为全局位置态势矩阵,而S1,S2,…Sm为各智能体自身状态信息,将所有智能体相关位置状态整合为一个位置态势矩阵SP,所有智能体剩余的属性状态则整合进So。同时将第i个智能体Actor网络输入的各智能体状态先送入自注意力层,得到输出受各智能体输入影响的大小取决于权值向量矩阵中权值 α i j的大小。
图9 添加自注意力机制的Actor网络结构

Fig.9 Actor network with self-attention mechanism

Critic网络结构的输入与Actor网络相比,增加了各智能体网络输出的动作a1,a2,…,am。输出则为该智能体Critic网络对所有智能体联合动作的评估Q值,具体如图10所示。
图10 添加自注意力机制的Critic网络结构

Fig.10 Criticnetworkwith self-attention mechanism

本文通过在AC网络中添加自注意力层使得环境中每个智能体在Actor网络输出策略和Critic网络进行策略评估时更加关注那些对其影响更大的智能体,有助于多智能体间的协同配合。

3 试验仿真

3.1 战车模型

双方战车运动学模型为
X ˙ i = V i c o s   θ i Y ˙ i = V i s i n   θ i
图11所示,(Xi,Yi)表示战车的横纵坐标位置,Vi表示战车标量速度,θi表示战车运动方向角。
图11 战车运动学模型

Fig.11 Kinematic model of combat vehicle

图12所示,设定战车的攻击角为α,其范围为
α∈[-60°,60°]
图12 战车攻击角α

Fig.12 Chariot attack corner α

双方战车及固定火力点探测范围和攻击范围设定见表2
表2 双方武器设备探测与攻击模型

Tab.2 Detection and attack models of weapons and equipment on both sides

武器
类型
类型 探测范围
半径/m
攻击范围
半径/m
我方 战车 Ⅰ类 120 100
Ⅰ类 100 100
火力点 Ⅱ类 90 90
敌方 Ⅲ类 80 80
战车 Ⅰ类 120 100
Ⅱ类 110 90
目标进入战车攻击角与攻击范围半径构建的扇形区域1秒及以上即为遭受战车攻击,武器装备被攻击即损毁。
敌方火力点位置固定,当我方战车驶入火力点攻击范围后,火力点开始进行攻击。
敌方战车行驶方向随机,探测范围触碰场地边缘时,按上一时刻方向的反方向转向行驶。当我方战车驶入其探测范围后,敌方战车对我方战车进行追击,待其进入攻击区域时进行攻击。
敌方任意战车探测到我方战车时,附近与该敌方战车距离小于150的其他敌方战车均会参与对我方战车的追击。

3.2 场景设置

场景中我方战车的初始位置为(300,1 000),其作战目标为在一定时间内突破敌方防御,到达目标区域,目标区域为中心位置(1 900,1 000),半径100的圆形区域。多智能体突防决策目标为战车间相互协同配合以最小战损和最短时间突破敌方的拦截和防御达到目标区域。当有任意我方战车抵达目标区域时即判定我方胜利,我方所有战车均被击毁或超过30分钟未有我方战车抵达目标区域即判定我方失败。
具体设定如图13所示,场景中敌方布防既有位置固定的火力点,也有随机巡逻的敌方战车,敌方火力点数量设定为15,战车数量设定为4,我方战车数量即为决策方法中智能体的个数。
图13 多战车协同突防决策场景模型

Fig.13 Multi-vehicle collaborative penetration decision-making scenario model

AC决策网络中,所有智能体的状态中战车自身的位置、战车与已发现的不同类型敌方相对位置以及距离目标区域的位置这类与位置相关的状态均被整合为位置态势矩阵。
智能体的动作空间主要包括战车的行驶方向、速度、探测设备开关和攻击动作。行驶方向取值范围为0~12间的连续整数值,将其乘以30便是战车的行驶方向角;速度取值范围则为0~3间的连续整数值,为0时表示战车停止;探测设备开关及攻击动作设计等详见表3。在策略网络输出层前添加Softmax层,输出对应离散值的概率,按照概率进行取样得到这两项动作的值。
表3 多战车协同突防决策过程动作空间设计

Tab.3 The action space design of multi-vehicle collaborative penetration decision-making process

动作 取值范围 备注
行驶方向 [0~12] 0-12间连续值,乘以30
便是战车行驶方向角
速度 [0, 3] 0-3连续值,0便是停止
探测开关 0或1 0表示关闭,1表示开启
攻击 Dis[0~15] 取值为战车攻击的敌方
目标编号,0表示不攻击
为检验本文提出的多战车协同突防决策方法(Multi-agent Penetration Decision Method,MPDM)的有效性和算法中改进机制的优越性,在基于多战车协同突防场景模型的仿真环境中进行消融对比实验,同时对实验中智能体的涌现的行为策略进行复盘分析。

3.3 算法有效性检验

算法有效性检验主要对多战车突防决策方法在模型仿真环境中的有效性进行验证,实验场景中存在3个智能体,每个智能体实验超参数设置见表4。其中VAR为输出动作添加高斯噪声的标准差,每次训练后乘以0.999 5。
表4 MADDPG算法实验超参数

Tab.4 MADDPG algorithm experimental hyperparameters

超参数 数值 超参数 数值
经验池大小 50 000 Actor网络学习率 1e-6
批大小 32 Critic网络学习率 1e-6
折扣率γ 0.9 Actor更新间隔k 5
VAR初始值 2.0 软更新率τ 0.02
算法有效性检验的结果如图14所示,可以看出,随着训练次数的增加,基于MPDM_MADDPG结构我方智能体的胜率逐渐上升,大约在17 500轮开始收敛,收敛后胜率稳定在76.3%左右。实验结果验证了MPDM_MADDPG的有效性。
图14 基于MADDPG决策方法有效性验证

Fig.14 Validation of the effectiveness of the decision-making method based on MADDPG

3.4 算法消融对比实验

本文为分别研究算法结构中自注意力机制应用于每个智能体的AC网络以及回报函数的分配对算法实验效果的影响,在MPDM_MADDPG结构基础上减去这些改进机制进行消融对比实验。算法消融实验的设置见表5。算法结构MPDM_MADDPG_A与MPDM_MADDPG_B分别为在MPDM_MADDPG剔除AC网络和回报函数分配中的自注意力。
表5 MADDPG算法消融对比实验设置

Tab.5 Experimental setup of MADDPG algorithm ablation comparison

算法结构 基于自注意力
机制的AC网络
基于自注意力机
制的回报函数
MPDM_MADDPG
MPDM_MADDPG_A ×
MPDM_MADDPG_B ×

注:√表示采用该机制,×表示不采用

MADDPG算法消融对比实验的结果和性能对比详见表6图15,可以看出算法结构中的AC框架和回报函数分配采用自注意力机制时,决策框架的性能均有一定的提升,但提升效果在前期并不明显。
表6 算法的决策方法消融对比实验结果

Tab.6 The experimental results of the ablation of the algorithm’s decision-making method were compared

算法结构 稳定胜率
MPDM_MADDPG 76.3%
MPDM_MADDPG_A 71.5%
MPDM_MADDPG_B 67.9%
图15 算法决策方法消融实验对比

Fig.15 Comparison of ablation experiments of algorithmic decision-making methods

自注意力机制应用于智能体AC网络的MPDM_MADDPG_A模型大约在18 000轮左右开始收敛,收敛速度与MPDM_MADDPG相差不大,稳定后胜率保持在71.5%区间,与MPDM_MADDPG模型相比差距也并不大,尤其是在训练前期,其表现效果与MPDM_MADDPG模型几乎不相上下。主要原因在于前期训练主要引导各智能体前往目标区域以及路径规划和开辟,在训练中后期才侧重探索多智能体间的协同配合策略。而MPDM_MADDPG_B模型在20 000轮左右才开始收敛,稳定后胜率仅保持在67.9%左右,可以看出实验性能与MPDM_MADDPG模型相比差距更大,在训练前期存在较大波动,其主要原因在于去除自注意力机制后,特定状态获取回报函数采取平均分配的原则分配给每个智能体,而并不是所有智能体都对该回报的获取做出贡献,甚至有些智能体执行了错误的动作,却仍得到了回报,这会对其策略评估造成很大影响,从而削弱模型的实验性能。
(3)多战车协同行为策略复盘分析
通过对多战车突防决策方法的实验数据复盘分析,总结实验中出现的多智能体协同的行为策略。①如图16所示,智能体间进行自主编队,战车从初始点出发后,并未各自独立行动,而是以一定队形向目标区域行驶。这主要是由于战场环境中敌我武器数量存在很大差距,我方选择集中力量防止被各个击破。②如图17所示,由于战车只能攻击前方一定角度区域内的目标,智能体通常让一辆战车吸引敌方战车注意,另一辆战车绕至其后方进行攻击从而将其摧毁。③多智能体突防决策的目标为达到目标区域,即使我方战损较高,但只要有一辆战车到达目标区域,我方即获得胜利。如图18所示当敌方战车聚集时,智能体会使用声东击西战术,通过让其他战车前往该聚集地,将敌方战车引开后,让其他战车快速前往目标区域。
图16 多战车协同突防行为策略1

Fig.16 Multi-vehicle coordinated penetration behavior strategy 1

图17 多战车协同突防行为策略2

Fig.17 Multi-vehicle coordinated penetration behavior strategy 2

图18 多战车协同突防行为策略3

Fig.18 Multi-vehicle coordinated penetration behavior strategy 3

上述各策略表明多战车突防决策方法中智能体可以相互配合,协同作战。

4 结束语

针对多战车协同突防决策过程这一实际背景,本文主要提出了一种基于MADDPG算法的多无人战车协同突防决策方法。方法建立了多战车协同突防作战的MDP模型,针对多战车协同突防作战过程的特点,构造了智能体AC网络,在网络中引入自注意力机制以解决多智能体决策互相影响的问题,并通过自注意力机制计算权值分配回报函数,使得多智能体回报函数的分配更加“公平合理”。
最后设计多战车协同突防决策的场景模型和仿真环境,在仿真环境中对多战车突防决策方法进行了实验,实验结果证明该决策方法在一定程度上能实现多战车间的协同配合,自注意力机制应用于AC网络主要提升算法收敛后战车智能体的胜率,对于算法收敛速度提升不大;自注意力机制应用于回报函数既能提升算法收敛后战车智能体的胜率,也能提升算法收敛速度。同时也对实验数据复盘分析,总结分析了多辆战车在实验中学习到的互相配合的行为策略和战术。
[1]
周思羽, 吴文海, 张楠, 等. 自主空战机动决策方法综述[J]. 航空计算技术, 2012, 24(1): 27-31.

ZHOU S Y, WU W H, ZHANG N, et al. Overview of autonomous air combat maneuver decision[J]. Aeronautical Computing Technique, 2012, 24(1): 27-31.

[2]
FARIA VENDITTI F C, MARCONI ROCCO E, BERTACHINI DE ALMEIDA PRADO A F, et al. Gravity-assisted maneuvers applied in the multi-objective optimization of interplanetary trajectories[J]. Acta Astronautica, 2010, 67(9): 1 255-1 271.

[3]
何旭, 景小宁, 冯超. 基于蒙特卡洛树搜索方法的空战机动决策[J]. 空军工程大学学报(自然科学版), 2017, 18(5): 36-41.

HE X, JING X N, FENG C. Air combat maneuver decision based on MCTS method[J]. Journal of Air Force Engineering University(Natural Science Edition), 2017, 18(5): 36-41.

[4]
左家亮, 杨任农, 张滢, 等. 基于启发式强化学习的空战机动智能决策[J]. 航空学报, 2017, 38(10): 212-225.

ZUO J L, YANG R N, ZHANG Y, et al. Intelligent decision-making in air combat maneuvering based on heuristic reinforcement learning[J]. Acta Aeronautica et Astronautica Sinica, 2017, 38(10): 212-225.

[5]
殷宇维, 王凡, 吴奎, 等. 基于改进DDPG的空战行为决策方法[J]. 指挥控制与仿真, 2022, 44(1): 97-102.

DOI

YIN Y W, WANG F, WU K, et al. Research on air combat behavior decision-making method based on improved DDPG[J]. Command Control & Simulation, 2022, 44(1): 97-102.

[6]
陈希亮, 张永亮. 基于深度强化学习的陆军分队战术决策问题研究[J]. 军事运筹与系统工程, 2017, 31(3): 20-27, 57.

CHEN X L, ZHANG Y L. Research on tactical decision-making of army units based on deep reinforcement learning[J]. Military Operations Research and Systems Engineering, 2017, 31(3): 20-27, 57.

[7]
周来, 靳晓伟, 郑益凯. 基于深度强化学习的作战辅助决策研究[J]. 空天防御, 2018, 1(1): 31-35.

ZHOU L, JIN X W, ZHENG Y K. Research on operational decision support based on deep reinforcement learning[J]. Air & Space Defense, 2018, 1(1): 31-35.

[8]
段勇, 徐心和. 基于多智能体强化学习的多机器人协作策略研究[J]. 系统工程理论与实践, 2014, 34(5): 1 305-1 310.

DUAN Y, XU X H. Research on multi-robot cooperation strategy based on multi-agent reinforcement learning[J]. Systems Engineering-Theory & Practice, 2014, 34(5): 1 305-1 310.

[9]
TAN M. Multi-agent reinforcement learning: independent vs cooperative agents[C]// Machine Learning Proceedings 1993. Amsterdam:Elsevier, 1993: 330-337.

[10]
张明悦, 金芝, 刘坤. 合作-竞争混合型多智能体系统的虚拟遗憾优势自博弈方法[J]. 软件学报, 2024, 35(2): 739-757.

ZHANG M Y, JIN Z, LIU K. Counterfactual regret advantage-based self-play approach for mixed cooperative-competitive multi-agent systems[J]. Journal of Software, 2024, 35(2): 739-757.

[11]
FOERSTER J, NARDELLI N, FARQUHAR G, et al. Stabilising experience replay for deep multi-agent reinforcement learning[C]//Proceedings of the 34th International Conference on Machine Learning-Volume 70. Sydney 2017: 1 146-1 155.

[12]
杜威, 丁世飞, 郭丽丽, 等. 基于价值函数分解和通信学习机制的异构多智能体强化学习方法[J]. 计算机学报, 2024, 47(6): 1 304-1 322.

DU W, DING S F, GUO L L, et al. Heterogeneous multi-agent reinforcement learning method based on value function decomposition and communication learning mechanism[J]. Chinese Journal of Computers, 2024, 47(6):1304-1 322.

[13]
王尔申, 陈纪浩, 宏晨, 等. 引入反事实基线的无人机集群对抗博弈方法[J]. 中国科学(信息科学), 2024, 54(7): 1 775-1 792.

WANG E S, CHEN J H, HONG C, et al. UAV swarm adversarial game method with a counterfactual baseline[J]. Scientia Sinica (Informationis), 2024, 54(7): 1 775-1 792.

[14]
柯丰恺, 周唯倜, 赵大兴. 优化深度确定性策略梯度算法[J]. 计算机工程与应用, 2019, 55(7): 151-156, 233.

DOI

KE F K, ZHOU W T, ZHAO D X. Optimized deep deterministic policy gradient algorithm[J]. Computer Engineering and Applications, 2019, 55(7): 151-156, 233.

DOI

[15]
SUTTON R S, BARTO A G. Reinforcement learning: an introduction[J]. IEEE Transactions on Neural Networks, 9(5): 1 054.

[16]
宋江帆, 李金龙. 用于连续时间中策略梯度算法的动作稳定更新算法[J]. 计算机应用研究, 2023, 40(10): 2 928-2 932, 2 944.

SONG J F, LI J L. Action stable updating algorithm for policy gradient methods in continuous time[J]. Application Research of Computers, 2023, 40(10): 2 928-2 932, 2 944.

[17]
LILLICRAP T P, HUNT J J, PRITZEL A, et al. Continuous control with deep reinforcement learning[EB/OL]. 2015: 1509.02971. https://arxiv.org/abs/1509.02971v6.

[18]
宋恺涛, 陆建峰. 基于混合自注意力机制的神经机器翻译[J]. 中文信息学报, 2023, 37(9): 38-45.

SONG K T, LU J F. Hybrid self-attention network for neural machine translation[J]. Journal of Chinese Information Processing, 2023, 37(9): 38-45.

Outlines

/