中国科技核心期刊      中国指挥与控制学会会刊     军事装备类重点期刊
多模态信息融合

改进式MATD3算法及其对抗应用*

  • 王琨 1 ,
  • 赵英策 2 ,
  • 王光耀 2 ,
  • 李建勋 1
展开
  • 1 上海交通大学自动化系, 上海 200240
  • 2 沈阳飞机设计研究所, 沈阳 110035

王 琨(2001—),男,硕士研究生,研究方向为多智能体强化学习。

赵英策(1989—),男,硕士,高级工程师。

Copy editor: 张培培

收稿日期: 2023-10-04

  修回日期: 2023-10-16

  网络出版日期: 2024-10-10

基金资助

*国家自然科学基金(61673265)

国家重点研发计划(2020YFC1512203)

上海商用飞机系统工程联合研究基金(CASEF-2022-MQ01)

Improved MATD3 algorithm and its adversarial application

  • WANG Kun 1 ,
  • ZHAO Yingce 2 ,
  • WANG Guangyao 2 ,
  • LI Jianxun 1
Expand
  • 1 Shanghai Jiao Tong University Department of Automation, Shanghai 200240, China
  • 2 Shenyang Aircraft Design and Research Institute, Shenyang 110035, China

Received date: 2023-10-04

  Revised date: 2023-10-16

  Online published: 2024-10-10

摘要

提升多智能体训练效果一直是强化学习领域中的重点。以多智能体双延迟深度确定性策略梯度(MATD3)算法为基础,引入参数共享机制,进而提升训练效率。同时为缓解真实奖励与辅助奖励不一致的问题,借鉴课程学习思想,提出辅助奖励衰减因子,以保证训练初期的策略探索积极性与训练末期的奖励一致性。将所提出的改进式MATD3算法应用于战车博弈对抗,从而实现战车的智能决策,应用结果表明,智能战车的奖励曲线收敛稳定,且效果良好。同时就改进式算法与原始MATD3算法进行对比仿真,仿真结果验证了改进式算法能够有效提升收敛速度以及奖励收敛值。

本文引用格式

王琨 , 赵英策 , 王光耀 , 李建勋 . 改进式MATD3算法及其对抗应用*[J]. 指挥控制与仿真, 2024 , 46(5) : 77 -84 . DOI: 10.3969/j.issn.1673-3819.2024.05.011

Abstract

Improving the training effect of multi-agent has always been the focus in the field of reinforcement learning. Based on the multi-Agent twin-delay deep deterministic policy gradient (MATD3) algorithm, a parameter sharing mechanism is introduced to improve training efficiency. At the same time, in order to alleviate the inconsistency between real rewards and auxiliary rewards, drawing on the ideas of course learning, a decay factor for auxiliary rewards is proposed to ensure the motivation of policy exploration in the early training period and the reward consistency in the late training period. And the proposed improved MATD3 algorithm is applied to combat vehicle games to achieve intelligent decision-making of the vehicle. The application results show that the reward curve of the vehicle converges stably and the effect is good. Besides, the improved algorithm is compared with the original MATD3 algorithm, and the simulation results verify that the improved algorithm can effectively improve the effect of convergence and the convergence value of reward.

近年来,深度学习(Deep Learning, DL)技术快速发展,业界将其融入强化学习(Reinforcement Learning, RL)框架形成深度强化学习(Deep Reinforcement Learning, DRL)。深度强化学习能够有效解决马尔可夫决策过程(Markov Decision Process, MDP)中的序列决策问题,目前已在单智能体的决策方面取得了巨大的进展,在视频级的Atari游戏[1]、围棋Alpha Go[2]等领域均取得了成功。而现实中大多数应用涉及多个智能体,对多智能体强化学习算法的研究已逐渐增多,目前在多机器人控制[3-4]、多人游戏[5]、交通控制[6-7]、协同对抗方面[8-10]取得了一定进展。
Mnih等人将神经网络技术与强化学习结合提出了深度Q网络,采用目标网络和经验回放机制进行网络训练,将其应用于未经任何像素处理的Atari视频游戏上,达到了人类水平[1]。然而,该方法在处理高维观测空间时只能处理低维且离散的动作空间,并不适合许多具有高维连续动作空间的物理控制任务。Lillicrap等人将深度Q学习网络的思想融入连续动作领域,提出了深度确定性策略梯度(Deep Deterministic Policy Gradient, DDPG)[11]。该算法应用于连续动作空间,且在大多数任务中可以实现“端到端”的策略学习,属于免模型的演员-评论家(Actor-Critic, AC)算法[12]。但是DDPG算法仅针对单智能体强化学习,在多智能体强化学习中针对每个智能体只能单独地应用DDPG算法,随着训练进行,各智能体的策略都在发生变化,但对每个智能体而言,环境是非平稳的,会造成策略网络训练难以收敛。Lowe等人探索了多智能体在连续动作领域的深度强化学习方法,提出了多智能体深度确定性策略梯度算法(Multi-Agent Deep Deterministic Policy Gradient, MADDPG),该方法采用集中式训练分布式执行(Centralized Training and Distributed Execution, CTDE)的框架,在动作价值函数中考虑了其他主体的行动策略,策略网络则是完全独立的[13]。而DDPG和MADDPG都存在价值函数高估和次优策略的问题。Fujimoto等人提出了双延迟深度确定性策略梯度算法(Twin Delayed Deep Deterministic Policy Gradient, TD3),该方法是针对单智能体强化学习的DDPG算法的拓展,通过取两个Critic网络输出值之间的最小值来限制高估,并通过延迟策略更新进一步提高性能[14]。Zhang等人将TD3算法与MADDPG算法结合,提出了多智能体双延迟深度确定性策略梯度算法(Multi-Agent Twin Delayed Deep Deterministic Policy Gradient, MATD3),该算法能够有效降低高估误差和估计结果的方差[15]。但MATD3算法并未考虑辅助奖励与真实奖励不完全一致的问题,且在训练效率上并未进行优化操作。
本文在MATD3算法基础上进行改进,考虑多智能体存在同质的情况,根据同质性将多智能体分为若干个簇,每个簇共享动作价值网络以及策略网络的参数,从而有效提升训练效率,能够较好地适用于智能体数量庞大但同质现象较多的场景。同时,针对奖励稀疏的情景下辅助奖励与真实奖励不完全一致的问题,引入了辅助奖励衰减因子,在训练初期保证策略网络和动作价值网络能够得到较好的训练,而训练后期则逐步调整至与真实奖励相对应的收敛结果。在对MATD3算法进行以上两点改进后,选择智能战车博弈对抗场景进行仿真应用及分析,测试算法的收敛性能以及应用效果,随后,将所提出的改进算法与连续控制领域中的典型多智能体强化算法MATD3进行性能对比,验证改进算法的有效性。

1 算法基础

1.1 马尔可夫博弈

多智能体强化学习的主要难点在于所有智能体的策略都在不断更新,使得单一智能体的状态转移不再符合马尔可夫决策过程。本文针对多智能体强化学习,引入马尔可夫博弈(Markov Games, MG)对多智能体的状态转移进行描述,可视作马尔可夫决策过程的拓展形式[16]
针对含有N个智能体的环境,用状态集合S来描述所有智能体及环境可能所处的状态,用动作集合A1,…,AN描述各智能体可能采取的行动,用集合O1,…,ON表示各智能体的观测空间。本文是基于连续动作空间中的确定策略梯度算法进行仿真分析,故后续智能体策略均默认为确定性策略。每个智能体根据策略函数 μ ϕ i:OiaAi将观测值映射为要输出的动作,多智能体博弈环境将根据状态转移函数T:S×A1×…×AN得到新的状态。智能体Agenti会根据更新后的状态以及所采取的动作并通过奖励函数ri:S×AiaR获得奖励值,同时智能体会根据当前的环境得到观测值oi:SaOi
在多智能体强化学习中,任一个智能体Agenti的目的均为最大化带有折扣的总回报Ri= t = 0 Tγtri,t的期望值,其中,γ为奖励折扣因子。

1.2 MATD3算法

MATD3算法采用集中式训练、分布式执行的思想,在训练过程中引入额外的信息而在测试时不使用,从而缓解训练的不稳定性。
该算法的目的是通过训练得到针对每个智能体的最佳策略网络 μ ϕ i,使得各智能体的总回报期望值J(ϕi)=E[Ri]最大化。策略网络 μ ϕ i在演员-评论家框架中等价于演员网络,可通过策略梯度进行参数更新,针对第i个智能体的策略网络梯度如下:
ϕ iJ ϕ i= x , a ~ D ϕ i μ i ( o i ) a i Q θ i ( x , a 1 , , a N ) | a i = μ i ( o i )
式中, Q θ i x , a 1 , , a N=E[Rti|s,a1,…,aN]表示在状态s下各智能体输出相应动作后智能体Agenti的期望回报值,该网络被称为Critic网络或动作价值函数。
MATD3算法采用经验回放和目标网络两个技巧来提升网络学习的收敛性能。在式(1)中,经验回放缓存区Δ包含所有智能体的经验,并以元组的形式(x,x',a1,…,aN,r1,…,rN)进行储存。MATD3算法在上述算法基础上引入了双Critic网络,通过延迟策略更新的方法缓解Q值高估以及高方差的问题。针对智能体Agenti构建两个独立的Critic网络,以两个目标价值函数的Q值最小值来完成优化更新。各智能体的动作价值函数 Q θ i的训练是根据时序差分学习方法进行更新的,该方法是基于贝尔曼方程推导出的网络更新规则,其过程如下:
$\begin{array}{l} \mathcal{L}\left(\theta_{i, m}\right)=\mathbb{E}_{x, a, r, x^{\prime}}\left[\left(Q_{\theta_{i, m}}\left(x, a_{1}, \cdots, a_{N}\right)-y_{i}\right)^{2}\right] \\y_{i}=r_{i}+\gamma \min _{m=1,2} Q_{\theta_{i, m}}^{\prime}\left(x^{\prime}, a_{1}^{\prime}, \cdots, a_{N}^{\prime}\right) \end{array}$
MATD3算法根据单个智能体在相似状态动作下应该具有相似Q值的思想,对目标策略网络输出的动作添加随机噪声扰动,该噪声服从裁剪的高斯分布,形式如下:
$\begin{array}{c} a_{j}^{\prime}=\boldsymbol{\mu}_{j}^{\prime}\left(o_{j}^{\prime}\right)+\epsilon \\ \epsilon \sim \operatorname{clip}(\mathcal{N}(0, \sigma),-c, c) \end{array}$
式中,μ'是具有延迟参数的目标策略网络。
该算法对目标网络及策略网络的更新频率采用延迟方式,即每隔几步对上述网络进行更新,但每步均对Critic网络进行更新。
MATD3算法能够良好地处理多智能体连续动作控制问题,但并未针对多智能体的同质现象进行优化,且未对辅助奖励与真实奖励的不一致性进行分析。

2 MATD3算法的改进

为提升MATD3算法在训练过程中对历史经验数据的利用效率,加快训练速度,同时为缓解辅助奖励与真实奖励的不一致性,本文提出了以下两点改进措施:1)将深度学习中的网络参数共享机制引入针对多智能体强化学习的MATD3算法中;2)引入辅助奖励衰减因子,以保证在训练初期智能体探索驱动力足够,同时保证在训练末期奖励能够与真实奖励趋于一致。

2.1 辅助奖励衰减因子

在强化学习领域中,真实奖励的稀疏性往往会给智能体网络训练带来极大的困难[17],通常在原有的奖励机制上引入辅助奖励进行奖励重塑,保证新的奖励机制是稠密的,该方法能帮助智能体策略网络快速地向较为合理的方向进行训练,但辅助奖励的设计往往难以和真实奖励完全保持一致,在此基础上所训练出的策略网络必然与最优策略方案有一定的偏差。
为缓解辅助奖励与真实奖励不一致的问题,本文引入了辅助奖励衰减因子,在训练初期,辅助奖励的介入帮助智能体快速训练出较为有效的策略,而在训练末期则是以接近真实奖励机制来修正前期训练的策略网络,使其收敛至真正的策略解。由于MATD3算法采用了经验回放缓冲这一机制,本文将真实奖励rg、辅助奖励ra分开进行经验储存,并在每一步采样时,依据当前的辅助奖励衰减因子取值,重新计算整体奖励r。辅助奖励衰减因子λ(p)可表示如下:
λ(p)=e-αp/P
式中,p表示当前训练所处的回合数,P是总训练回合数,α是控制衰减的程度。随着当前回合数逐步加大,该衰减因子的数值会不断减小,辅助奖励对整体奖励的影响也会随之减小,使得辅助奖励在算法中的设计更加合理。基于该衰减因子,整体奖励R可由下式计算得出
r=rg+λ(p)ra
历史经验数据中的整体奖励也会随着当前训练回合数的改变而发生变化,并非是一个固定值。本文只在每一步小批量采样时,对采样的经验数据重新进行整体奖励计算,而不会在每回合对所有经验数据进行扫描以计算整体奖励,从而节省计算资源,避免出现对经验数据多次扫描计算却未应用的情况。

2.2 参数共享机制

在多智能体强化学习的应用场景中,智能体经常具有同质性,即智能体的数量多而种类不多,对于同质的智能体可以共享网络结构,从该类含智能体的总经验数据进行训练,无须为每个智能体单独建立Critic网络和Actor网络。该种方法能够有效提升训练效率,适用于大规模多智能体强化学习的应用。本文将含N个多智能体的强化学习系统划分为K个簇(K£N),每个簇中的智能体均为同质的,各智能体的观测空间和行动空间均完全一致且初始性能设置相同,以及在环境中的表现作用一致。关于在环境中的作用一致,可进行如下阐释:针对第k簇中的第i个智能体Agentk,i以及第j个智能体Agentk,j,互换这两个智能体的状态量,并不改变最佳均衡意义下其他智能体(包括其他簇)的动作执行输出。即对于某一个智能体,只关注各智能体所在簇并不关注其具体编号。此时,第k簇的Critic网络可表示为 Q θ k s k , i , s k , j i , s l k , a k , i , a k , j i , a l k,其中sk,i表示自身智能体的状态量,sk,ji表示同簇中其他智能体的状态量, slk= s l l k表示其他簇中智能体的状态量。
针对MATD3算法,两个Critic网络均进行参数共享,且对应的目标网络也进行共享操作,网络的训练将在同一簇产生的所有经验数据上进行训练,添加参数共享机制后的Critic网络损失函数为:
相应的Actor策略网络则由确定策略梯度更新,其改进后的策略梯度如下:
式中,M表示样本数量,Nk表示第k簇所含的智能体个数。

2.3 改进式MATD3算法流程

本文就以上两点对MATD3算法进行改进,形成带有网络参数共享机制的MATD3集成算法,且在该方法中使用了辅助奖励衰减的技巧,将改进后的算法命名为参数共享式辅助奖励衰减的多智能体双延迟深度确定性算法,记为PSARD-MATD3算法,其算法框架如图1所示。
图1 PSARD-MATD3算法框图

Fig.1 Framework of PSARD-MATD3

PSARD-MATD3算法的具体流程如下所示。
其中,上述算法流程的更新公式中省略了两种网络的参数下标。

3 PSARD-MATD3算法的仿真应用

3.1 智能战车集群对抗描述

本文在智能战车集群对抗环境中进行PSARD-MATD3算法的应用,将智能战车集群对抗建模为马尔可夫博弈(Markov Game),对抗双方分为红方(己方)和蓝方(敌方),分别用集合$\mathcal{R}$和$\mathcal{B}$表示。在训练过程中引入自对弈思想,敌我双方均为智能体,敌方为己方虚拟出的智能战车,双方基于智能策略的相互博弈,可提升己方策略的有效性与竞争力。为保证训练的可实现性,本文规定战车的运动范围有界,同时,假设各战车及环境的状态量均是完全可观测的。

3.2 智能战车集群对抗建模

3.2.1 对抗环境设置

双方战车均在矩形界限内运动,战车的运动模型基于单车运动情景进行建模,战车的对抗运动是基于马尔科夫博弈进行仿真分析的,故其时序运动模型可表示为
x t + 1 = v t · Δ t · c o s ϕ t + x t y t + 1 = v t · Δ t · s i n ϕ t + y t v t + 1 = v t + a t Δ t ϕ t + 1 = ϕ t + ω t Δ t
其中,(x,y)表示无人战车的坐标,v表示其切向速度, ϕ表示方向角,(a,ω)分别表示战车的切向加速度和横摆角速度,在实际应用中对应战车的油门及方向舵的控制量。

3.2.2 状态空间及动作空间设计

环境以及各战车的态势信息均是可观测的,对于任一战车而言,其状态空间等价于观测空间。状态量包括各战车的坐标、速度、方向角及战损状态,其中,战损状态量可表示为二进制量。对于某一战车Agent,其状态空间主要包括自身态势信息So、友方态势信息Sf和敌方态势信息Se,则该智能体的状态空间可描述为
S=So×Sf×Se
t时刻Agent的状态量可表示为
So(t)= S o ( t ) S f ( t ) S e ( t )
So(t)为4维向量,Sf(t)为4(nr-1)维向量。Se(t)为4nb维向量。战车Agenti自身的态势信息量 S o i(t)表示为
[ x t i y t i v t i ϕ t i]
通过控制战车的操纵量切向速度 v t i和横摆角速度 ω t i可实现连续动作输出。本文在仿真时应用了改进式MATD3算法所生成策略输出的动作取值,具有连续性。战车Agentit时刻的动作输出量可表示为
Ai(t)=[ a t i ω t i]
为满足实际对抗的要求,本文在实际仿真中对状态空间与动作空间取值均加以限制,动作空间的限制依靠策略网络末端的tanh层加上缩放因子实现,状态空间的限制则是依靠裁剪操作以及奖励函数中的惩罚项实现。

3.2.3 仿真设置及奖励函数设计

当己方智能战车Agent处于敌方智能战车Agentb,j的扇形攻击区或者敌方战车顶部进入己方战车的车身区域,均视为该战车被敌方击毁,反之亦然,敌方(蓝方)战车击毁己方(红方)战车的两种情形及扇形攻击区如图2所示。若战车Agentr,j和Agentb,j按照上述规则同时击毁对方,或者发生相互碰撞但均未进入对方攻击区且车顶均未进入对方车身区域,判定双方同归于尽,即相互击毁。
图2 蓝方战车击毁红方战车情形示例

Fig.2 Scenarios of the blue Agent destroying the red Agent

为探究智能战车在合作模式下的行动策略并验证PSARD-MATD3算法的有效性,本文基于2v1情形进行战车对抗仿真及奖励函数设计,研究红方2辆战车在无战损情况下合作击毁蓝方单一战车的智能策略,即任一辆红方战车被击毁而蓝方依旧存活时则判定红方失败,反之,若红方在2辆战车存活的情况下击毁蓝方,则判定红方胜利。
参照强化学习领域中奖励函数设计的普适性原则,将其分为两个部分:全局奖励函数和辅助奖励函数。全局奖励函数对应于博弈对抗中的真正奖励,而辅助奖励函数则是应对全局奖励函数存在稀疏问题的措施,避免策略网络无法收敛。
1)全局奖励函数rg
全局奖励函数是针对情景中战车博弈对抗最终结果而设计的,对应真实存在的奖励情形,其具体奖励值与所发生的情景关系如表1所示。
表1 全局奖励函数设计

Tab.1 Design of global reward function

情景 奖励值
己方胜利 10
己方失败 -10
自身越出边界 -20
2)辅助奖励函数ra
全局奖励函数对应的情景在博弈对抗过程中出现的频率较低,仅依靠全局奖励函数,会带来奖励稀疏的问题,造成网络训练困难甚至无法收敛,而引入强化学习中普遍采用的辅助奖励,则可保证大多数情形下智能体均能得到非零的奖励。在智能战车博弈对抗训练中,辅助奖励设计分为以下三个部分:
r a = r a 1 + r a 2 r a 1 = 0.05 ( D e - | D s | ) r a 2 = m i n ( - 0.1 1 - d i s t b o u n d d i s t s a f e , 0 )
式中,|De|和 D s分别指己方虚拟攻击区中敌方战车的数量和敌方虚拟攻击区中己方战车的数量。其中,虚拟攻击区仅在训练阶段使用,战车的实际物理控制中并不存在虚拟攻击区这一概念,故在执行阶段并不涉及此概念。该虚拟量的引入是为了在训练阶段使得智能战车获得的奖励更加稠密,而不是只在击毁那一瞬间获得全局奖励。当敌方战车位于己方的虚拟攻击区时,己方战车会获得一个很小的正奖励,但是它可能并没有进入己方射程,即实际的扇形攻击区,此时己方战车无法击毁敌方战车,故所设定的虚拟攻击区范围应大于实际的扇形攻击区。distbounddistsafe分别指相对于运动边界的最短距离和安全距离。其中,最短距离distbound是指战车与矩形边界四条边的距离最小值;而安全距离distsafe则仅在训练阶段辅助应用,并非真实存在的,其目的是让战车在抵达边界之前就能获得负的奖惩值,使得战车在学习避免越界时的奖惩值更加稠密。

3.3 仿真结果分析

将PSARD-MATD3算法应用于2v1战车对抗模式,初始性能以及算法参数如表2所示。
表2 算法参数及战车性能设置

Tab.2 Performance parameters and algorithm parameters of unmanned combat vehicles

参数 取值
训练回合数 60 000
测试回合数 1 000
每回合最大步数 200
Critic网络学习率 1×10-3
Actor网络学习率 1×10-3
经验缓冲区大小 100 000
批采样大小 256
软更新参数 0.01
未来奖励折扣因子 0.95
延迟更新周期 2
辅助奖励衰减因子 4
速度范围/(m/s) [2.0,10.0]
加速度范围/(m/s2) [-10.0,10.0]
角速度范围/(rad/s2) [-π/3,π/3]
运动界限/m2 25×20
攻击区半径/m 3
虚拟攻击区半径/m 6
攻击角度 π/3
通过PSARD-MATD3算法训练后,敌我双方智能战车的全局奖励波动曲线如图3所示。
图3 平均回合奖励曲线

Fig.3 Mean episode reward curve

各战车的奖励均值在前期快速变化,30 000回合之后逐渐稳定。由于红方两辆战车使用参数共享机制,其平均回合奖励曲线几乎一致。训练之后的战车出界次数明显少于训练初期的出界次数,其统计情况如图4所示。
图4 出界次数统计曲线

Fig.4 Statistical curve of out-of-bounds times

图4可知,各战车每千回合的出界次数在10 000回合前快速下降随后趋于稳定,稳定值接近于0。即通过训练,战车能够有效学习到在对抗过程中避免出界的策略。同时,验证了10 000回合以前双方的奖励快速变化源于对避免出界这一策略的成功学习,之后则主要是进行双方对抗策略的学习,类似于一个零和博弈的过程。
训练完毕后的策略在测试过程中,出现了一些典型的合作对抗局面,比如一辆战车进行引诱对抗,另一辆战车伺机行动击毁敌方,其运动轨迹如图5所示。
图5 典型的合作对抗过程示例

Fig.5 Typical example of cooperative adversarial processes

图5可知,红方2号战车低速行动,引诱蓝方战车与其对抗,在蓝方战车逐渐靠近并准备与其对抗时,红方2号战车快速摆脱对抗,红方1号战车则伺机前插击毁蓝方战车。以红方1号战车为例,其在该组对抗过程中的控制量输出如图6所示。
图6 典型过程示例的控制量输出

Fig.6 Output of control variables for the typical process

图6可得,红方1号战车前期减速至最低速度并保持不变,后期友方战车成功引诱敌方战车,开始不断调整加速度和角速度,进而对敌方战车进行打击。

3.4 算法性能对比分析

为验证所改进算法的有效性,本文将其与原始MATD3算法在战车博弈对抗中的效果进行对比分析。在蓝方战车的仿真设置条件不变的基础上,对红方战车采用原始MATD3算法设置并进行仿真,将仿真所得的红方战车奖励曲线与本文所采用的PSARD-MATD3算法下的奖励曲线进行对比。由于红方战车有多辆且奖励曲线相似,故仅列出红方1号战车的奖励曲线对比结果,如图7所示。
图7 PSARD-MATD3与MATD3算法奖励曲线对比

Fig.7 Comparison of reward curves between PSARD-MATD3 and MATD3 algorithms

图7可知,本文所提出的改进算法是合理的,能够帮助智能体高效利用历史数据,提高了训练效率,提升了真实奖励的收敛水平值。

4 结束语

本文针对多智能体强化学习中的同质现象,在MATD3算法基础上引入网络参数共享机制,提升网络训练效率以及经验历史数据的利用率,能够有效应用于智能体数量多但同质现象明显的系统,这类系统在工业现实应用中较为常见,例如物流中心智能机器人集群调度等。同时基于课程学习中由易到难的思想,引入辅助奖励衰减因子,在训练初期,由于辅助奖励的存在,保证了奖励的稠密性,即所实现的任务是相对容易的,能够帮助动作价值网络和策略网络得到较好的训练,在训练末期,奖励总值回归于真实奖励,促使策略收敛到与真实目标一致。最后,在智能战车集群对抗中验证了所改进算法的有效性,该算法能够高效应用于具有同质现象的连续动作领域的多智能体动作决策系统。未来的可能研究方向主要包括离散连续动作混合的多智能体强化学习、硬约束限制的安全强化学习。
[1]
MNIH V, KAVUKCUOGLU K, SILVER D, et al. Human-level control through deep reinforcement learning[J]. Nature, 2015, 518(7540): 529-533.

[2]
SILVER D, HUANG A, MADDISON C J, et al. Mastering the game of Go with deep neural networks and tree search[J]. Nature, 2016, 529(7587): 484-489.

[3]
MATIGNON L, JEANPIERRE L, MOUADDIB A I. Coordinated multi-robot exploration under communication constraints using decentralized Markov decision processes[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2021, 26(1): 2 017-2 023.

[4]
郝冠捷, 姚尧, 常鹏, 等. 基于深度强化学习的分布式UUV集群任务分配算法[J]. 指挥控制与仿真, 2023, 45(3): 25-33.

DOI

HAO G J, YAOY, CHANG P. Distributed UUV cluster task allocation algorithm based on deep reinforcement learning[J]. Command Control & Simulation, 2023, 45(3): 25-33.

[5]
PENG P, WEN Y, YANG Y D, et al. Multiagent bidirectionally-coordinated nets: emergence of human-level coordination in learning to play StarCraft combat games[EB/OL]. 2017: arXiv: 1703.10069. https://arxiv.org/abs/1703.10069.pdf.

[6]
WU C, KREIDIEH A, PARVATE K, et al. Flow: architecture and benchmarking for reinforcement learning in traffic control[EB/OL]. arXiv preprint arXiv:1710.05465, 2017.

[7]
于泽, 宁念文, 郑燕柳, 等. 深度强化学习驱动的智能交通信号控制策略综述[J]. 计算机科学, 2023, 50(4): 159-171.

DOI

YU Z, NING N W, ZHENG Y L, et al. Review of intelligent traffic signal control strategies driven by deep reinforcement learning[J]. Computer Science, 2023, 50(4): 159-171.

DOI

[8]
周佳炜, 孙宇祥, 薛宇凡, 等. 融合先验知识的异构多智能体强化学习算法研究[J]. 指挥控制与仿真, 2023, 45(3): 99-107.

DOI

ZHOU J W, SUN Y X, XUE Y F, et al. Heterogeneous multi-Agent reinforcement learning algorithm integrating prior-knowledge[J]. Command Control & Simulation, 2023, 45(3): 99-107.

[9]
蔺向阳, 邢清华, 邢怀玺. 基于MADDPG的无人机群空中拦截作战决策研究[J]. 计算机科学, 2023, 50(S1): 98-104.

LIN X Y, XING Q H, XING H X. Study on intelligent decision making of aerial interception combat of UAV group based on MADDPG[J]. Computer Science, 2023, 50(S1): 98-104.

[10]
张栋, 唐俊林, 熊威, 等. 基于MATD3的视距内协同空战机动决策[J]. 航空兵器, 2023, 30(3): 20-28.

ZHANG D, TANG J L, XIONG W, et al. Maneuver decision of cooperative air combat within visual range based on MATD3[J]. Aero Weaponry, 2023, 30(3): 20-28.

[11]
LILLICRAP T P, HUNT J J, PRITZEL A, et al. Continuous control with deep reinforcement learning[EB/OL]. 2015: arXiv: 1509.02971. https://arxiv.org/abs/1509.02971.pdf.

[12]
SUTTON R S, MCALLESTER D, SINGH S, et al. Policy gradient methods for reinforcement learning with function approximation[C]// Proceedings of the 12th International Conference on Neural Information Processing Systems. Denver, 1999: 1 057-1 063.

[13]
LOWE R, WU Y, TAMAR A, et al. Multi-Agent actor-critic for mixed cooperative-competitive environments[C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach, 2017: 6 382-6 393.

[14]
FUJIMOTO S, VAN HOOF H, MEGER D. Addressing function approximation error in actor-critic methods[EB/OL]. 2018: arXiv: 1802.09477. https://arxiv.org/abs/1802.09477.pdf.

[15]
ZHANG F J, LI J, LI Z. A TD3-based multi-agent deep reinforcement learning method in mixed cooperation-competition environment[J]. Neuro Computing, 2020, 411: 206-215.

[16]
LITTMAN M L. Markov games as a framework for multi-agent reinforcement learning[C]// Machine Learning Proceedings 1994. Amsterdam:Elsevier, 1994: 157-163.

[17]
LADOSZ P, WENG L L, KIM M, et al. Exploration in deep reinforcement learning: a survey[J]. Information Fusion, 2022, 85: 1-22.

文章导航

/