中国科技核心期刊      中国指挥与控制学会会刊     军事装备类重点期刊
无人作战

基于SAC算法的无人机自主空战决策算法*

  • 李波 1 ,
  • 白双霞 1 ,
  • 孟波波 2 ,
  • 梁诗阳 3 ,
  • 李曾琳 1
展开
  • 1.西北工业大学电子信息学院, 陕西 西安 710129
  • 2.西安现代控制技术研究所, 陕西 西安 710065
  • 3.洛阳电光设备研究所, 河南 洛阳 471000

李波(1978—),男,博士,副教授,研究方向为智能指挥与控制、深度强化学习和不确定信息处理。

白双霞(1999—),女,硕士研究生。

Copy editor: 许韦韦

收稿日期: 2022-04-29

  修回日期: 2022-05-11

  网络出版日期: 2022-10-20

基金资助

*国家自然科学基金(62003267)

Autonomous Air Combat Decision-making Algorithm of UAVs Based on SAC algorithm

  • LI Bo 1 ,
  • BAI Shuang-xia 1 ,
  • MENG Bo-bo 2 ,
  • LIANG Shi-yang 3 ,
  • LI Zeng-lin 1
Expand
  • 1. School of Electronics and Information, Northwestern Polytechnical University, Xi’an 710129
  • 2. Xi’an Modern Control Technology Research Institute, Xi’an 710065
  • 3. AVIC Luoyang Electro-optical Equipment Research Institute, Luoyang 471000, China

Received date: 2022-04-29

  Revised date: 2022-05-11

  Online published: 2022-10-20

摘要

针对无人机在空战过程中的自主决策问题,以无人机1v1攻防为背景提出了无人机近距空战模型。采用Markov决策过程建立了无人机自主机动模型,提出基于Soft Actor Critic (SAC) 算法的无人机自主空战决策算法,以无人机空战态势数据作为输入,输出无人机机动指令,使得无人机通过完成指定指令,率先锁定敌方无人机并抢先攻击。最后,设计仿真实验,通过对比双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic Policy Gradient Algorithm, TD3)算法,验证了基于SAC算法的无人机空战决策算法在增强策略探索的情况下,学习速度大幅度提高,使无人机在任意初始态势下主动占据优势,并成功打击目标,有效提高了无人机在空战决策过程中的自主性。

本文引用格式

李波 , 白双霞 , 孟波波 , 梁诗阳 , 李曾琳 . 基于SAC算法的无人机自主空战决策算法*[J]. 指挥控制与仿真, 2022 , 44(5) : 24 -30 . DOI: 10.3969/j.issn.1673-3819.2022.05.005

Abstract

Aiming at the autonomous decision-making of unmanned aerial vehicles (UAVs) in the process of air combat, a UAV short-range air combat model is proposed based on the background of UAV 1v1 attack and defense. The UAV autonomous maneuver model is established by Markov decision process, and autonomous air combat decision-making algorithm of UAVs based on the Soft Actor Critic (SAC) algorithm is proposed to output UAV maneuver commands with UAV air combat situation data as input, which enables the UAV to first lock on the enemy UAV and attack first by completing the specified command. Finally, the simulation experiments are designed. By comparing with the Twin Delayed Deep Deterministic policy gradient algorithm (TD3), it is verified that the air combat decision-making algorithm of UAVs based on SAC algorithm can improve the learning efficiency under the condition of enhanced policy exploration, and make the UAV dominate any initial situation and successfully destroy the enemy, which effectively improves the autonomy of UAV in the process of air combat decision.

现代战争中,无人机作为作战主力的一部分,在情报、监视和侦察等领域具有突出优势,但无人机不能自主决策的特点限制了其作战能力。因此,无人机空战过程智能化是实现未来空战的关键途径[1]。近年来,各种控制理论为无人机在空战过程中的自主决策提供了解决方案,其中包括直觉模糊、博弈论[2]、动态贝叶斯网络[3]、影响图[4]等方法。但是直觉模糊、博弈论、影响图等方法需要对空战过程进行精确建模,而动态贝叶斯网络难以适应未知情况,这些都导致无人机在空战过程中的自主性大为降低,难以满足未来无人机智能化作战需求。
目前,以机器学习为代表的人工智能技术在众多领域大放光芒。其中,深度学习[5-6]可以在庞大的数据中发现规则并用于预测和分类,是特征表示与学习二合一的算法。但在数据不足的情况下,深度学习模型效果差强人意。强化学习[7-10]是机器学习的范式之一,智能体在与环境的交互过程中学习策略,智能体选择的动作可以令自身达到最优状态,达到决策目标。
深度强化学习[11-13]将二者的优势结合,具有解析状态数据实现自主决策的能力,比较接近人类决策的思维方式,十分适用于实现空战的智能化过程。但现有的基于深度强化学习的无人机空战研究以确定性强化学习策略[12-13]为主,较少考虑非确定性策略。而非确定性策略将探索和改进集成到一个策略中,适用于解决需要大范围探索优秀经验的问题,在解决无人机空战过程中的自主决策问题方面具有较大优势。
考虑实际的作战空间较大,比较考验强化学习算法的探索能力,本文引入非确定性策略Soft Actor Critic(SAC)算法来实现作战中的无人机自主机动决策过程。首先,以无人机1v1攻防为背景建立了无人机近距空战模型;然后基于Markov决策过程建立了无人机自主机动模型,提出基于SAC的无人机空战决策算法;最后,设计仿真实验,验证该方法在解决无人机在不同空战态势下的机动决策问题上的有效性和优越性,并与双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic policy gradient algorithm, TD3)算法进行了比较。

1 无人机近距空战模型

1.1 问题描述

本文研究的问题以无人机1v1攻防为背景,在给定作战环境和初始作战条件的情况下,己方无人机能通过当前战场环境及作战双方相对态势信息进行自主决策,使得己方无人机可以率先锁定敌方无人机,使敌方无人机进入己方攻击区并成功打击。通过深度强化学习的方法,完成对机动决策的求解。
整个作战过程主要包括三部分:作战态势接收模块、机动决策模块和运动模块。三个模块的交互过程如图1所示。其中,作战态势接收模块可依据战场环境计算相应态势,并提供给机动决策模块用于决策;机动决策模块采用深度强化学习方法生成己方机动控制量,并提供给运动模块控制己方机动;运动模块通过无人机运动方程更新己方位置和姿态信息,实现机动,并更新战场环境,提供给作战态势接收模块更新态势信息,进入迭代。整个过程的目标是使无人机在作战过程中找到最佳机动方式,可以快速、有效地打击敌机。
图1 作战模块交互过程
为研究方便做出如下假设:
1)战场环境完全可见,不考虑探测、干扰等环节;
2)达到毁伤条件时认为目标被击毁;
3)敌我态势信息透明。

1.2 无人机近距空战模型

以无人机1v1攻防为背景建立无人机近距空战模型,如图2所示。红色无人机为己方无人机,蓝色无人机为敌方无人机。OXYZ坐标系为无人机所在的三维空间坐标系,其中,原点O表示作战区域中心,X轴正方向为正北,Z轴正方向为正东,Y轴正方向为垂直向上。
图2 无人机近距空战模型
图2所示,我方无人机的速度矢量为 V r,位置矢量为 R r=(Xr,Yr,Zr),俯仰角为θr,航向角为φr。敌方无人机的速度矢量为 V b,位置矢量为 R b=(Xb,Yb,Zb),俯仰角为θb,航向角为φb。我方无人机与敌方无人机之间的位置矢量为 D ,由我方指向敌方,大小为d。设我方速度矢量 V r与敌我距离矢量 D 的夹角为相对方位角q。因此,敌我相对态势可用 D dq进行描述:
D = R b- R r
d=‖ D 2
q=arccos(( D × V r)/(‖ D 2·‖ V r2))
无人机的作战能力受到空空导弹性能的约束。空空导弹的发射区范围由空空导弹的最大射击距离Dmax、最小射击距离Dmin及最大离轴发射角qmax共同决定[14]。假设无人机的火控系统探测到目标,获得目标的位置、速度等数据,计算出导弹射击诸元,并且将数据对导弹装载后,导弹才满足发射条件。因此,空空导弹需要一定的目标锁定时间tmin才可以发射。设敌方连续处于我方导弹发射区的时间为tin,当满足式(4)时,认为我方导弹发射成功,且敌方被我方导弹摧毁,我方作战成功。
D m i n < d < D m a x q < q m a x t i n > t m i n

2 基于深度强化学习算法的无人机空战决策算法

当作战区域较大时,策略难以通过常规探索获得环境提供的正面反馈,使其优化变得尤其困难。当算法未能探索到可能存在的最优解时,策略无法改进,容易陷入局部最优。因此,增强策略的探索极为重要。TD3算法[15]的探索策略使用了高斯噪声,即在当前学习到的策略基础上添加随机无向噪声,在最优动作的邻域内随机探索,称为抖动策略。然而,由于抖动策略未考虑每次探索动作的价值,存在数据利用率低、时间长等不足。针对这一问题,相关学者提出了SAC算法[16]。因此,本文基于SAC算法研究无人机空战决策问题。

2.1 基于Markov决策过程的无人机机动模型

无人机在空战过程中的自主机动模型使用Markov决策过程[17]构建,它由一个五元组<S,A,P,r,γ>构成。在空战过程中,无人机与环境交互获取状态信息stS,根据状态信息st执行动作atA,并获得奖励r(st,at),同时,环境状态更新为st+1S。假设这是一个理想模型,环境的动态特性P(·|(s,a))=1是确定的[18],即不考虑风力和地球自转和公转的作用以及油耗对无人机质量的影响。γ∈[0,1]为未来回报折扣因子。无人机寻找策略π,使得其从初始状态出发,到完成作战任务时,获得最大累计奖励 0 γtr(st,at)| a t = π ( s t )
1)无人机运动模型
在考察无人机运动时,将其视为质点。依据积分原理,建立具有三自由度的无人机运动方程,即
X t + 1 = X t + v t + 1 · c o s ( θ t + 1 ) · c o s ( φ t + 1 ) · d t Y t + 1 = Y t + v t + 1 · s i n ( θ t + 1 ) · d t Z t + 1 = Z t + v t + 1 · c o s ( θ t + 1 ) · s i n ( φ t + 1 ) · d t v t + 1 = v t + d v · d t θ t + 1 = θ t + d θ · d t φ t + 1 = φ t + d φ · d t
其中,XYZ分别表示我方无人机在三个坐标轴的位置分量,v表示己方无人机的速度,θ表示己方无人机的俯仰角,φ表示己方无人机的航向角,d表示敌我双方的距离,q表示相对方位角,dt表示积分步长,dv表示加速度大小,表示俯仰角变化量,表示航向角变化量。
2)无人机飞行动作空间
无人机运动方程表明,通过在有效积分步长内对dv进行设定,无人机可在三维空间实现一系列的机动过程。因此,可以得到无人机飞行动作空间,即
A={dv,,}
3)无人机飞行状态空间
根据己方无人机状态量以及敌方无人机状态量计算战场态势信息作为无人机的飞行状态空间,即
S={X,Y,Z,v,θ,φ,d,q}
4)作战效果评价奖励函数
根据式(4),将奖励划分为距离奖励和角度奖励,得到相应的奖励函数,即:
r(s,a)=u1·r1+u2·r2
r 1 = - q / 180 + r ' r 2 = - d / ( 5 · D m a x ) + r
r'= 3 ,   q < q m a x 0 ,  
r″= 3 ,   D m i n < d < D m a x - 1 ,   d < D m i n
其中,r'r″是达到限制条件时的稀疏奖励,当无人机探索到一个较好的策略时获得激励,保留已探索到的策略。u1u2为距离奖励与角度奖励的权重。本文设定u1=u2=0.5。

2.2 基于SAC算法的无人机空战决策算法

图3所示为基于SAC算法的无人机空战决策框架,SAC算法通过神经网络来实现时,共包含一个策略网络πθ、两个Soft Q网络 Q φ 1 Q φ 2、两个Target Soft Q网络 Q φ ' 1 Q φ ' 2。其中,θφ1φ2φ'1,φ'2均表示对应网络的参数。
图3 基于SAC算法的空战决策框架
框架流程如下:
1)作战态势接收模块将从战场环境中获取的态势信息进行处理,将其作为智能体的状态stS传递到SAC算法模块。
2)策略网络输出动作atA。动作的产生由策略网络πθ和噪声τ共同决定。其中,策略网络πθ根据输入状态st,计算动作的均值m和方差S,并从正态分布采样得到t,最后输出动作atA,如下所示:
μ,σ=πθ(st)
at=N(μ,σ2)=μ+σ*τ
可得出
at=tanh(at)
3)运动模块执行动作at,战场状态信息更新为st+1∈S,并反馈奖励rt=r(st,at)。同时将状态转移量(st,at,rt,st+1)存储到经验存储模块,用于SAC算法中网络的更新。
智能体的策略在优化过程中,要求同时最大化环境反馈值r和策略的探索程度。SAC算法添加了最大熵模型来实现策略随机化,使输出的每个动作的概率尽可能分散,而非集中在同一个动作上,以增强策略的探索。策略服从某一分布,策略πθ(·|st)的随机性由策略的熵H(πϑ(·|st))衡量。为了最大化策略的熵,SAC算法将熵引入期望函数中。SAC算法的累计奖励为
J(π)= t = 0 T E ( s t , a t ) ~ ρ π[r(st,at)+αH(π(·|st))]
其中,α是熵正则化系数,表示熵在奖励中所占比重,控制着策略的随机性。当α越大,策略的探索性越强,H(π(·|st))为策略的熵。因此可得SAC算法的最优策略 π m a x *
π m a x *=argmaxπ t = 0 T E ( s t , a t ) ~ ρ π[r(st,at)+αH(π(·|st))]
SAC算法中的Soft Q函数[19]定义为
Qsoft(s,a)= E ( s t , a t ) t = 0 γ t r ( s t , a t ) + α t = 1 γ t H ( π ( · | s t ) )=r(st,at)+γ E ( s t + 1 , a t + 1 )[Qsoft(st+1,at+1)-αlog(π(at+1|st+1))]
在更新策略网络时,策略网络的损失函数Jπ(θ)为
Jπ(θ)= E s t ~ R , a t ~ π θ[logπθ(at|st)-Qφ(st,at)]
在更新Q网络的参数时,损失函数JQ(φ)为
JQi)= E ( s t , a t , s t + 1 ) ~ R , a t + 1 ~ π θ[ 1 2 Q φ i(st,at)-(r(st,at)+γ(Qφ'(st+1,at+1)-αlogπθ(at+1|st+1)))2]
为了防止Q 值的过估计,目标最优 Q 值定义为
Qφ'(st+1,at+1)=min( Q φ 1 '(st+1,at+1), Q φ 2 '(st+1,at+1))
算法训练过程中,前期需要大量的探索来保证策略获取不同价值的样本并进行优化;后期稳定后,需要相对小的探索来使得策略趋于稳定。当设定α为固定值时,不能同时满足前期和后期的探索需求。所以,SAC算法中的α需要调整和优化,使得策略的熵在奖励函数中占据不同的权重。
α的自适应损失函数为
J(α)=E[-αlogπt(att)-αH0]
其中,H0为目标熵值。

3 仿真验证与分析

本节通过设计仿真实验,实现了基于SAC算法的无人机空战决策算法,并与TD3算法进行了对比。实验时,红方为采用深度强化学习算法的智能体,蓝方为非智能体,做固定机动。实验过程中,分别统计两种算法的训练结果,从是否作战成功、作战成功步长、最大奖励、奖励收敛回合等方面评估机动决策任务的完成情况并对比两种算法的优劣。其中,作战成功代表在作战过程中我方击败敌方;作战成功步长代表我方击败敌方所消耗的时间,限制无人机最大作战步长为600。

3.1 不同作战环境下训练的效果对比

为比较TD3算法与SAC算法的训练效果,本文设计了三个不同的作战环境,不同的作战环境中红蓝双方具有不同的初始态势。作战环境设置如表1所示。
表1 红蓝双方初始态势设置
环境编号 初始相对距离/km 初始相对方位角/°
1 12.64 47.35
2 12.25 170.30
3 14.91 96.63
环境1中红蓝双方初始距离与初始相对方位角较为适中,环境2中双方初始相对方位角较大,环境3中双方的初始距离较大。在不同作战环境下对两种算法进行训练,并比较训练结果。两种算法的训练结果如表2所示。
表2 算法训练结果
环境编号 环境1 环境2 环境3
算法 TD3 SAC TD3 SAC TD3 SAC
是否作战成功
作战成功步长 316 314 506 492 × 444
最大奖励 888.13 890 436.09 458.58 × 658.53
奖励收敛回合 1 100 400 1 400 1 300 × 650
表2可以看出,在环境1、2中,两种算法均能完成训练,实现无人机机动决策过程,使得红方无人机成功锁定敌方无人机并完成打击任务。相较于TD3算法,SAC算法的收敛速度更快,并且可以获得更高的奖励值,能够通过更少的步长完成任务。在环境3中,由于初始环境较为苛刻,TD3算法未能完成训练和作战任务。SAC算法较好地完成了训练,并且成功完成任务。
为了更好地评估算法收敛速度,在实验过程中记录每一回合我方获得的总奖励值,并以此判定奖励值是否收敛。图4分别显示了三种环境下,2000个训练回合中SAC算法和TD3算法总奖励值的变化曲线。
图4 奖励值曲线对比图
图4表明,SAC算法和TD3算法最终均能收敛,但SAC算法的收敛速度更快,且最终收敛到更高的奖励值。从实验结果来看,受初始距离和初始相对方位角的影响,TD3算法未能在每个环境中全部完成训练,而SAC算法均能在有限回合内快速收敛并完成任务。SAC算法相对于TD3算法具有更快的训练速度与更好的训练结果,表明基于SAC算法的无人机空战决策算法的探索性能更强,更易于探索到有意义的经验,当被局限于局部最优解时也能够持续探索并最终实现全局收敛。

3.2 单一作战环境测试

在环境2中,对两种算法进行对比测试,比较红方作战轨迹、飞行姿态(俯仰角、航向角和速度),以及红蓝双方相对距离与相对方位角变化过程,进一步体现算法的差异。环境2中红蓝双方的初始信息如表3所示。
表3 环境2中作战双方的初始信息
X坐标
/km
Y坐标
/km
Z坐标
/km
俯仰
角/°
航向
角/°
初始距
离/km
初始相对
方位角/°
红方 -2 3 4 2 120 12.247 170.30
蓝方 5 4 -6 1 -30
图5展示了不同平面内,无人机接近敌方并满足发射条件的作战过程。图5 1)显示无人机在水平面的作战轨迹。从图中可以看出,作战开始后,无攻击能力的蓝方做随机运动,相对于红方无人机的相对方位角与距离较大。红方为了令蓝方进入自身的导弹发射区,首先快速转换航向,缩减相对方位角,对蓝方呈尾后攻击态势。之后红方快速调整速度,缩短与蓝方之间的距离。
图5 无人机作战轨迹对比图
图5 2)显示作战时无人机的高度变化。图中可以看出,在红蓝双方具有高度差,且蓝方高于红方的初始态势下,基于SAC算法的红方在运动过程中逐渐减小高度差异,并最终与敌方保持在同一高度,而基于TD3算法的红方并没有消除高度差异,始终处于蓝方高度之下。
两种算法的决策过程均为首先改变方向,减小相对方位角,然后缩短距离,最终均满足导弹发射条件。然而,对比图5 1)与图5 2)可以看出,基于SAC算法的红方中前期转弯半径更小,更快地减小了相对方位角,且最终满足发射条件时,相对方位角更小,更接近敌方。同时,基于SAC算法做出机动决策的红方消除了高度差异,更符合真实作战中作战方需避免处于敌方高度以下,从而无法掌握主动权的情况。
综合对比作战轨迹,相对于TD3算法,SAC算法产生的机动策略能令红方更快地满足发射条件,实现成功作战,且更具备真实作战的合理性。
图6可以看出,相对于TD3算法,在0~180步内,SAC算法令无人机的相对方位角减小更快,距离增加较少。在180步以后,SAC算法中作战距离缩减更快,最终早于14个步长满足导弹发射条件。此外,实现目标锁定时,SAC算法的敌我距离和相对方位角更小,更有利于对目标的摧毁。
图6 敌我相对态势变化曲线
为了体现无人机在飞行过程中的姿态变化,记录了无人机在作战过程中的俯仰角、航向角和速度变化,如图7所示。
图7 红方无人机姿态变化曲线
图7 1)可以看出,在SAC算法中,无人机的俯仰角范围为(-5°,25°),在前期有大幅度上升过程,说明无人机通过机动消除了高度差异。而TD3算法中,无人机俯仰角范围为(-7°,7°),且均在0°附近大幅度波动,因此未能消除高度差异。图7 2)可以看出,在作战前期,两种算法中无人机的航向角变化量大小相同。但在后期,基于TD3算法决策的无人机航向角更小,使得其与目标的航向偏差更大,因此相对方位角更大。图7 3)可以看出,在作战前期,红方转变航向角,基于SAC算法决策的无人机的速度更小,无人机转弯半径更小。在作战中期,两种算法中的无人机均增大速度来缩减距离,直至无人机达到最大速度。在作战后期,敌我相对距离仍大于导弹的最大发射距离,TD3算法却令无人机逐渐减速,这导致其作战距离减小更慢,增大了两种算法的作战距离差异。
经分析可知,两种算法的俯仰角、航向角、速度变化符合真实作战,且与作战轨迹相符合。其中,基于SAC的无人机空战决策算法对俯仰角、航向角和速度具有更好的控制能力,使得作战效果更加优异。

4 结束语

本文针对1v1空战过程中的无人机自主决策问题,采用Markov决策过程建立了无人机自主机动模型,设计了无人机飞行状态空间、动作空间和奖励函数,提出了基于SAC的无人机空战决策算法,并建立了对应的作战环境,进行仿真验证。仿真结果表明,本算法可实现无人机在空战环境中的自主决策过程,实现对敌方无人机的率先锁定和攻击。并且从仿真结果可以看出,相较于TD3算法,本算法训练所需时间更短,成功率更高,能更好地控制无人机的飞行姿态,使无人机的飞行过程更加符合真实作战场景。
[1]
黄长强. 未来空战过程智能化关键技术研究[J]. 航空兵器, 2019, 26(1): 15-23.

[2]
李世豪, 丁勇, 高振龙. 基于直觉模糊博弈的无人机空战机动决策[J]. 系统工程与电子技术, 2019, 41(5):1063-1070.

[3]
孟光磊, 罗元强, 梁宵, 等. 基于动态贝叶斯网络的空战决策方法[J]. 指挥控制与仿真, 2017, 39(3):49-54.

DOI

[4]
刘正敏, 昂亮, 姜长生, 等. 多级影响图在无人机群协同空战机动决策中的应用[J]. 电光与控制, 2010, 17(10):10-13,78.

[5]
Li B, LIANG S, CHEN D, et al. A Decision-Making Method for Air Combat Maneuver Based on Hybrid Deep Learning Network[J]. Chinese Journal of Electronics, 2022, 31(1): 107-115.

[6]
Jin He, Yong Ding, Zhenlong Gao. A Stealthy Engagement Maneuvering Strategy of UAV Based on Double Deep Q Network[J]. Electronics Optics & Control, 2020, 27(7):52-57.

[7]
孙楚, 赵辉, 王渊, 等. 基于强化学习的无人机自主机动决策方法[J]. 火力与指挥控制, 2019, 44(4): 142-149.

[8]
毛梦月, 张安, 周鼎, 等. 基于机动预测的强化学习无人机空中格斗研究[J]. 电光与控制, 2019, 26(2): 5-10.

[9]
张强, 杨任农, 俞利新, 等. 基于Q-network强化学习的超视距空战机动决策[J]. 空军工程大学学报(自然科学版), 2018, 19(6): 8-14.

[10]
Minglang C, Haiwen D, Zhenglei W, et al. Maneuvering Decision in Short Range Air Combat for Unmanned Combat Aerial Vehicles[C]// Shenyang China:2018 Chinese Control And Decision Conference (CCDC), IEEE, 2018: 1783-1788.

[11]
吴宜珈, 赖俊, 陈希亮, 等. 强化学习算法在超视距空战辅助决策上的应用研究[J]. 航空兵器, 2021, 28(2):55-61.

[12]
殷宇维, 王凡, 吴奎, 等. 基于改进DDPG的空战行为决策方法[J]. 指挥控制与仿真, 2022, 44(1):97-102.

DOI

[13]
李波, 越凯强, 甘志刚, 等. 基于MADDPG的多无人机协同任务决策[J]. 宇航学报, 2021, 42(6):757-765.

[14]
萧保生. 空空导弹的攻击区与截获区[J]. 航空学报, 1992, 13(2): 60-64.

[15]
Fujimoto S, Hoof H, Meger D. Addressing Function Approximation Error in Actor-critic Methods[C]//Stockholm Sweden:International Conference on Machine Learning, PMLR, 2018: 1587-1596.

[16]
Haarnoja T, Zhou A, Abbeel P, et al. Soft Actor-critic: Off-policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor[C]//Stockholm Sweden:International Conference on Machine Learning, PMLR, 2018: 1861-1870.

[17]
Masson W, Ranchod P, Konidaris G. Reinforcement Learning with Parameterized Actions[C]// Arizona,USA: Thirtieth AAAI Conference on Artificial Intelligence, 2016:1934-1940.

[18]
郭万春, 解武杰, 尹晖, 等. 基于改进双延迟深度确定性策略梯度法的无人机反追击机动决策[J]. 空军工程大学学报(自然科学版), 2021, 22(4):15-21.

[19]
Haarnoja T, Tang H, Abbeel P, et al. Reinforcement Learning with Deep Energy-Based Policies[C]//Sydney:Proceedings of the 34th International Conference on Machine Learning, 2017: 1352-1361.

文章导航

/