中国科技核心期刊      中国指挥与控制学会会刊     军事装备类重点期刊
Weapon & Information System

Research of intelligent air combat model based on reinforcement learning

  • LI Jiatong 1 ,
  • LU Junyuan 1 ,
  • WANG Guangyao 2 ,
  • LI Jianxun 1
Expand
  • 1 Shanghai Jiao Tong University, Shanghai 200240
  • 2 Shenyang Aircraft Design &Research Institute, Shenyang 110031, China

Received date: 2023-06-20

  Revised date: 2023-07-18

  Online published: 2024-07-29

Abstract

The development in artificial intelligence has dramatically changed all industries, among which AI-assisted air combat is a representative case of success. An Intelligent air combat model that consists of the attainment of samples and a decision-making model is constructed in connection with air combat simulator. Considering the characteristics of air combat continuous states and actions, DQN algorithm is selected as the model of intelligent air combat by comparison among several algorithms. Meanwhile, the AI network is trained interactively with AI enemies in the air combat simulation game DCS World, resulting in a model that is able to manipulate aircraft to a degree and many cases of air combat, by analyzing which a collection of winning, losing and dual samples is derived. The result of simulation indicates that the Intelligent air combat model has certain ability to generate strategic samples and enrich tactics in air combat environments.

Cite this article

LI Jiatong , LU Junyuan , WANG Guangyao , LI Jianxun . Research of intelligent air combat model based on reinforcement learning[J]. Command Control and Simulation, 2024 , 46(4) : 35 -43 . DOI: 10.3969/j.issn.1673-3819.2024.04.005

在信息化高度发达的时代,空军的作战模式相较发生了有巨大变化[1]。在无人飞行器领域,各国军方都高度重视无人机的发展,力图以最小的资源代价制造足够的军事威慑,降低作战成本,提升作战效果[2]。同时,随着空军战机的不断发展和迭代,产生了诸多问题,需要对战机进行无人化改装。一方面,飞行员的训练成本不断提高,RAND的一项报告显示[3],当前美国空军训练一名合格飞行员的成本在560万美元到超过一千万美元之间;另一方面,老旧机型的保养和处置需要更多开销。因此,战机的无人化智能化研究有重大现实价值。
在智能空战模型的算法研究方面,已有从基于博弈论的方法到基于优化理论的方法到机器学习方法的迭代与发展[4]
其中,基于博弈论的方法是基于差分方程与飞行员的先验知识,计算复杂度高且对于复杂环境的适用度不佳。
基于优化理论的方法包括近似动态规划、粒子群优化等算法,虽然效率高、仿真精度高,但难以适用离散问题,且收敛速度慢。
基于机器学习的方法包括神经网络和强化学习。其中,神经网络通过大量空战样本学习,鲁棒性高,但难以适用于经验知识作战场景,且精度较低。而强化学习算法可以实现实时决策和网络自主学习,可以适用于多智能体复杂对抗场景。
目前,针对智能空战模型训练的强化学习算法主要有DQN、DDPG等。DQN算法存在只适用于离散空间的问题,而DDPG算法复杂度高,难以收敛。本文采用Double DQN算法,创建自定义gym环境与DCS游戏交互,探索了与游戏交互的空战智能化模型训练途径,并产生了能够说明模型效果的案例;在奖励函数和动作空间的设置上,根据对现实空战的了解加以改进;在拓展性上,编写开发了针对DCS游戏的函数库,可支持进一步研究与开发。

1 相关工作

Pin Liu等[5]采用DQN算法,结合根据动力学方程编写的UCAV空战模型环境进行训练,但由于DQN算法只适用于离散动作空间,在基本动力学环境中的训练结果难以满足空战模拟的实际要求。本文虽然同样采用DQN算法,但同时采用了高拟真程度的模拟环境。在基本相同的模拟初始条件(即双方高度差为固定范围内的随机值,相向而行)下,本文实例中的双方飞机都展现出大攻角机动等仅存在于高拟真度环境中的机动模式和运动模式,故在一定程度上更能满足空战模拟的实际要求。
张婷玉等[6]采用DQN算法和三位运动学模型,实现了当敌方运动模式固定时的智能空战决策。本文在参考其实现方法和动作空间的基础上,将DQN算法应用于敌方同样为智能体的拟真模拟环境,在一定程度上提升了模型对环境的应变能力。
Qiming Yang等[7]采用DDPG算法,在二维运动学模型的环境中训练。虽然DDPG算法对于连续空间的适用性具有一定优势,但是二维空间的模拟仿真精度较差,适用性不佳。本文虽然采用了离散的动作空间,但通过PID控制算法,使得飞机在训练中能够完成基本机动,并根据敌方情况实时调整动作,能够在一定程度上作为连续动作空间的近似。
近年来,针对智能空战模型的强化学习算法研究有许多进展。如单圣哲等[8]采用近端策略优化算法和基本运动学的MARL模拟环境;张建东等[9]采用结合了DDPG、SAC、Option-Critic算法的分层强化学习算法和基本二维运动学的模拟环境。本文在未来可以参考更新的算法,结合DCS游戏环境进行实验。

2 面向双机近距空战的智能对抗模型

本章主要介绍基于Double DQN算法的空战动作策略选择模型。具体而言,决策策略根据强化学习的传统步骤由智能体(Agent)与环境互动获取当前状态,将得到的状态通过深度网络后获得相应的动作策略以及动作奖励值,同时获得应用策略后的环境状态。在这个过程中不断优化策略选择网络,以期获得更好的动作策略、更高的奖励值。

2.1 飞机质心运动动力学模型

构建飞机的运动模型为
  x t = v c o s γ c o s φ y t = v c o s γ s i n φ z t = v s i n γ v t = g ( η x - s i n γ ) γ t = g v ( η z c o s μ - c o s γ ) φ t = g η z s i n μ v c o s γ
式中:υ表示飞行器的速度;xyz为飞行器质心在惯性坐标系中的坐标值;γϕμ为飞行器的俯仰角、航向角和滚转角;ηx为切向过载,表示飞行器在速度方向上受到的推力与自身重力的比值;ηz为法向过载,提供飞行器所需的升力。本文所选取飞行器机动模型的控制量为ηxηzμ,即最终神经网络输出的动作对应量。

2.2 动作决策算法

本节主要介绍了基于DQN的双机近距空战对抗决策算法。DQN算法[10-11]是一种经典的深度强化学习算法,它在传统表格Q学习的基础上使用深度神经网络预测当前状态各动作对应奖励值,实现了从离散状态、离散动作到连续状态、连续动作的转变。
Q学习的价值函数更新规则为[10]
$Q(s,a)\longleftarrow Q(s,a) +\\\alpha[ r + \gamma \max_{a^{\prime}\in A}Q( s^{\prime},a^{\prime} ) - Q( s,a ) ]$
上述公式利用时序差分(Temporal Difference, TD)进行状态-动作奖励值更新,DQN算法中的损失函数定义为
$\mathcal{L}=\min _{w} \frac{1}{2 N} \sum_{i=1}^{N}\left[Q_{w}\left(s_{i}, a_{i}\right)-\left(r_{i}+\gamma \max _{a^{\prime}} Q_{w}\left(s_{i}^{\prime}, a^{\prime}\right)\right)\right]^{2}$
DQN算法只需要通过优化该损失函数调整网络参数即可逼近贝尔曼最优方程。需要注意的是,DQN算法在实践中还采用了目标网络缓解神经网络训练不稳定问题;采取经验回访池存储在整个过程中采样得到的多个数据,每次进行梯度下降时从池中取出小批次样本进行更新,此时取出的样本满足独立性假设;DQN算法还采取$\epsilon$-贪心策略对环境进行充分探索。
本文使用在原DQN算法上改进的Double DQN算法[12]。原DQN算法的优化目标可以写为r+γ Q w -(s',a'),动作选取依赖目标网络 Q w -,这种做法的缺陷是会对得到的Q值进行过高的估计,同时还会导致正向误差累积,降低算法在动作空间较大的任务中的表现。Double DQN算法将优化目标改写为r+γ Q w -(s', a r g   m a x a 'Qw(s',a')),即动作的选取依靠训练网络 Qw,修改后的算法与原DQN算法相比,有效缓解了Q值估计过高的问题。
考虑实际硬件性能约束,同时参考文献[6]中的实验设计,神经网络采取3层隐藏层,每层节点数为128,激活函数选取Leaky ReLU缓解训练过程中梯度消失的问题。神经网络的输入为当前从环境中采样的状态,输出为选取的动作。将得到的动作作用于当前状态即可得到环境奖励和下一状态。本文所采用的DQN网络结构如图1所示。
图1 DQN网络结构

Fig.1 The structure of DQN network

动作空间选取中一些技术动作需要两段式的控制量才能完成。例如动作2爬升首先要令[ηx,ηz,μ]=[0.2,3,0],1 s后改变控制量为[ηx,ηz,μ]=[0,1,0]。本文所采用的动作空间的序号与加速度如表1所示。
表1 动作空间

Tab.1 Action space

动作编号 机动动作 切向过载ηx 法相过载ηz 滚转角μ
a0 加速 0.5 1 0
a1 减速 -0.3 1 0
a2 爬升 0.2,0 3,1 0,0
a3 俯冲 0.2,0 -1,1 0,0
a4 右转 0.2,0.2 1,1.3 -0.1,0
a5 左转 0.2,0.2 1,1.3 0.1,0
a6 向右翻滚 0.1,0 1,1 -0.1,0
a7 向左翻滚 0.1,0 1,1 0.1,0
a8 定常 0 1 0

2.3 战机姿态评估与奖励

双机近距空战场景如图2所示,红蓝双方飞行器在视距范围内进行对抗,使用不具有跟踪功能的火炮。红机的位置矢量表示为rR,速度矢量表示为vR。蓝机的位置矢量表示为rB, 速度矢量表示为vB。以红机为参考,从红机指向蓝机的位置矢量为rBR=rB-rR,蓝机相对于红机的速度矢量为vBR=vB-vR。双机近距空战示意图如图2所示。
图2 双机近距空战示意图[13]

Fig.2 Sketch of the one-to-one fighters’ close-range air combat

对于双机近距空战结果的影响因素主要有三个方面:一是战机间本身的性能差异如机体性能和火炮装备差异;二是战斗场景的影响,如地形、海拔对于飞机性能发挥的干扰,在现实中还需要考虑驾驶员的心理、生理因素;三是战机间的相对姿态,主要包括速度、角度、高度、距离四方面因素[1]。本文主要研究对象为战机间的相对姿态,通过数学表达式对任意时刻的战机位置做量化评估,以期利用收集到的数据引导我方战机在对抗中向着优势姿态方向移动。下面给出在DCS平台使用的红机相对于蓝机的态势优势评估函数[2],这些函数作为深度强化学习中使用的环境奖励函数,即获得四元组(si,ai,ri,si+1)中的ri=r+rfinal+rpunish

2.3.1 辅助奖励函数[6,14]

1)角度优势函数
首先定义红方攻击角,公式如下:
φ R a t t=arccos v R · r R B v R r R B
蓝方逃逸角公式如下:
φ B e s c=arccos v B · r R B v B r R B
可以通过以上公式定义红机的角度优势评估函数:
fϕ=1- | φ R a t t | + | φ B e s c | 2 π
当红机相对于蓝机处于理想尾追状态时,此式(3)值为1,反之当红机角度劣势时式(3)值为0。
2)速度优势函数
在多个参考文献中均设置速度优势函数为值域为[0,1]间的函数,在实验过程中发现这样容易导致飞机失速下坠导致对抗失败,根据实际情况将该函数调整为
fv= 0             v < v m i n 0.4 v m i n v v m i n o p t 1 v m i n o p t < v v m a x o p t 1 - v - v m a x o p t v m a x v > v m a x o p t
其中,vminvmax为飞行器在对抗中的最低速度和极限速度, v m i n o p y , v m a x o p t为最优速度区间。在本实验中vmin=200, v m i n o p t=300, v m a x o p t=500。
3)距离优势函数
距离优势函数与飞行器武器射程密切相关,当目标在我机武器射程范围之内时,距离优势函数较大;距离越远,距离优势越小。本文设置距离优势函数为
fd= 1       R R w e - ( R - R w ) 2 2 σ 2 R > R w
其中,σ为标准差,可以根据具体环境进行调节。
4)高度优势函数
飞行器的高度在空战中具有重要地位,在双机对抗中占据较高的高度有利于姿态调整和空间位置选择,同时可以利用重力势能获得更高的飞行速率。以下所定义的高度优势函数主要考虑的是飞行过程中的相对高度差,而在实际飞行器对抗中绝对高度也需要纳入考虑之中。
fh= e - ( Δ h - h m i n ) 2 2 ( h m a x - h m i n ) 2   Δ h > h m i n 1 h m i n Δ h h m a x e - ( Δ h - h m a x ) 2 2 ( h m a x - h m i n ) 2 Δ h > h m a x
其中,Δh=hR-hB为两机高度差,[hmin,hmax]为最佳攻击高度差区间。
5)能量优势函数
能量优势函数考虑飞行器所具有的总机械能(即动能和势能之和),在实际空战中具有更高能量的飞行器拥有更高的速度或者更高的高度,相当于对速度和高度增加的另一层约束。
E=mgh+ 1 2mv2
fe= 1 E R > E B 0 E R < E B
参考文献[6]中奖励函数设置,将位置奖励函数设置为以上五个函数凸组合,即
f=wϕfϕ+wdfd+wvfv+whfh+wefe
加权和系数满足
wϕ+wd+wv+wh+we=1,wϕ,wd,wv,wh,we≥0
在不同空战阶段各个因素的影响程度不同,因此,要根据对抗阶段适时修改各个权重大小。在两机距离较远时,首要任务是接近敌方,让对方进入我方的射程范围之内,因此,在巡敌阶段速度和距离因素所占比重较大;而在双方战机距离较近时,合适的攻击姿态对于对抗的结果更重要,因此,此时高度和角度优势函数所占比重高。在本文实验过程中设置当R>2 000时,wϕ=0.1,wR=0.3,wv=0.3,wh=0.2,we=0.1;当R≤2 000时,wϕ=0.25,wR=0.1,wv=0.1,wh=0.25,we=0.3。
通过辅助奖励函数获得的奖励值为
r= f + 5   f > b f a f b f - 6 f < a
其中,[a,b]为0—1间可调节的阈值参数,可根据实际情况选择。

2.3.2 最终奖励函数

最终奖励函数反映了对抗的结果,函数如下
rfinal= 10     0   o r - 10  
当一方飞机被破坏或到达最大行动步数时对局结束,飞机被破坏的情况有多种,在本文中只考虑飞行器高度过低坠毁以及某一方飞机进入另一方的攻击圆锥范围内的情况。

2.3.3 环境惩罚函数

根据实际的对局情况调整环境惩罚函数,本文选择距离惩罚函数以及速度惩罚函数,将多个惩罚函数相加得到rpunish

3 样本集获取

在训练样本集生成的过程中,以游戏内AI自行击落与坠毁作为判断胜负的标准,若一方全部飞机被击落,则一方落败;若出现超时、逃跑等其他情况则记为平局。将己方AI水平设置为最高,敌方AI水平为低于己方的随机值,从而得到正样本较多,负样本较少,平局样本较少的样本集。同时,通过缩短每次对战的限时,防止出现意外情况,如燃油、弹药耗尽,因而只产生了极少数的无效样本。综合来看,本文得到了较多正样本,较少负样本,较少平局样本,极少无效样本的训练样本集,样本获取具有有效性与平衡性。

3.1 游戏内设定

3.1.1 2对2环境设定

通过游戏内自带的任务编辑器,可以编写所需的训练环境。本文中我方飞机选用F-16CM bl.50,敌方飞机选用Su-27。
在2对2的环境设定中,将双方飞机的所有挂载去除,仅仅留下机炮作为唯一攻击手段。出生点相聚8 n mile左右(为一般BFM开始遭遇的距离)。通过玩家社区自发创作的MIST任务编辑器函数库实现了离散高度出生,双方出生高度分别为4 000~10 000 m(步长1 000 m)的离散值。在方向和地形上尚未做离散随机设定,方向上各个方向效果上完全等同;而地形上只需要更改所有飞机出生点位置于所需地形即可,可以很方便地做几种地形的样本集。在飞机水平设置上,一方设置为王牌,另一方为随机,以使得测试结果大多为一方胜利。当某一方两架飞机全部被击落则判定结束。
另外,为了防止游戏内AI在逃跑,在战机出生点周围设置了250 000 m的探测圈,一旦飞出交战区立刻判定阵亡。并设置任务时长为7 min,防止因燃油不足或弹药不足导致结果无意义。
此环境为AI对阵AI,可以从中获取2对2的交战数据集。

3.1.2 1对1环境设定

通过大量2对2的案例发现,在2对2空战的前期,往往会演变为2场1对1,当其中一场分出胜负后,演化为2对1乃至1对1。故1对1是2对2空战的重要组成部分,也是本文DQN网络训练所用的环境。
在1对1环境设定中,由网络操纵F-16C战斗机作战。双方出生在海面上,初始高度为4 000 m~10 000 m(步长1 000 m)的离散值。双方携带中等燃油量,以保证机动能力。双方出生点间距4 n mile,面朝对方。当一方进入另一方机头的攻击范围圆锥判定区内或一方坠毁时,游戏中止。

3.2 游戏与网络的交互

本文中所搭建的游戏与网络的交互模式如图3所示。
图3 程序通信交互示意图

Fig.3 Diagram of program communication interaction

3.2.1 服务器模块

服务器模块基于Lua和Python都有的socket库进行tcp串口通信。服务器使用DCS游戏附带的开发API,设置轴输入量,读取特定飞机每时每刻的数据,并转换为设置好的信息格式,发送至网络。

3.2.2 调整函数模块

根据网络设定好的8个动作,空间的目标纵向加速度、切向加速度(过载)与滚转率,调整函数读取游戏内当前的纵向加速度、切向加速度与滚转率,使用PID控制输入值,使得飞机通过游戏内俯仰轴、滚转轴和油门轴输入达到目标加速度值。
PID控制的算法与参数(表2)为:
Error=taeget value-current value
Input=kp·Error+ki·∫Error dt+kd d E r r o r d t
其中,PID函数的参数通过游戏内多次试验获得。在试验过程中,将游戏与网络断开,使用编写好的子线程手动改变3个目标加速度值,观察飞机达到目标加速度值的效率和震荡情况,以实现高速、准确控制。
表2 PID控制参数[15]

Tab.2 PID control parameters

dt=0.2 s kp ki kd
俯仰轴 0.8 0.12 -0.11
滚转轴 1.6 0.5 -0.3
油门 7 1.3 -0.8

3.2.3 信息处理模块

信息处理函数主要用来控制游戏任务的开始与结束。从网络处获得开始(结束)指令后,信息处理模块通过Pyautogui、Pydirectinput和OpenCV库对屏幕进行识别,判断所在界面,并进行设定好的操作,以开始(结束)游戏。经测试,信息处理模块在1600*900分辨率下运行良好,能够实现自动控制游戏开始与结束的功能。
其中,Pyautogui库是Python语言中知名的模拟键盘、鼠标操作的工具库,而Pydirectinput为Pyautogui的拓展,使得Pyautogui能够控制DCS游戏。

3.2.4 打包函数模块

打包函数将游戏内所有飞机的名称、机型、6DOF坐标、三向速度等信息处理为二进制消息发送给网络。并在网络端解包为所需的张量格式。本文的网络使用14维向量,其中,第1至7个数据为玩家的6DOF与速度数据,第8至第14个数据为敌机的6DOF与速度数据。

3.3 训练样本集产生

3.3.1 利用Tacview软件的导出

Tacview是一款通用的飞行分析工具,可以提供包括可视化、数据导出、数据分析、作图等功能。Tacview与DCS游戏通过脚本关联,能够自动保存DCS游戏任务中的所有数据记录。Tacview提供了有关开发API,对DCS游戏提供的功能进行了打包和优化,故数据导出部分利用Tacview软件展开。数据导出部分流程图如图4所示。
图4 Tacview数据导出

Fig.4 Export data with Tacview

3.3.2 批量导出模块

Tacview仅提供了导出单个任务文件遥测数据的功能,可以生成规定间隔时刻的几乎所有的飞行数据。而模型训练需要大量的试验,产生大量任务文件,需要批量输出的模块。
本文开发了Tacview软件的插件,可以在Tacview软件中启用插件,实现将指定文件夹内的所有任务文件处理并生成csv文件,以供进一步调用。
针对每个样本生成数个csv文件:其中每架飞机都会有一个文件记录每个时刻的数据;有一个文件专门记录飞行日志,可以从中获取开火、命中、坠毁等事件的具体时刻,从而判断胜负;对所有任务整体生成一个文件,记录每个任务的胜负情况。

3.3.3 读取模块

本文编写了完备的读取模块,可以针对上文中导出的包含csv文件的文件夹进行处理,在Python中生成特定格式的字典储存所有数据。
同时,模块提供了飞行日志打印、可视化、读取某一特定数据、获取某一任务的胜负情况、获取任务总数等等功能,可以极为方便地获取所需数据并进行处理,以供网络学习。模块包含了完备的注释文档与报错机制,使用简单。

3.3.4 训练样本集的有效性分析

虽然DQN算法不直接使用样本集进行学习,但样本集数据可以应用于其他网络的训练。本研究在前期结合数据尝试了CQL算法[16],但效果不佳,才转入DQN算法。事实上,可以将数据模拟环境,通过其他较为简单高效的网络训练出有初步效果的模型,再转入DQN算法训练,从而减少训练初期的试错时间,提高整体效率。
样本集数据的导出也可以用于查看DQN网络对战情况,做到可视化,直观体现训练结果。
本文中的针对DCS游戏的样本集导出模块还可供进一步结合DCS游戏的研究使用,减少环境重复配置。

4 智能决策模型的训练

整个算法的流程图如图5所示。
图5 Double DQN算法流程

Fig.5 Double DQN algorithm process

模型使用Pytorch实现。在实践过程中采取的相比较均方误差损失函数表现更好的平滑L1损失函数,可以有效缓解梯度消失和对于异常值的敏感。其余参数选择如表3所示。
表3 模型训练参数

Tab.3 Parameters for module training

参数 取值 参数 取值
C 100 Batch 16
γ 0.99 $\epsilon$start 0.9
$\epsilon$end 0.05 τ 0.005
LR 0.000 1
其中,C表示经验回放池大小,Batch为每次选取批量个数,γ为TD更新权重,$\epsilon$start为开始时随机选择动作的概率,$\epsilon$end为最终选择随机算法的概率,τ为每个时间步后对于目标网络的软更新权重,网络学习率取1e-4,优化算法选择AdamW算法。在多轮迭代之后损失函数有较大下降。
训练中损失值与迭代次数的曲线如图6所示。
图6 损失值变化

Fig.6 Change in loss value

由于计算设备性能限制以及模型设计可能存在的纰漏,目前来说模型的实战性能还有待提升。

5 基于智能决策模型的双机对策仿真分析

5.1 案例分析

5.1.1 案例1-对头攻击

案例1示意图如图7所示。在案例1中,双方出生在同一高度,相向而行。敌机出生后进行浅俯冲,我方随即进行浅俯冲,选择简单对头攻击,敌机先进入我方命中判定区,我方获胜。在现实中,对头是极为常见的交战场景,对头战术中双方危险都大,经常伤敌一千,自损八百。
图7 对头攻击

Fig.7 Head-to-head attack

5.1.2 案例2-滚筒对头

案例2模型展现了一种高级的对头战术,即滚筒对头。双方仍出生在同一高度,相向而行。我方主动进入滚筒,使得敌机无法预知我方行经路线与机头指向。最后我方在较近距离扭转机头,将敌机放入命中判定区内,获得胜利。案例2示意图如图8所示。
图8 滚筒对头攻击

Fig.8 Roll-to-head attack

5.1.3 案例3-俯冲攻击

此案例中,双方出生在不同高度,敌机在我方前下方。我方将机头下压,俯冲攻击,最终获得胜利。
通过这些案例可以看出,模型在某些情况下具有部分对战能力,能够与游戏内AI敌机(并非设定好的固定程序)进行对战。效果优于随机行为。案例3示意图如图910所示。
图9 俯冲攻击-1

Fig.9 Swoop attack-1

图10 俯冲攻击-2

Fig.10 Swoop attack-2

6 结束语

本文基于改进的Double DQN算法,结合所获得的样本数据搭建了智能空战决策模型,仿真结果验证了该模型的有效性。
本文较已有文献研究有以下创新:1)采用与环境(即飞行模拟游戏)动态交互的DQN算法,并针对现实空战的经验改进奖励函数和动作空间,模型适用性更高;2)引入了高拟真度的飞行游戏,使得模型和案例具有较高的现实参考价值;3)开发了针对DCS游戏的操作库,可供未来基于DQN乃至更多算法的进一步训练开发。
未来研究方向:因为计算设备性能限制及模型设计可能存在的纰漏,目前模型的实战性能还有待提升。例如可以采取更深更多的网络进行训练,提高拟合能力。在奖励函数上,可以参考现实空战的经验,加入更多根植于实际经验的奖励函数,恰当反映实时状态。在数据集上,可以加入历史数据,如飞机在前几秒内的信息,以提升模型的轨迹预测能力。在动作空间上,可以增加动作容量,设计不同力度的同一类动作,以增强模型的适应能力。在整体训练设计上,可以提高模块易开发性,将整体工作打包为库,并在某种程度上进行开源。
[1]
孙智孝, 杨晟琦, 朴海音, 等. 未来智能空战发展综述[J]. 航空学报, 2021, 42(8):2-4.

SUN Z X, YANG S Q, PIAO H Y, et al. A survey of air combat artificial intelligence[J]. Acta Aeronautica et Astronautica Sinica, 2021, 42(8): 2-4.

[2]
于力, 马振利, 江宝城. 外军军用无人机体系现状及发展趋势[J]. 飞航导弹, 2020(5):34-39.

YU L, MA Z L, JIANG B C. The situation and tendency of the drone system of foreign armies[J]. Aerodynamic Missile Journal, 2020(5):34-39.

[3]
MATTOCK, MICHAEL G., BETH J. A., et al. The Relative cost-Effectiveness of retaining versus accessing air force pilots[M]. RAND Corporation, RR-2415-AF, 2019: 12-13.

[4]
陈希亮, 李清伟, 孙彧. 基于博弈对抗的空战智能决策关键技术[J]. 指挥信息系统与技术, 2021, 12(2):1-6.

CHENG X L, LI Q W, SUN B. Key technology of intelligent decision making in air combat based on game confrontation[J]. Command Information System And Technology, 2021, 12(2):1-6.

[5]
LIU P, MA Y. A deep reinforcement learning based intelligent decision method for UCAV air combat[C]. AsiaSim 2017. Communications in Computer and Information Science, Springer, Singapore, 2017.

[6]
张婷玉, 孙明玮, 王永帅, 等. 基于深度Q网络的近距空战智能机动决策研究[J]. 航空兵器, 2023, 30(3):41-48.

ZHANG T Y, SUN M W, WANG Y S, et al. Research on intelligent maneuvering decision-making in close air combat based on Deep Q Network[J]. Aero Weaponry, 2023, 30(3):41-48.

[7]
YANG Q, ZHU Y, ZHANG J, et al. UAV air combat autonomous maneuver decision based on DDPG algorithm[C]. 2019 IEEE 15th International Conference on Control and Automation (ICCA).IEEE, 2019:37-42.

[8]
单圣哲, 张伟伟. 基于自博弈深度强化学习的空战智能决策方法[J]. 航空学报, 2024, 45(3):028 723.

SHAN S Z, ZHANG W W. Air combat intelligent decision-making method based on self-play and deep reinforcement learning[J]. Acta Aeronautica et Astronautica Sinica, 2024, 45(3): 028 723.

[9]
张建东, 王鼎涵, 杨啟明, 等. 基于分层强化学习的无人机空战多维决策[J]. 兵工学报, 2023, 44(6):1547-1 563.

ZHANG J D, WANG B H, YANG Q M, et al. Multi-Dimensional Decision-Making for UAV Air Combat Based on Hierarchical Reinforcement Learning[J]. Acta Armamentarii, 2023, 44(6):1547-1 563.

[10]
VOLODYMYR M, KAVUKCUOGLU K, SILVER D, et al. Human-level control through deep reinforcement learning[J]. Nature, 2015, 518(7540): 529-533.

[11]
OLODYMYR M, KAVUKCUOGLU K, SILVER D, et al. Playing atari with deep reinforcement learning[C]. NIPS Deep Learning Workshop, 2013.

[12]
Van HASSELT H, GUEZ A, SILVER D. Deep reinforcement learning with double q-learning[C]// Proceedings of the AAAI conference on artificial intelligence, Phoenix, 2016: 2 094-2 100.

[13]
章胜, 周攀, 何杨, 等. 基于深度强化学习的空战机动决策试验研究[J]. 航空学报, 2023, 44(20): 128 094.

ZHANG S, ZHOU P, HE Y, et al. Research on air combat maneuver decision-making flight test based on deep reinforcement learning[J]. Acta Aeronautica et Astronautica Sinica, 2023, 44(20): 128 094.

[14]
王栋, 寇雅楠, 胡涛, 等. 智能空战对抗训练——关键技术研究[M]. 北京: 电子工业出版社, 2021.

WANG D, KE Y L, HU T, et al. Intelligent Air Combat Training, Key Technology Research[M]. Beijing: Electronics Industry Press, 2021.

[15]
ANG K.H., CHONG G.C.Y., LI Y. PID control system analysis, design, and technology[J]. IEEE Transactions on Control Systems. Technology, 2005, 13(4):559-576.

[16]
KUMAR A, ZHOU A, TUCKER G, et al. Conservative q-learning for offline reinforcement learning[J]. Advances in Neural Information Processing Systems, 2020(33): 1 179-1 191.

Outlines

/