中国科技核心期刊      中国指挥与控制学会会刊     军事装备类重点期刊
研究论文

基于深度强化学习算法的火力-目标分配方法

  • 李伟光 ,
  • 陈栋
展开
  • 陆军炮兵防空兵学院高过载弹药制导控制与信息感知实验室, 安徽 合肥 230031

李伟光(1988—),男,硕士研究生,研究方向为武器系统运用工程。

陈 栋(1983—),男,博士。

Copy editor: 许韦韦

收稿日期: 2023-06-25

  修回日期: 2023-09-12

  网络出版日期: 2024-05-29

Firepower-target assignment method based on deep reinforcement learning algorithm

  • LI Weiguang ,
  • CHEN Dong
Expand
  • Laboratory of Guidance Control and Information Perception Technology of High Overload Projectiles,PLA Army Academy of Artillery and Air Defense, Hefei 230031, China

Received date: 2023-06-25

  Revised date: 2023-09-12

  Online published: 2024-05-29

摘要

针对火力-目标分配问题解空间较大、离散、非线性等特点,提出了一种基于DQN的深度强化学习算法,通过将6层全连接前馈神经网络与Q-learning算法相结合,充分发挥了深度学习的感知能力和强化学习的决策能力,通过模型性能测试对比,该方法拟合能力较强、收敛速度较快、方差抖动性较小,并通过实际作战场景对算法进行了验证,所得的分配结果符合作战期望,可为指挥员火力打击分配问题决策提供一定参考。

本文引用格式

李伟光 , 陈栋 . 基于深度强化学习算法的火力-目标分配方法[J]. 指挥控制与仿真, 2024 , 46(3) : 62 -69 . DOI: 10.3969/j.issn.1673-3819.2024.03.010

Abstract

Aiming at the characteristics of large solution space, discrete, dynamic and nonlinear of firepower-target assignment problem, this paper proposes a deep reinforcement learning algorithm based on DQN. By combining the 6-layer fully connected feedforward neural network with the Q-learning algorithm, the perception ability of deep learning and the decision-making ability of reinforcement learning are fully utilized. Through the comparison of model performance tests, this method has strong fitting ability, fast convergence speed and small variance jitter, and the distribution results meet the combat expectations, which can provide some reference for commanders to make decisions on fire strike problems.

火力-目标分配是炮兵作战任务规划的关键环节,其分配结果直接影响着作战火力体系打击效能的发挥,对战场态势和战局走向起着关键作用。火力-目标分配属于资源调度组合优化问题,国内外学者对其研究起步较早,相关模型较为成熟。传统的目标分配方法有枚举法、割平面法、分支界定法、遍历搜索法等方法[1],但上述方法当目标增多时计算量庞大,求解十分困难,已逐步退出历史舞台。智能优化算法对目标函数的凸性、连续性和解析表达式要求较低,在相当一段时间内被广泛研究与应用,比较代表性的算法有遗传算法[2]、蚁群算法[3]、模拟退火算法[4]、粒子群算法[5]、强化学习算法[6]等,这些算法虽然具有较好的实用性,但随着战争形态转变,正逐渐暴露出收敛速度慢、易陷于局部最优、难以应对大规模数据等问题。本文提出一种基于深度强化学习的动态目标分配方法,可充分结合深度学习的感知能力和强化学习的决策能力,在解决动态资源调度分配等类型问题上具有显著优势,可实现整体作战效益最大化。

1 火力-目标分配问题描述

火力-目标分配问题通常是指如何把不同毁伤能力和经济价值的弹药,分配到不同威胁态势和性质的目标,以达到毁伤效果最大、弹药消耗成本最低的目的。其分配过程常用马尔可夫[7]决策过程作经典描述:假设有i个种类弹药对j个目标进行打击,其分配过程如图1所示。
图1 武器目标动态分配过程示意图

Fig.1 Dynamic allocation process of weapon target

图中,St表示状态变量,at表示动作变量,aij表示分配策略,炮兵目标分配的结果就是将我方具备相应打击能力的弹药与相应的打击目标进行匹配,分配的结果就是找到一个使整体达到最优的分配策略。
1)状态集
状态集是马尔可夫决策过程中所有可能出现的状态的集合。炮兵火力打击目标分配问题,主要考虑如何充分发挥武器装备整体打击优势,目标是尽量使得整体毁伤效果最大,所受敌威胁最小,同时弹药消耗量最低。据此,选取武器装备对目标打击的毁伤效果K、命中概率H、弹药消耗A及目标威胁程度T作为模型状态集信息,可表示为
s=|Kij,Hij,Aij,Tj|
其中,Kij表示第i个火力对第j个目标打击的毁伤效果指标;Hij表示第i个火力对第j个目标打击的命中概率指标;Aij表示第i个火力对第j个目标打击所消耗的弹药指标;Tj表示第j个目标的威胁程度,T'j为目标原有的威胁程度,可用下式表示:
Tj=[(1-Hij)+(1-Kij)Hij]T'j
2)动作集
动作集是马尔可夫决策过程中能够采取的所有行动的集合。在炮兵DWTA问题中,每种武器平台均可能对目标实施打击,所以动作集可用向量α=αij来表示,并且存在:
aij= 1   i j 0   i j j = 1 Naij=1
其中,N表示目标数量,即每个火力单元同一时刻最多打击一个目标。
3)奖励函数
奖励函数表示马尔可夫决策过程中,由状态到动作所得到的回报奖励值,是对动作执行的评价,用于指导后期动作的选择。其主要围绕求解问题的目标设定,奖励函数设定结果直接影响着目标分配系统在当前分配状态下的奖励值和惩罚值,进而影响最终的分配结果。因此,为明确地表明所选分配状态的优劣,发挥火力体系整体打击优势,本文提出三个关键状态特征来定义奖励函数。
首先,定义火力打击效果为第一个状态特征f1(x),如式(1)所示:
f1(x)=KijHijaij
其次,定义受敌威胁程度为第二个状态特征f2(x),如式(2)所示:
f2(x)=[(1-Hij)+(1-Kij)Hij ] a i jT'j
再次,定义弹药消耗量为第三个状态特征f3(x),如式(3)所示:
f3(x)=Aijaij
因此,结合上述三种状态特征,可采用式(4)对动作执行结果进行评价:
r=   C 1 f 1 ( x ) + C 2 1 f 2 ( x ) + C 3 1 f 3 ( x ) - 1
式中,C1C2C3分别为打击效果、受敌威胁程度、弹药消耗量在评价结果中的权重,通常取值为1/3,当目标不可打击时奖励函数取值为-1。这样,可以由每一次的状态-动作所获得的即时回报来反馈当前动作的即时奖励,根据奖励值的大小可找到最优的分配策略。

2 基于DQN算法的DWTA问题求解

深度Q网络(Deep Q Network,DQN)算法是DeepMind团队提出的一种深度强化学习算法,该算法将神经网络和Q-learning算法相结合,可有效解决连续状态空间和离散动作空间问题[8]

2.1 Q-learning算法

Q-Learning算法是一种无模型的、离线的强化学习算法。它通过体验行动所带来的结果,使智能体能够在马尔可夫决策过程中学习以最优方式行动[9]。其基本思想是建立一个表格,表格中的行和列分别代表智能体的状态和动作,表格用来存储智能体在每个状态下采取不同动作所获得的Q值,通过反复尝试所有的状态和动作,可得到最优的状态对应的最好的行为,然后智能体就可以通过查表来进行决策,选取每一步的最佳动作。
对于任何马尔可夫决策过程,Q-Learning在从当前状态开始的所有后续动作中以最高奖励期望值为目标来找到最优的策略。在给定足够的探索时间和相应的随机策略情况下,Q-Learning可以为任何马尔可夫决策过程确定最优的动作选择策略。Q-Learning在开始学习之前,Q表被初始化为使用者需要的固定值,如表1所示。然后,智能体在每个时间t选择动作at,并观察奖励rt,进入新的状态st+1,并更新Q值,得到新的Q表,如表2。该算法的核心思想是Q值不断迭代更新的过程,其算法更新公式为
Q(st,at)←Q(st,at)+a[rt+γ m a x aQ(st+1,a)-Q(st,at)]
表1 初始化Q表值

Tab.1 Initializing Q table value

Q 动作a1 动作a2 动作an
状态s1 0 0 0
状态s1 0 0 0
状态sm 0 0 0
表2 迭代后Q表值

Tab.2 Q table value after iteration

Q 动作a1 动作a2 动作an
状态s1 3.6 -5.3 3.2
状态s2 5.4 2.5 -1.1
状态sm 2.1 3.6 -4.3
虽然Q-learning算法整体运算逻辑清晰,并且能通过学习适应各类不确定性环境,在解决决策优化问题中也被广泛应用,但Q-learning算法这种采用表格的方式来记录状态和动作对应Q值的方法,在处理大规模问题时会随着状态和动作空间的增多而变得迟缓,当状态和动作空间达到一定数值时,查询Q表的时间会非常长,将导致Q-learning算法在时间上和实时性上不再有意义。
为解决该问题,DeepMind团队将神经网络和Q-learning算法结合在一起,提出了DQN算法,该算法取代用一张表格记录Q值,而是直接将状态作为神经网络的输入,通过神经网络计算出动作价值,并选出一个最大值作为输出,也可将状态和动作都作为神经网络的输入,直接输出对应的Q值,可极大提升算法计算能力,并有效处理大规模的决策优化问题。

2.2 DQN算法描述

DQN算法主要是通过目标函数、经验回放机制和目标网络三项核心技术处理智能体和环境交互的信息[10],从而为智能体提供可选择的策略,其训练交互过程如图2所示。
图2 DQN训练过程

Fig.2 DQN training process

1)目标函数
由于在Q-Learning算法中通过表格形式记录Q值,只能适用于离散且低维度的状态空间,而当状态空间维度较大时,求解过程将出现“维度爆炸”的问题。因此,在DQN算法中采用深度神经网络拟合Q,即通过深度神经网络中的权值参数θ使动作价值函数逼近最优动作价值。如式(6)所示:
Q(st)=θTst
2)经验回放机制
DQN算法在训练时并不立即将交互信息进行处理,而是采用经验池存储经验序列,并在训练过程中采样经验。经验池存储了智能体在训练过程中的交互(动作、状态、奖励、下一状态)样本信息,在训练神经网络时从中随机取出一定数量的样本进行训练。
经验回放机制的引入可以对交互信息数据进行一个有效的备份,同时小批量的采样可以减少训练数据之间的依赖性和相关性,从而减少估计值函数时产生的不必要偏差,使训练网络更容易收敛。
3)目标网络
由于单个神经网络训练时,智能体与环境的交互存在一定的不确定性,神经网络在多次迭代过程中产生的误差会反映到下一轮迭代计算中,这样就会导致模型训练的不稳定性。因此,DQN算法引入了目标网络(Target NetWork)[11],先暂时将TD误差目标中的Q网络固定住,这样就不会导致训练过程中目标发生改变,进而优化智能体与环境的交互不确定性所产生的误差。
DQN采用近似表示值函数的优化目标,每次迭代的优化目标Q值为
yj=Rj+γmaxa'Q(φ(S'j),A'j,ω)
其中,φ(S')为下一时刻的状态,A'为所有可能的动作,ω为目标网络的参数。Q的预测当前值网络使用的是最新参数,而Q的现实值目标网络使用的是之前参数。经过一定次数的迭代后,把当前值的参数复制给目标网络,通过最小化当前Q值和目标Q值之间的均方误差来更新网络参数。可得DQN的损失函数为
L= 1 m j = 1 m(yj-Q(ϕ(Sj),Aj,ω))2

2.3 DQN-DWTA算法设计

用深度强化学习方法解决炮兵火力-目标分配这类DWTA问题时,可看成是在连续状态空间、离散动作空间上的多步强化学习过程。学习任务的目标就是找到一个最优分配策略实现最大化累计回报。与Q-learning算法设计相同,DQN算法仍以打击效果最大、受威胁程度最小、成本最低为模型目标,在Q-learning算法设计基础上,引入可用于训练与推理的神经网络模型,以解决高维状态空间中的火力-目标分配问题。
1)神经网络结构设计
本节选择具有较强的分类能力和模式识别能力的全连接前馈神经网络作为深度学习框架,以非图像状态数据向量作为输入,以值函数中每个动作对应的Q值作为输出。为了兼顾网络架构的深度与性能,本文设计一个深度为6层的全连接前馈神经网络,首先为网络数据输入口,第1层到第5层为隐藏层,第6层为输出层。网络构造如图3所示。
图3 网络结构设计

Fig.3 Network structure design

2)损失函数
本文采用交叉熵损失函数作为全连接前馈神经网络的参数学习函数。对于样本(x,y),其损失函数为
L(y, y ^)=-yTlog y ^
其中,y∈{0,1}。
给定训练集为D={(x(n),y(n))}Nn-1,将每个样本x(n)输入前馈神经网络,得到网络输出为 y ^ ( n ),其在数据集D上的机构化风险函数为
R(W,b)= 1 N n - 1 NL(y(n), y ^ ( n ))+ 1 2λ‖W F 2
其中,Wb分别表示网络中所有的权重矩阵和偏置向量;‖W F 2 是正则化项,用来防止过拟合;λ>0为超参数。λ越大,W越接近于0。这里的‖W F 2 常使用Frobenius范数:
W F 2= l = 1 L i = 1 M l j = 1 M l - 1( w i j ( l ))2
根据学习准则和训练样本,网络参数可以通过梯度下降法来进行学习。在梯度下降方法的每次迭代中,第l层的参数W(l)b(l)参数更新方式为
W(l)W(l)-α R ( W , b ) W ( l )=W(l) 1 N n = 1 N ( L ( y ( n ) , y ^ ( n ) ) W ( l ) ) + λ W ( l )
b(l)b(l)-α R ( W , b ) b ( l )=b(l) 1 N n = 1 N L ( y ( n ) , y ^ ( n ) ) b ( l )
其中,α为学习率。
3)参数学习
在确定损失函数后,需通过梯度下降法来计算损失函数对参数的偏导数,在神经网络训练中常用反向传播算法来计算梯度。
根据链式法则可得到:
L ( y , y ^ ) w i j ( l )  = z ( l ) w i j ( l )   L ( y , y ^ ) z ( l ) L ( y , y ^ ) b ( l )= z ( l ) b ( l ) L ( y , y ^ ) z ( l )
其中, L ( y , y ^ ) z ( l )称为误差项δ(l)

2.4 算法描述

根据深度强化学习原理和DWTA问题模型,本文设计了基于DQN的深度强化学习算法解决目标分配问题的具体操作流程,如图4所示。
图4 目标分配算法流程

Fig.4 Target allocation algorithm flow

3 改进算法性能测试及分析

为验证基于DQN的深度强化学习模型算法的性能优势,将其与Q-learning算法进行比较测试。测试环境的输入、输出参数如表3所示。
表3 深度强化学习模型算法测试环境与输入、输出参数

Tab.3 Deep reinforcement learning model algorithm test environment and input and output parameters

测试环境 Windows 10专业版21H1
编程语言 Python 3.7
编程框架 PyTorch 1.11
输入参数 连续状态值
(毁伤效果、命中概率、弹药消耗量、目标威胁程度)
输出参数 离散动作值(目标分配策略)
性能比较值 回报值
Q-learning算法测试结果如图5图6所示,可以看到,Q-learning算法的性能在100多次迭代后很快得到提升,最终收敛到策略的最优回报值200附近。同时可以看到,在Q-learning算法的性能收敛后,会持续出现一定程度的震荡,这主要是Q-learning算法会以一定概率继续探索低回报值附近领域所带来的影响。
图5 Q-learning迭代信息输出

Fig.5 Q-learning iterative information output

图6 Q-learning回报值意图(左图:平滑前,右图:平滑后)

Fig.6 Q-learning return value intention (left picture: before smoothing, right picture: after smoothing)

基于DQN的深度强化学习模型算法测试结果如图7图8所示。可以看出,DQN算法的性能在50多次迭代后很快得到提升,200多次迭代后趋于平稳抖动较小。通过两种算法收敛情况对比可以看出,基于DQN的深度强化学习算法比Q-learning算法收敛速度更快、方差抖动更小。这首先得益于DQN的记忆存储单元使更新权重时每一个样本都可能被抽到,从而提高数据的利用效率;其次得益于DQN随机地从记忆存储单元抽取样本数据,打乱了样本之间的相关性,从而提高了学习效率。
图7 基于DQN的深度强化学习算法迭代信息输出

Fig.7 Iterative information output of deep reinforcement learning algorithm based on DQN

图8 基于DQN的深度强化学习算法回报值意图(左图:平滑前,右图:平滑后)

Fig.8 The return value intention of deep reinforcement learning algorithm based on DQN (left image: before smoothing, right image: after smoothing)

为检验DQN算法分配结果的合理性,以一次火力打击目标分配为例加以验证。假设在一次火力打击行动中,我炮兵旅采用常规的9种武器弹药,对敌方指挥所、通信枢纽、坦克、火炮发射阵地等5个炮兵部队典型作战的目标实施火力打击,各类型武器弹药对目标的毁伤效果、命中率、弹药消耗量以及目标威胁程度数据分别如表4567所示,表中数据均已进行无量纲处理。对上述分配模型进行测试分析。
表4 毁伤效果指标/%

Tab.4 Damage effect index/%

弹药目标 1 2 3 4 5 6 7 8 9
A 66 76 65 71 72 75 78 52 85
B 64 66 82 72 51 42 78 85 61
C 61 82 75 43 45 79 78 82 82
D 79 66 54 68 80 61 82 45 48
E 75 75 78 89 55 75 78 88 84
表5 命中率/%

Tab.5 Hit rate/%

弹药目标 1 2 3 4 5 6 7 8 9
A 58 62 67 56 61 80 70 74 81
B 76 58 75 60 63 78 72 66 70
C 62 67 75 78 89 79 78 65 70
D 66 56 53 66 80 77 82 71 75
E 63 78 60 60 65 78 78 84 83
表6 弹药消耗量/%

Tab.6 Ammunition consumption/%

弹药目标 1 2 3 4 5 6 7 8 9
A 55 84 77 66 57 78 82 66 80
B 61 76 84 82 85 82 74 83 67
C 74 56 65 70 78 56 65 76 76
D 83 64 56 77 62 65 56 52 56
E 90 72 85 84 70 85 56 84 71
表7 目标威胁程度/%

Tab.7 Target Threat/%

目标 A B C D E
威胁程度 55 77 86 67 88
通过本文的DQN算法进行弹目分配,分配结果如图9所示,即:A目标由第9种弹药打击;B目标由第3种弹药打击;C目标由第6种弹药打击;D目标由第7种弹药打击;E目标由第8种弹药打击。每种目标均选取打击效果、威胁程度、弹药消耗综合指标最好的弹药进行打击,符合现实战场火力打击需求,并且能够清晰观察出每种弹药对目标实施打击的综合指标情况,也有利于突发情况下寻找替代弹药。
图9 目标分配结果示意图

Fig.9 Diagram of target assignment result

4 结束语

火力-目标分配问题是一项较为复杂的决策优化问题[12],本文运用马尔可夫决策过程对DWTA问题进行了描述,提出一种基于DQN的深度强化学习算法,采用全连接前馈神经网络作为深度学习框架,设计一个深度为6层的全连接前馈神经网络。通过与Q-learning算法对比,基于DQN的深度强化学习算法具有更快的收敛速度。通过模型计算的分配结果符合实际战场需求,可为指挥员指挥决策提供一定参考意义。但该模型还局限于每种目标只能使用一种弹进行打击,不能实现多弹种协同打击,下一步将重点研究多弹种协同打击问题。
[1]
韩炜. 武器目标分配问题的优化算法综述[C]// 2019航空装备服务保障与维修技术论坛暨中国航空工业技术装备工程协会年会论文集. 南昌, 2019: 701-704, 728.

HAN W. An overview of optimization algorithms for weapon target assignment problem[C]// 2019 Forum on Aeronautical Equipment Service Support and Maintenance Technology and Annual Meeting of China Aviation Industrial Technology and Equipment Engineering Association.Nanchang,2019:701-704,728.

[2]
苏茂宇, 胡剑波, 王应洋, 等. 基于改进AGA的无尾飞行器智能控制分配方法[J]. 兵器装备工程学报, 2022, 43(11): 258-265, 272.

SU M Y, HU J B, WANG Y Y, et al. An intelligent control allocation method for tailless aircraft based on improved AGA[J]. Journal of Ordnance Equipment Engineering, 2022, 43(11): 258-265, 272.

[3]
马培博, 钟麟. 基于蚁群算法的无人机侦察任务分配[J]. 无线电通信技术, 2022, 48(2): 371-375.

MA P B, ZHONG L. Assignment of UAV reconnaissance task based on ant colony algorithm[J]. Radio Communications Technology, 2022, 48(2): 371-375.

[4]
吴坤鸿, 詹世贤. 分布式遗传模拟退火算法的火力打击目标分配优化[J]. 火力与指挥控制, 2016, 41(3): 89-92, 96.

WU K H, ZHAN S X. Optimization for target assignment in fire strike based on distributed genetic simulated annealing algorithm[J]. Fire Control & Command Control, 2016, 41(3): 89-92, 96.

[5]
张瑞鹏, 冯彦翔, 杨宜康. 多无人机协同任务分配混合粒子群算法[J]. 航空学报, 2022, 43(12): 418-433.

ZHANG R P, FENG Y X, YANG Y K. Hybrid particle swarm algorithm for multi-UAV cooperative task allocation[J]. Acta Aeronautica et Astronautica Sinica, 2022, 43(12): 418-433.

[6]
费陈, 郑晗, 赵亮. 基于强化学习的无人机智能任务分配方法[J]. 弹箭与制导学报, 2022, 42(6): 61-67.

FEI C, ZHENG H, ZHAO L. Reinforcement learning-based intelligent task assignment method for unmanned aerial vehicles[J]. Journal of Projectiles, Rockets, Missiles and Guidance, 2022, 42(6): 61-67.

[7]
李杰, 卢颖, 曲少春, 等. 一种基于可用性的战术通信子网评估方法[J]. 火力与指挥控制, 2021, 46(1): 136-141.

LI J, LU Y, QU S C, et al. A tactical communication subnet evaluation method based on availability[J]. Fire Control & Command Control, 2021, 46(1): 136-141.

[8]
IQBAL A, THAM M L, CHANG Y C. Convolutional neural network-based deep Q-network (CNN-DQN) resource management in cloud radio access network[J]. China Communications, 2022, 19(10): 129-142.

[9]
杨秀霞, 高恒杰, 刘伟, 等. 基于阶段Q学习算法的机器人路径规划[J]. 兵器装备工程学报, 2022, 43(5): 197-203.

YANG X X, GAO H J, LIU W, et al. Robot path planning based on stage Q learning algorithm[J]. Journal of Ordnance Equipment Engineering, 2022, 43(5): 197-203.

[10]
LIU S P, TIAN G H, CUI Y C, et al. A deep Q-learning network based active object detection model with a novel training algorithm for service robots[J]. Frontiers of Information Technology & Electronic Engineering, 2022, 23(11): 1 673-1 684.

[11]
张子迎, 陈云飞, 王宇华, 等. 基于启发式深度Q学习的多机器人任务分配算法[J]. 哈尔滨工程大学学报, 2022, 43(6): 857-864.

ZHANG Z Y, CHEN Y F, WANG Y H, et al. Multi-robot task allocation algorithm b Multirobot task allocation algorithm based on heuristically accelerated deep Q network[J]. Journal of Harbin Engineering University, 2022, 43(6): 857-864.

[12]
姚桐, 王越, 董岩, 等. 深度强化学习在作战任务规划中的应用[J]. 飞航导弹, 2020(4): 16-21.

YAO T, WANG Y, DONG Y, et al. Application of deep reinforcement learning in operational mission planning[J]. Aerodynamic Missile Journal, 2020(4): 16-21.

文章导航

/