1 基于MDP的多战车协同突防决策模型
1.1 马尔可夫决策过程(MDP)
1.2 多战车协同突防决策过程的MDP表示
Si=
S=
Ai=
p =P
[R* ,R* ,…,R* ]
表1 智能体到达特定状态获得回报的基准值Tab.1 The benchmark value at which an agent is rewarded for reaching a specific state |
| 特定状态 | 回报基准值 |
|---|---|
| 击中敌方火力点 | 20 |
| 击中敌方战车 | 30 |
| 被敌方击中 | -40 |
| 到达目标区域 | 150 |
| 超出时间未完成 | -120 |
2 多战车自主协同突防决策方法
2.1 多战车协同突防决策方法总体框架
2.2 决策方法MADDPG算法结构
=μ(st+1; ),…
=μ(st+1; )
= +γQ'i
2.3 MADDPG算法中AC网络结构
2.3.1 自注意力机制
2.3.2 添加自注意力机制的AC网络
3 试验仿真
3.1 战车模型
表2 双方武器设备探测与攻击模型Tab.2 Detection and attack models of weapons and equipment on both sides |
| 武器 类型 | 类型 | 探测范围 半径/m | 攻击范围 半径/m | |
|---|---|---|---|---|
| 我方 | 战车 | Ⅰ类 | 120 | 100 |
| Ⅰ类 | 100 | 100 | ||
| 火力点 | Ⅱ类 | 90 | 90 | |
| 敌方 | Ⅲ类 | 80 | 80 | |
| 战车 | Ⅰ类 | 120 | 100 | |
| Ⅱ类 | 110 | 90 |
3.2 场景设置
表3 多战车协同突防决策过程动作空间设计Tab.3 The action space design of multi-vehicle collaborative penetration decision-making process |
| 动作 | 取值范围 | 备注 |
|---|---|---|
| 行驶方向 | [0~12] | 0-12间连续值,乘以30 便是战车行驶方向角 |
| 速度 | [0, 3] | 0-3连续值,0便是停止 |
| 探测开关 | 0或1 | 0表示关闭,1表示开启 |
| 攻击 | Dis[0~15] | 取值为战车攻击的敌方 目标编号,0表示不攻击 |
3.3 算法有效性检验
表4 MADDPG算法实验超参数Tab.4 MADDPG algorithm experimental hyperparameters |
| 超参数 | 数值 | 超参数 | 数值 |
|---|---|---|---|
| 经验池大小 | 50 000 | Actor网络学习率 | 1e-6 |
| 批大小 | 32 | Critic网络学习率 | 1e-6 |
| 折扣率γ | 0.9 | Actor更新间隔k | 5 |
| VAR初始值 | 2.0 | 软更新率τ | 0.02 |
3.4 算法消融对比实验
表5 MADDPG算法消融对比实验设置Tab.5 Experimental setup of MADDPG algorithm ablation comparison |
| 算法结构 | 基于自注意力 机制的AC网络 | 基于自注意力机 制的回报函数 |
|---|---|---|
| MPDM_MADDPG | √ | √ |
| MPDM_MADDPG_A | × | √ |
| MPDM_MADDPG_B | √ | × |
注:√表示采用该机制,×表示不采用 |
表6 算法的决策方法消融对比实验结果Tab.6 The experimental results of the ablation of the algorithm’s decision-making method were compared |
| 算法结构 | 稳定胜率 |
|---|---|
| MPDM_MADDPG | 76.3% |
| MPDM_MADDPG_A | 71.5% |
| MPDM_MADDPG_B | 67.9% |
中国指挥与控制学会会刊 