1 基础理论
1.1 强化学习
1.2 MADDPG算法
2 PK-MADDPG
2.1 PK-MADDPG算法
表1 个体回报定义Tab.1 Individual reward definition |
| 序号 | 单位类型 | 分类 | 含义 | 分数 |
|---|---|---|---|---|
| 1 | 攻击单元 | 攻击合理性回报 | 攻击动作合法 | 5 |
| 2 | 攻击动作非法 | -5 | ||
| 3 | 探测回报 | 探测到探测单元 | 5 | |
| 4 | 探测到攻击单元 | 5 | ||
| 5 | 攻击结果回报 | 打击探测单元成功 | 15 | |
| 6 | 打击探测单元失败 | -15 | ||
| 7 | 打击攻击单元成功 | 10 | ||
| 8 | 打击攻击单元失败 | -10 | ||
| 9 | 被击毁回报 | 攻击单元被击毁 | -10 | |
| 10 | 被击毁回报 | 探测单元被击毁 | -10 | |
| 11 | 探测单元 | 探测回报 | 探测到探测单元 | 5 |
| 12 | 探测到攻击单元 | 5 | ||
| 13 | 通用 | 存活回报 | 每步存活 | 2 |
表2 全局回报定义Tab.2 Global reward definition |
| 序号 | 意义 | 分数 |
|---|---|---|
| 1 | 胜利 | 100 |
| 2 | 失败 | -100 |
| 3 | 平局 | 0 |
| 4 | 推演回合消耗 | -90 |
2.2 PK-MADDPG训练流程
2.3 决策机制
3 MaCA环境
3.1 环境概述
3.2 MaCA环境与算法交互关系
4 先验知识说明
4.1 具体先验知识设计
4.1.1 攻击策略
4.1.2 干扰频点设置策略
4.1.3 躲避策略
4.2 状态信息重构
4.2.1 探测单元态势重构
4.2.2 攻击单元态势重构
5 实验仿真设计
5.1 配置及运行说明
5.2 超参数设计
表3 超参数设置Tab.3 Hyperparameter setting |
| 序号 | 参数 | 默认值 |
|---|---|---|
| 1 | 最大round数量 | 500 |
| 2 | 每个round中最大step数量 | 3 000 |
| 3 | 神经网络学习率 | 0.02 |
| 4 | 回报折扣率 | 0.95 |
| 5 | batch size | 1 024 |
| 6 | 隐藏层神经元数量 | 64 |
| 7 | 每保存一次模型的间隔round数 | 200 |
5.3 MaCA环境仿真
5.3.1 异构多智能体环境设置
5.3.2 实验结果与分析
图7 base rule (red)与base rule (blue)对抗胜率图Fig.7 The winning rate of base rule (red) and base rule (blue) |
图8 MADDPG(red)与base rule(blue)对抗胜率图Fig.8 The winning rate of MADDPG (red) and base rule (blue) |
图9 PK-MADDPG (red)与base rule (blue) 对抗胜率图Fig.9 The winning rate of PK-MADDPG (red) and base rule (blue) |
图10 PK-MADDPG(red)与base rule(blue)对抗胜率图Fig.10 The winning rate of PK-MADDPG (red) and base rule (blue) |
表5 base rule与base rule获胜次数比较Tab.5 The compare of winning times between base rule and base rule |
| 算法 | 获胜次数 | 回合数 |
|---|---|---|
| base rule (red) | 256 | 500 |
| base rule (blue) | 210 | 500 |
表6 MADDPG与base rule获胜次数比较Tab.6 The compare of winning times between MADDPG and base rule |
| 算法 | 获胜次数 | 回合数 |
|---|---|---|
| MADDPG(red) | 355 | 500 |
| base rule (blue) | 150 | 500 |
表7 PK-MADDPG与base rule获胜次数比较Tab.7 The compare of winning times between PK-MADDPG and base rule |
| 算法 | 获胜次数 | 回合数 |
|---|---|---|
| PK-MADDPG(red) | 463 | 500 |
| baserule (blue) | 35 | 500 |
表8 PK-MADDPG与MADDPG获胜次数比较Tab.8 The compare of winning times between PK-MADDPG and MADDPG |
| 算法 | 获胜次数 | 回合数 |
|---|---|---|
| PK-MADDPG(red) | 305 | 500 |
| MADDPG(blue) | 196 | 500 |
中国指挥与控制学会会刊 