1 基础理论
1.1 强化学习
1.2 MADDPG算法
2 PK-MADDPG
2.1 PK-MADDPG算法
表1 个体回报定义Tab.1 Individual reward definition |
序号 | 单位类型 | 分类 | 含义 | 分数 |
---|---|---|---|---|
1 | 攻击单元 | 攻击合理性回报 | 攻击动作合法 | 5 |
2 | 攻击动作非法 | -5 | ||
3 | 探测回报 | 探测到探测单元 | 5 | |
4 | 探测到攻击单元 | 5 | ||
5 | 攻击结果回报 | 打击探测单元成功 | 15 | |
6 | 打击探测单元失败 | -15 | ||
7 | 打击攻击单元成功 | 10 | ||
8 | 打击攻击单元失败 | -10 | ||
9 | 被击毁回报 | 攻击单元被击毁 | -10 | |
10 | 被击毁回报 | 探测单元被击毁 | -10 | |
11 | 探测单元 | 探测回报 | 探测到探测单元 | 5 |
12 | 探测到攻击单元 | 5 | ||
13 | 通用 | 存活回报 | 每步存活 | 2 |
表2 全局回报定义Tab.2 Global reward definition |
序号 | 意义 | 分数 |
---|---|---|
1 | 胜利 | 100 |
2 | 失败 | -100 |
3 | 平局 | 0 |
4 | 推演回合消耗 | -90 |
2.2 PK-MADDPG训练流程
2.3 决策机制
3 MaCA环境
3.1 环境概述
3.2 MaCA环境与算法交互关系
4 先验知识说明
4.1 具体先验知识设计
4.1.1 攻击策略
4.1.2 干扰频点设置策略
4.1.3 躲避策略
4.2 状态信息重构
4.2.1 探测单元态势重构
4.2.2 攻击单元态势重构
5 实验仿真设计
5.1 配置及运行说明
5.2 超参数设计
表3 超参数设置Tab.3 Hyperparameter setting |
序号 | 参数 | 默认值 |
---|---|---|
1 | 最大round数量 | 500 |
2 | 每个round中最大step数量 | 3 000 |
3 | 神经网络学习率 | 0.02 |
4 | 回报折扣率 | 0.95 |
5 | batch size | 1 024 |
6 | 隐藏层神经元数量 | 64 |
7 | 每保存一次模型的间隔round数 | 200 |
5.3 MaCA环境仿真
5.3.1 异构多智能体环境设置
5.3.2 实验结果与分析
图7 base rule (red)与base rule (blue)对抗胜率图Fig.7 The winning rate of base rule (red) and base rule (blue) |
图8 MADDPG(red)与base rule(blue)对抗胜率图Fig.8 The winning rate of MADDPG (red) and base rule (blue) |
图9 PK-MADDPG (red)与base rule (blue) 对抗胜率图Fig.9 The winning rate of PK-MADDPG (red) and base rule (blue) |
图10 PK-MADDPG(red)与base rule(blue)对抗胜率图Fig.10 The winning rate of PK-MADDPG (red) and base rule (blue) |
表5 base rule与base rule获胜次数比较Tab.5 The compare of winning times between base rule and base rule |
算法 | 获胜次数 | 回合数 |
---|---|---|
base rule (red) | 256 | 500 |
base rule (blue) | 210 | 500 |
表6 MADDPG与base rule获胜次数比较Tab.6 The compare of winning times between MADDPG and base rule |
算法 | 获胜次数 | 回合数 |
---|---|---|
MADDPG(red) | 355 | 500 |
base rule (blue) | 150 | 500 |
表7 PK-MADDPG与base rule获胜次数比较Tab.7 The compare of winning times between PK-MADDPG and base rule |
算法 | 获胜次数 | 回合数 |
---|---|---|
PK-MADDPG(red) | 463 | 500 |
baserule (blue) | 35 | 500 |
表8 PK-MADDPG与MADDPG获胜次数比较Tab.8 The compare of winning times between PK-MADDPG and MADDPG |
算法 | 获胜次数 | 回合数 |
---|---|---|
PK-MADDPG(red) | 305 | 500 |
MADDPG(blue) | 196 | 500 |