1 基于强化学习的对抗行为评估研究现状
2 敌方对抗行为评估建模
2.1 飞行器攻防对抗智能博弈平台
2.2 敌方对抗行为评估模型
3 层次情节性元强化学习智能体结构
3.1 层次情节性元强化学习方法流程
3.2 基于可微分神经字典记忆的元强化学习LSTM
3.3 协同方法
4 验证
4.1 实验1:基于OpenAI Gym平台的倒立摆CartPole-V0
4.2 实验2:基于OpenAI Gym平台的情节性两步任务
4.3 实验3:基于攻防对抗智能博弈平台的敌方对抗行为评估
表1 奖赏设置 |
环境反馈 | 奖赏 |
---|---|
突防成功 | 100 |
被拦截 | -100 |
被干扰 | -50 |
命中目标 | 10 |
未命中目标 | -10 |
4.3.1 评价指标与设置
=
4.3.2 验证结果
表2 三种模型与红方指挥员对抗获胜率VR(%) |
HE Meta DRL | |
---|---|
L2RL | 95.4 |
L2RL+context | 92.3 |
红方指挥员 | 67.8 |
表3 平均成功时间步数 |
HE Meta DRL | |
---|---|
L2RL | 801.3 |
L2RL+context | 858.4 |
红方指挥员 | 907.2 |