1 问题的提出
1.1 样本稀缺
1.2 奖励设计难
1.3 决策层次抽象
2 研究综述
2.1 强化学习基础
2.2 模仿学习方法
2.2.1 行为克隆
2.2.2 逆强化学习
2.2.3 生成对抗模仿学习
[1-log D(s,a)]-λH(π)
3 方法和步骤
3.1 对抗场景介绍
表1 对抗场景描述Tab.1 Description of the gaming scenario |
| A方 | B方 | |
|---|---|---|
| 参战单元 | 舰船*6+护航飞机*4 | 舰船*6+护航飞机*2+ 陆上打击单位*4 |
| 初始状态 | 舰船速度20 kn前进 | 所有单位待战 |
| 主要任务 | 前往某海域 | 阻击A方海上编队 |
| 奖励信号 | / | 有效打击舰船+7,飞机+1 |
| 停止条件 | 仿真时间达到2 h | |
3.2 战场态势处理
3.3 输出动作空间划分
表2 战役行动划分Tab.2 Division of campaign operations |
| 海上行动 | 空中行动 | 陆上行动 | |
|---|---|---|---|
| 选项1 | 机动 | 巡逻 | 机动 |
| 选项2 | 攻击 | 打击 | 炮火打击 |
| 选项3 | 待战 | 防空 | 无动作 |
中国指挥与控制学会会刊 