1 深度强化学习
1.1 深度强化学习理论
1.2 近端策略优化算法

重复每个Actor
重复T步
每步使用旧的策略参数产生θold决策
计算每一步中的优势函数估计A
迭代K步
求解累积期望回报函数的策略梯度,每次使用小批量数据
用策略梯度θ更新策略参数
将新的策略参数更新至θold

2 智能体构建
2.1 基于深度强化学习的分布式训练
2.2 潜艇智能体决策模型
2.3 多决策行动方案的规则体模型
3 增强改进机制
3.1 损失函数
3.2 决策引导体系
4 智能体训练与验证
4.1 想定设计
4.2 模型建立
表2 状态空间信息 |
| 实体 | 状态信息 |
|---|---|
| 潜艇 | 经度、纬度、航向、航速、深度、鱼雷数量、诱饵数量、敌方舰艇经纬度、来袭导弹经纬度、目标区域经纬度 |
| 舰艇 | 经度、纬度、航向、航速、鱼雷数量、诱饵数量、潜艇经纬度、来袭导弹经纬度 |
| 鱼雷 | 经度、纬度、航向、航速、深度 |
| 直升机 | 经度、纬度、航向、航速、高度、浮标数量、鱼雷数量、潜艇经纬度 |
表3 动作空间信息 |
| 动作类别 | 动作范围 |
|---|---|
| 实体航向 | 东、西、南、北、东北、东南、西北、西南8个动作方向 |
| 潜艇下潜深度 | -200 m、-300 m、-400 m |
| 直升机高度 | 500 m |
| 直升机速度 | 100 km/h、300 km/h |
| 潜艇速度 | 15 kn、25 kn、34 kn |
| 舰艇速度 | 15 kn、29 kn |
| 投放诱饵方向 | 0°、60°、120°、180°、240°、300° |
| 潜艇开火距离 | 20 nmile内 |
| 舰艇开火距离 | 27 nmile内 |
表4 潜艇智能体奖励设计 |
| 参数名称 | 奖励条件 | 奖励值 | |
|---|---|---|---|
| 终局 奖励 | 潜艇到达目标区域 | 10 | |
| rwin | 潜艇被击毁 | -10 | |
| 想定结束未到达目标区域 | -10 | ||
| rpricre | 潜艇无损伤 | 1 | |
| 潜艇有损伤 | -1 | ||
| 系数 | ω1 | 1 | |
| ω2 | 1 | ||
| 过程 奖励 | qi | 潜艇击沉一艘舰艇 | 3 |
| 潜艇超出作战区域 | -2 | ||
| 鱼雷接近潜艇2 km内 | -3 | ||
| 潜艇诱饵成功引诱鱼雷 | 2 | ||
| 系数 | k1 | 0.5 | |
| k2 | 10 | ||
表5 训练参数配置 |
| 参数名 | 配置信息 | 参数名 | 参数值 |
|---|---|---|---|
| 学习器 | 1块GPU | ε | 0.1 |
| 采样器 | 36个CPU | τmax | 500 |
| 采样批大小 | 30局对战数据 | θ | 1 |
| 训练批大小 | 128 | k | 2 |
| 隐藏层大小 | 128 | 折扣率 | 0.9 |
| 数据记录的间隔 | 10 | 学习率 | 2e-4 |
| 损失值 | 0.5 |
中国指挥与控制学会会刊 