1 空战行为决策框架设计
1.1 总体框架设计
1.2 DDPG算法模型
1.3 Actor-Critic框架中网络结构
1.4 Actor网络延迟更新机制
1.5 基于动态目标的人工经验奖励机制
1.6 优先采样机制
1.7 算法决策框架流程
参数输入:状态空间S,动作空间A,折扣率γ,学习率α,目标网络更新软参数τ 初始化经验池和经验池大小 初始化策略Critic网络参数θQ和策略Actor网络参数θμ 初始化目标Critic网络参数θQ→θQ'和目标Actor网络参数θμ→θμ' |
---|
repeat: 起始状态S0 repeat: 处于状态St时,依据策略Actor网络输出选择动作at=π(st| θμ)+Nt(添加噪声,鼓励探索) 战机执行动作at,与环境交互,得到奖励Rt+1以及新的状态St+1 计算St,at,Rt+1,St+1的TD误差大小,按大小排序存入经验池D中 依据经验排序从经验池中进行优先抽样得到S,a,R,S' 依据目标Q网络得到更新目标: 损失函数为 以损失函数对策略Q网络进行更新 策略Q网络每更新k次,策略Actor网络更新一次 状态转移St+1→St 对目标AC网络的参数进行软更新: 当St+1为终止状态时,跳出循环 训练结束,退出循环 |
2 仿真实验结果
2.1 实验仿真环境
2.2 模型构建
表1 超参数设置 |
超参数 | 数值 | 超参数 | 数值 |
---|---|---|---|
经验池大小 | 10000 | Actor网络学习率 | 1e-6 |
批大小 | 32 | Critic网络学习率 | 5e-6 |
折扣率γ | 0.9 | Actor更新间隔k | 5 |
α初始值 | 1.0 | 软更新率τ | 0.02 |
2.3 实验结果分析
表2 消融对比实验设置 |
实验框架 | 优先采 样机制 | Actor网络 延迟更新 | 嵌入式人工经验 奖励机制 |
---|---|---|---|
ACBDF_DDPG | √ | √ | √ |
ACBDF_DDPG_A | × | √ | √ |
ACBDF_DDPG_B | √ | × | √ |
ACBDF_DDPG_C | √ | √ | × |
注:√表示采用该机制,×表示不采用 |