1 环境模型
1.1 问题描述
1.2 分布式UUV集群任务分配数学模型
1.2.1 效用公式
1.2.2 任务分配目标函数
2 基于深度强化学习的分布式UUV集群任务分配算法
2.1 深度强化学习
2.2 奖励函数
2.3 基于改进DDQN的多智能体任务分配算法
2.3.1 双重深度Q网络
2.3.2 概率下降动作选择策略
2.3.3 优先经验回放
2.3.4 神经网络结构
2.4 分布式UUV集群一致性协调SAC算法
2.4.1 态势信息一致性
2.4.2 决策信息一致性
2.5 算法实现
3 仿真与分析
3.1 环境设置
表1 基于改进DDQN的多智能体任务分配算法超参数表Tab.1 Material parameters of the experimental article |
超参数名称 | 参数值 |
---|---|
能源参数ω | 10 |
奖励因子γ | 0.98 |
学习率α | 0.001 |
概率下降参数δ | 5 |
Target-Q-Network更新频率 | 10 episode |