近年来,深度学习(Deep Learning, DL)技术快速发展,业界将其融入强化学习(Reinforcement Learning, RL)框架形成深度强化学习(Deep Reinforcement Learning, DRL)。深度强化学习能够有效解决马尔可夫决策过程(Markov Decision Process, MDP)中的序列决策问题,目前已在单智能体的决策方面取得了巨大的进展,在视频级的Atari游戏
[1]、围棋Alpha Go
[2]等领域均取得了成功。而现实中大多数应用涉及多个智能体,对多智能体强化学习算法的研究已逐渐增多,目前在多机器人控制
[3-4]、多人游戏
[5]、交通控制
[6-7]、协同对抗方面
[8⇓-10]取得了一定进展。
Mnih等人将神经网络技术与强化学习结合提出了深度Q网络,采用目标网络和经验回放机制进行网络训练,将其应用于未经任何像素处理的Atari视频游戏上,达到了人类水平
[1]。然而,该方法在处理高维观测空间时只能处理低维且离散的动作空间,并不适合许多具有高维连续动作空间的物理控制任务。Lillicrap等人将深度Q学习网络的思想融入连续动作领域,提出了深度确定性策略梯度(Deep Deterministic Policy Gradient, DDPG)
[11]。该算法应用于连续动作空间,且在大多数任务中可以实现“端到端”的策略学习,属于免模型的演员-评论家(Actor-Critic, AC)算法
[12]。但是DDPG算法仅针对单智能体强化学习,在多智能体强化学习中针对每个智能体只能单独地应用DDPG算法,随着训练进行,各智能体的策略都在发生变化,但对每个智能体而言,环境是非平稳的,会造成策略网络训练难以收敛。Lowe等人探索了多智能体在连续动作领域的深度强化学习方法,提出了多智能体深度确定性策略梯度算法(Multi-Agent Deep Deterministic Policy Gradient, MADDPG),该方法采用集中式训练分布式执行(Centralized Training and Distributed Execution, CTDE)的框架,在动作价值函数中考虑了其他主体的行动策略,策略网络则是完全独立的
[13]。而DDPG和MADDPG都存在价值函数高估和次优策略的问题。Fujimoto等人提出了双延迟深度确定性策略梯度算法(Twin Delayed Deep Deterministic Policy Gradient, TD3),该方法是针对单智能体强化学习的DDPG算法的拓展,通过取两个Critic网络输出值之间的最小值来限制高估,并通过延迟策略更新进一步提高性能
[14]。Zhang等人将TD3算法与MADDPG算法结合,提出了多智能体双延迟深度确定性策略梯度算法(Multi-Agent Twin Delayed Deep Deterministic Policy Gradient, MATD3),该算法能够有效降低高估误差和估计结果的方差
[15]。但MATD3算法并未考虑辅助奖励与真实奖励不完全一致的问题,且在训练效率上并未进行优化操作。
本文在MATD3算法基础上进行改进,考虑多智能体存在同质的情况,根据同质性将多智能体分为若干个簇,每个簇共享动作价值网络以及策略网络的参数,从而有效提升训练效率,能够较好地适用于智能体数量庞大但同质现象较多的场景。同时,针对奖励稀疏的情景下辅助奖励与真实奖励不完全一致的问题,引入了辅助奖励衰减因子,在训练初期保证策略网络和动作价值网络能够得到较好的训练,而训练后期则逐步调整至与真实奖励相对应的收敛结果。在对MATD3算法进行以上两点改进后,选择智能战车博弈对抗场景进行仿真应用及分析,测试算法的收敛性能以及应用效果,随后,将所提出的改进算法与连续控制领域中的典型多智能体强化算法MATD3进行性能对比,验证改进算法的有效性。