现代战争中,无人机被大量投入战场,发挥成本低、灵活性强、冗余抗损等优势,迅速成为影响战争态势发展的关键力量
[1]。多无人机协同追捕对抗任务是无人机在现代战争中的典型应用
[2⇓⇓⇓-6],其实质是多智能体智能决策问题。学术界中应用较多的基于数学模型和仿生的多无人机协同追捕对抗策略,往往需要已知逃逸无人机策略。如文献[
7]和[
8]分别采用Voronoi图和阿波罗尼奥斯圆理论方法解决多智能体协同追捕问题。文献[
9]和[
10]分别提出仿鹰-欧椋鸟和仿灰狼智能行为和团队合作行为,给出了无人机集群追逃控制方法。真实战场环境中逃逸无人机的策略往往未知,因此对于策略未知逃逸无人机环境中多无人机协同追捕对抗任务研究更具重要意义和实用价值。
多智能体强化学习(Multi-Agent Reinforcement Learning,MARL)
[11]具有对未知环境学习探索的特点。随着MARL的广泛应用,将其用于解决多无人机协同追捕对抗策略问题,是实现空战智能决策的重要技术范式
[12]。文献[
13]针对太空中多智能体之间的追逃博弈问题,应用MARL中的多智能体深度确定性策略梯度(Multi-Agent Deep Deterministic Policy Gradient,MADDPG)算法对智能体运动策略进行训练,使其涌现出“围捕”“拦截”“合作”“潜伏”等系列智能博弈行为。文献[
14]将合作博弈中的凸博弈与非合作博弈中的马尔科夫博弈相结合,提出用马尔科夫凸博弈来解决智能体的协同对抗问题。文献[
15]在基于MARL中的深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法基础上,通过由易到难的课程学习方式不断提高无人机追捕能力,有效提高了算法的泛化性。
MARL系列算法是基于探索学习的,通过多次训练在一定程度上能实现对策略未知逃逸无人机的追捕。但由于经常采样到价值较低的经验数据,导致MARL系列算法训练速度慢。且由于以最大
Q值作为期望
Q值,使得
Q值出现高估问题,导致策略网络训练迭代目标不准确,影响生成策略的智能性。为此,文献[
16]从经验回放池数据着手,将并行、优先经验回放的思想融入MADDPG算法中,采用[M/N]个线程对经验池数据并行处理,选择损失函数值最小的线程网络梯度参数更新主网络梯度参数,在相同时间内使得经验数据的吞吐量扩展至[M/N]倍,从而提升训练速度。文献[
17]将优先经验回放(Prioritized Experience Replay,PER)机制与传统深度强化学习算法和匈牙利算法相结合,提高高价值经验数据的利用率,加快算法收敛速度。文献[
18]为解决深度
Q网络(Deep Q-Network,DQN)算法
Q值高估的问题,对目标网络和当前网络独立地进行价值估计,将最优动作选择和价值评估分开进行,一定程度解决
Q值高估带来的影响。文献[
19]通过选取双Critic网络中较小的估计
Q值计算损失,相较于MADDPG算法有了更好效果。上述研究和改进大多应用在较为理想的任务环境,对于策略未知逃逸无人机等环境中多无人机协同追捕对抗任务研究较少。
针对上述问题,本文开展存在策略未知逃逸无人机环境中多无人机协同追捕对抗任务研究。首先为提高训练速度,加快算法收敛,采用基于树形结构储存的PER机制
[20-21]对MADDPG算法随机采样过程进行改进。为解决MADDPG算法存在
Q值高估问题
[22],设计3线程并行Critic网络模型,提出P3C-MADDPG(P—PER,3C—3线程并行Critic网络模型)算法。然后基于构建的无人机运动学模型,设计追逃无人机的状态空间、稀疏奖励与引导式奖励相结合的奖励函数、加速度不同的追逃动作空间等训练要素。最后基于上述训练要素,通过P3C-MADDPG算法生成策略未知逃逸无人机环境中多无人机协同追捕对抗策略。