中国科技核心期刊      中国指挥与控制学会会刊     军事装备类重点期刊
智能博弈

一种基于生成对抗模仿学习的作战决策方法*

  • 李东 ,
  • 许霄 ,
  • 吴琳
展开
  • 国防大学联合作战学院, 北京 100091

李 东(1987—),男,工程师,研究方向为军事智能决策。

许 霄(1987—),男,工程师。

Office editor: 张培培

收稿日期: 2023-09-01

  修回日期: 2023-09-26

  网络出版日期: 2024-04-01

基金资助

国家自然科学基金(62006235)

A decision-making method based on generative adversarial imitation learning

  • LI Dong ,
  • XU Xiao ,
  • WU Lin
Expand
  • College of Joint Operation, National Defense University, Beijing 100091, China

Received date: 2023-09-01

  Revised date: 2023-09-26

  Online published: 2024-04-01

摘要

为研究有限作战指挥样本下的智能决策方法,针对作战决策经验难以表达和智能决策学习训练样本稀缺等问题,基于联合战役仿真推演环境,提出了一种基于生成对抗模仿学习的作战决策方法。该方法整合了作战决策经验表示与学习过程,在上层决策和底层动作分层的基础上,采用规则定义特定任务执行逻辑,并利用生成对抗模仿学习算法提升智能体场景泛化能力。在构设的典型对抗场景中,该方法达到了预期效果,算法训练收敛,智能体输出决策合理。实验结果初步表明,生成对抗模仿学习作为一种智能作战决策方法,具有进一步研究价值。

本文引用格式

李东 , 许霄 , 吴琳 . 一种基于生成对抗模仿学习的作战决策方法*[J]. 指挥控制与仿真, 2024 , 46(2) : 18 -23 . DOI: 10.3969/j.issn.1673-3819.2024.02.003

Abstract

To study the intelligent decision making methods under limited decision samples, aiming at the problems that operational decision-making experience is difficult to express and the training samples for intelligent decision learning are limited, based on the joint operational simulation and drill environment, a decision-making method based on generative adversarial imitation learning is proposed. This method integrates the operational decision-making experience representation and learning process. On the basis of high-level decision-making and low-level action, rule definitions are used to specify the logic of task execution, and generative adversarial imitation learning algorithms are utilized to improve the generalization ability of intelligent agents in scenarios. This method achieved expected results in the constructed typical adversarial scenarios. The algorithm training converged and the decisions output by the intelligent agent are reasonable. Preliminary experimental results indicate that generative adversarial imitation learning, as an intelligent operational decision-making method, has value for further research.

联合战役仿真推演系统[1]正在扮演越来越重要的角色。基于该系统进行智能决策研究是军事智能技术的重要方面,对理论和实践有重要意义。近年来,以深度强化学习为代表的技术在围棋[2]和星际争霸[3]等游戏中展现出解决复杂决策问题的能力,为战役决策智能辅助提供了技术借鉴。然而,针对作战决策和战役仿真环境的特点,直接套用基于游戏平台开发的智能决策方法面临启动样本稀缺、奖励信号不足和决策层次抽象等问题。更重要的是,作为人类决策的经验知识难以用于智能体的学习训练。这些问题限制了强化学习在现实决策问题中的应用,需要结合具体场景开发特定的智能决策算法。
本文在将强化学习应用于联合战役仿真推演系统问题的基础上,提出了一种生成对抗模仿学习的方法,整合作战决策经验表示与学习过程,将复杂的战役决策划分为选项和底层动作,并利用规则定义专家决策逻辑,作为训练起点。在典型对抗场景中,智能体控制的兵力能做出合理应对。

1 问题的提出

近年来,基于强化学习的方法在各类游戏平台相继取得突破,成为解决大规模复杂场景下实时决策问题的范式。无论是基于监督学习训练加上强化学习提升[2],还是只依靠奖励信息进行自我博弈对抗的强化学习方式[4],或者设计群体博弈的策略[3],均在相关领域取得突破,显示出基于强化学习的方法作为一种通用决策解决方案的潜力。作为一类典型的强对抗场景下的实时决策问题,联合战役仿真推演环境下的决策问题的研究还不够充分。
由于作战决策和战役仿真环境固有的特点,传统方法如基于规则或案例的决策均不能涵盖作战场景的变化[5]。经典决策理论中涵盖的决策方法难以应对大规模实体仿真动态决策需求。而基本的强化学习算法在联合战役仿真推演环境下面临环境适配和奖励稀疏等问题。具体来说,存在以下几方面的问题。

1.1 样本稀缺

在成熟游戏平台开发的算法启动训练阶段,可利用大量人类玩家的历史数据训练具备一定水准的智能体,作为强化学习提升的起点。这既有效利用人类对抗的经验,又加速了智能训练的过程。然而,由于平台使用场景受限、用户流行度不够和其他原因,与之对应的作战仿真人人推演积累的复盘数据严重不足,对特定场景的推演复盘数据更为稀缺。

1.2 奖励设计难

奖励信号牵引智能体进化的方向。对于成熟的游戏平台,结局胜负有明确的标准,可以针对特定任务开发奖励塑造的方法。而对于战役仿真和作战决策,难以对推演过程和结果进行量化评估。战役仿真大量采用随机和等效原理进行事件处理的运行机制也给奖励设置带来难题。此外,战役行动的组合和路径依赖还会带来信用分配问题(Credit Assignment Problem)[6],例如,有效的打击依赖前期精确的侦察,需要确定如何分配两种行动对最终任务完成的贡献程度。

1.3 决策层次抽象

前两种问题通常也出现在利用强化学习解决游戏和作战决策之外的其他现实问题中。而战役仿真环境下决策问题的独特性还表现为决策层次的抽象性,即决策输出与具体执行之间的差异。战役决策表现形式更接近分层强化学习(Hierarchical Reinforcement Learning,HRL)[7]中选项(Option)[8]的含义,而战役仿真环境接收的指令需要更加具体。与游戏中微操的重要性不同,作战决策中策略性更重要。如何针对战役仿真场景和任务设计合理的决策输出动作空间,是本文尝试回答的核心问题。
生成对抗模仿学习系列方法的提出,为解决上述问题提供了新的思路。

2 研究综述

2.1 强化学习基础

强化学习(Reinforcement Learning, RL)[6]是解决连续决策的基本方法之一,强调智能体在与外部环境的交互中学习。其主要框架是从智能体决策(执行动作A)到环境状态(S)再回到决策的闭环。环境会给出奖励(行动得分或累积奖励R)作为反馈。在离散时间步长中,智能体对环境状态s执行动作a,使环境状态转移到s',转移概率为P,获得的奖励信号为r(由函数R(s)给出)。通常假设状态转移满足马尔可夫性,即下一个状态仅由当前状态和动作决定,与历史状态无关。再加入未来回报折扣率(γ)和决策时间步长长度(T)等参数,构成了强化学习的数学基础:马尔可夫决策过程(Markov Decision Process, MDP)。强化学习的目标是找到策略π:sa,使得下列累计收益最大:
GT=Eπ[ t = 0 TγtR(st,at)]

2.2 模仿学习方法

模仿学习的主要思想是就给定专家示例数据进行学习,其提出的背景是克服强化学习的样本效率问题,即避免与环境进行低效的交互,从高质量专家示例样本中学习策略。模仿学习的主要方法包括行为克隆、逆强化学习和生成对抗模仿学习。

2.2.1 行为克隆

行为克隆(Behavior Cloning, BC)技术是最直观的模仿学习方法,采用监督学习的思路对专家示例样本进行分类或回归学习。基本做法是按照示例样本中的状态-动作进行数据驱动的建模,以便在训练样本未见的状态下做出符合专家示例的动作。行为克隆的输入为离散化的专家示例数据集,由n个状态-动作对构成,即
D={(s1,a1),…,(si,ai),…,(sn,an)}
其中,si为状态,ai为专家在当前状态下做出的动作。智能体的策略为π,其输出动作表示为π(si),对智能体的策略优化可通过如下最小化目标函数得到:
min∑(π(si)-ai)2
专家示例数据样本的数量足够多时,行为克隆在理论上能拟合专家决策的逻辑,具有良好的表现。否则,行为克隆技术固有的复合误差不断累积,最终无法有效应对未见情形。

2.2.2 逆强化学习

逆强化学习(Inverse Reinforcement Learning. IRL)[9]是对强化学习过程的逆向操作。与行为克隆技术直接通过专家数据学习策略不同,逆强化学习是从专家数据式(1)中还原出奖励函数,并利用该奖励函数来学习策略,使得在该奖励函数下学习的最优策略与专家的策略接近。通过求解逆强化学习问题得到的奖励函数能理解专家示例样本数据背后的决策动机或偏好。逆强化学习的输入是根据专家策略演示得到的轨迹样本集合TE,可表示为TE={τ1,τ2,…|π},其中,τi表示第i条轨迹样本,每条轨迹τi可以表示成有序连贯的有限组状态-动作对(s,a):
TE={s1,a1,s2,a2,…,|πi}
逆强化学习的目标是从专家示例样本中恢复奖励函数,假定产生示例轨迹的专家策略能产生最大的奖励,奖励函数r*应该满足不等式 E π E[r*(s,a)]≥Eπ[r*(s,a)]。通过把该不等式求解的问题转换为优化问题,奖励函数的求解过程可表示为
minrmaxπEπ[r(s,a)]- E π E[r(s,a)]
最大熵逆强化学习[10]在基本的逆强化学习基础上引入了最大熵作为正则化因子H(π),进一步提升了策略输出的探索能力。

2.2.3 生成对抗模仿学习

生成对抗模仿学习(Generative Adversarial Imitation Learning, GAIL)[11]结合了模仿学习的需求与生成对抗网络(Generative Adversarial Network, GAN)[12]的思想,将从专家示例中学习转化为GAN的方式,克服了行为克隆不与环境交互从而引起复合误差的弊端。GAIL充分借鉴GAN引入判别网络的做法,将生成模型(生成器)和分类模型(判别器)二者之间的关系建模为博弈对抗过程,从而避免了显式求解奖励函数的过程,该博弈的目标函数可以表示为
minπmaxDEπ[log D(s,a)]+
E π E[1-log D(s,a)]-λH(π)
其中,判别器D(s,a)的目标是将专家策略πE中的决策轨迹(s,a)同待优化的策略产生的轨迹区分开来,作用等同于GAN中的判别函数。H(π)为策略的熵,最大化策略输出的多样性用于鼓励探索行为。

3 方法和步骤

按照生成对抗模仿学习的一般步骤,我们基于某战争模拟系统开展典型对抗场景下的智能决策研究。在仿真推演环境输出态势的基础上,采用战役-战术两层决策的架构。其中,战役决策由生成对抗模仿学习算法生成,利用神经网络对规则进行模仿泛化,输出的选项由底层战术动作变成仿真系统可以接收的指令,如图1所示。
图1 方法流程图

Fig.1 Method flow

3.1 对抗场景介绍

为具体说明本文提出的方法过程并验证算法的有效性,基于某战争模拟系统构设对抗场景如下:
A方组织海上编队前往某海域执行任务,B方决定组织海空力量阻击。决策方为B方,可使用的力量包括海上、空中和陆上部分打击力量。为简化讨论,假设双方每个作战域采用单一武器平台,并根据预设的规则简单裁决。双方参战单元、初始状态、主要任务、奖励信号和停止条件总结如表1所示。
表1 对抗场景描述

Tab.1 Description of the gaming scenario

A方 B方
参战单元 舰船*6+护航飞机*4 舰船*6+护航飞机*2+
陆上打击单位*4
初始状态 舰船速度20 kn前进 所有单位待战
主要任务 前往某海域 阻击A方海上编队
奖励信号 / 有效打击舰船+7,飞机+1
停止条件 仿真时间达到2 h
对抗场景中决策的一方需要考虑对方舰船的防空能力以及护航编队的空中打击能力,结合自身的力量优势,合理调配资源达成作战目的。对战双方主要参战力量在仿真系统中的初始态势如图2所示:
图2 对抗场景初始态势

Fig.2 The initial situation of the gaming scenario

3.2 战场态势处理

战场态势是智能体决策的输入,涉及仿真系统态势数据的处理。战场态势通常包括战场环境数据,参战兵力数据以及任务相关数据。其中,重点是对参战兵力的处理。由于战役仿真推演涉及的单位数量较多,作战态势数量极为庞大,将全局战场态势作为智能体的输入会导致状态空间维度灾难。需要对全战场态势进行筛选与抽象,提取态势信息中关键的信息,舍弃冗余的无效信息,并将筛选后的态势信息作进一步抽象,使其能够满足智能体的训练。在态势筛选过程中,我们保留了与当前任务强相关的主要态势信息:参战单元类型、实力值及位置。为加速模仿学习算法训练速度,我们对筛选过后的态势信息作进一步的抽象,采用栅格化方式表示战场范围内固定区域的作战双方实力值。

3.3 输出动作空间划分

专业的战争模拟系统中,用户指令体系繁复,须根据具体任务填入细节性的参数,控制的动作空间较大,直接采用模仿学习以及强化学习决策网络训练难度大。而战役仿真推演按照实际情况,遵循任务式指挥和分层控制等原则,即决策者只须关注上层行动逻辑,行动的具体执行交给任务部队。智能决策算法同样可以按照这样的原则设计分层的输出动作空间,其中,上层动作对应选项,底层动作对应执行层面的具体指令。
根据想定背景的设置,本文中,上层决策负责输出的战役行动可以划分为海上行动、空中行动和陆上行动,根据作战特点设置包含每种行动组合的3种选项,如表2所示。
表2 战役行动划分

Tab.2 Division of campaign operations

海上行动 空中行动 陆上行动
选项1 机动 巡逻 机动
选项2 攻击 打击 炮火打击
选项3 待战 防空 无动作

3.4 专家示例样本的积累

根据态势处理和输出动作划分,专家决策示例按照一定的规则进行设置。当战场态势满足触发条件时,专家规则就会下发相应的上层决策,再由脚本下发具体指令至仿真系统。例如,选项1的触发条件为敌方编队重心接近事先设置的打击区域,由海上力量机动至相应区域,并伴随空中力量巡逻以及陆上力量机动。为了使得样本更多样化,采用不同时段以及执行不同兵力数量的行动,并加入随机化因素。

3.5 智能体的训练

在基本的生成对抗模仿学习算法中,生成器和判别器的训练是同时的。在训练过程中,训练生成器和判别器都需要与仿真系统进行交互。而仿真系统推演速度较慢,每完成一局推演需要半小时以上,极大增加了算法训练的时间。同时,生成器和判别器的训练难度不一致,通常来说,判别器可以看作一个简单的二分类问题,会比生成器更容易达到收敛。如果同时对二者进行训练,会出现判别器过强而导致生成器损失无法继续下降的情况。
为了解决以上问题,一般使用预训练模型的方法加快算法训练[13]。在预训练阶段,首先通过离线的方式训练出一个较好的判别器,该判别器能较好地区分专家规则产生数据和智能体产生数据,然后固定该判别器网络模型,使得该判别器在整个生成对抗网络中不至于变得过强而导致生成器无法完成训练。
在预训练判别器模型的过程中,我们使用专家规则生成对应的(态势,动作)对作为专家数据,用(态势,随机数)作为智能体样本,通过离线的方式训练判别器模型,有效缓解了仿真引擎产生数据速度慢的问题。训练流程如图3所示。
图3 智能体训练流程

Fig.3 The training process of the Agent

4 实验结果分析

在上述想定背景下,我们搭建的实验环境包括仿真采样和智能体训练两部分,前者对内存和处理器要求更高,具体配置如下:
仿真采样环境,CPU: Intel(R) Xeon(R) Gold 5218 CPU @2.30GHz *6,内存:220 G。
智能体训练环境,CPU:Intel(R) Xeon(R) Gold 5115 CPU @2.40GHz *40,内存:156 G。
采用开源的Ray提供的RLlib[14]封装的强化学习算法,并利用容器方式并行运行多个仿真环境采样。
场景内的情况设置主要是A方特定数量的海空力量“越界”后,B方进行相应的反制,包括一定数量的A方舰船或飞机进入预设区域。在上述场景以及软硬件配置下,训练约持续一周时间,对训练效果进行分析评估如下。

4.1 算法训练效果

首先,从Tensorboard训练曲线上看效果。可以分别从模仿学习智能体训练的判别器和生成器分析收敛情况,大约训练300步各自收敛。其中,判别器的奖励定义为生成器网络输出动作与专家示例之间的差异,差异越接近于0,表明输出越接近于专家示例。随着训练的进行,判别网络获得的奖励曲线如图4所示。
图4 判别器奖励曲线

Fig.4 The reward curve of the discriminator

从以上判别器奖励和专家数据奖励曲线可以看出,在训练初期,判别器将奖励尽可能地分配给专家示例数据,以保证将专家示例数据尽可能地分类为正样本,因此,专家数据奖励上升速度较快,而智能体产生的数据获得的奖励在一开始呈下降趋势。随着训练的不断推进,生成器的能力不断提高,智能体可以输出高质量的策略。另一方面,判别器仍在不断提升其对智能体数据和专家数据的分类能力,二者不断进行博弈,导致训练过程中的奖励不断震荡。在训练到达300步左右,二者基本都趋于收敛,此时专家数据奖励和智能体数据奖励都为-0.7左右。此时,生成器已经能够生成和专家数据几乎相同的策略欺骗判别器,判别器无法再判断数据来自专家示例数据还是智能体的数据。
判别器的损失函数由智能体数据奖励和专家数据奖励共同计算得出,损失曲线如图5所示。
图5 判别器损失曲线

Fig.5 The loss curve of the discriminator

图5可以看到,在训练过程中判别器的损失不断减小,最后趋于稳定,这说明了判别器的判别能力已经达到了峰值。
图6展示了生成器的总损失函数随训练步长的变化曲线。在生成对抗模仿学习算法中,生成器的奖励是由判别器给出的。可以看出,生成器的损失波动和判别器的奖励波动是同步的,当生成器生成的策略趋近于专家策略时,其损失函数下降,同时判别器的智能体奖励部分下降,同样,当生成器损失函数下降时,判别器的智能体奖励部分则会上升,二者在不断博弈的过程中达到平衡,提升各自网络的能力。
图6 生成器损失曲线

Fig.6 The loss curve of the generator

图6可以看到,生成器损失已经收敛,最后趋向于0,表示该生成器输出的决策与专家决策数据已经极为接近,可以欺骗判别器,使得判别器无法判断数据到底来自专家数据还是智能体数据。生成器损失下降最后达到收敛标志着智能体已经可以模仿专家规则做出决策,达到了模仿学习的目的。

4.2 智能体输出行为效果

从训练完的生成器输出行为来看,生成对抗模仿学习算法可以逼近设置的规则行为。在A方设置行动为特定数量的海空力量“越界”时,智能体控制的B方作战单元能如期进行处置,展示了模仿规则的能力。在进行多轮次博弈对抗训练和改变对手行为后,智能体能有效应对未见情形,展现出一定的泛化能力。在A方出现规则中并未明确的海空力量,智能体控制的B方单元仍能合理应对。
图7展示了在A方作战单元进入预设的打击范围后,B方智能体控制作战力量实施打击的示意图。根据A方编队特点及防护范围,B方使用空中集火攻击的方式打击价值最高的A方舰船,并利用陆上火力补充打击。而在规则设定时,并未指定B方两架飞机从同一阵位打击的行为。
图7 智能体输出行为

Fig.7 The output action by the agent

5 结束语

基于战役仿真环境进行智能决策研究有重要的现实意义。本文提出的在特定场景任务下利用生成对抗模仿学习方法训练决策智能体,在一定程度上克服了基本强化学习在作战决策领域的样本稀缺、奖励设计以及决策层次抽象等问题,并展示了作为一种基于专家示例决策的智能决策方法,在复杂战役推演场景中能够应对一些未见情形的泛化能力。同时,生成对抗模仿学习固有的生成样本利用效率低和模型坍塌风险给这种方法在实际中部署带来挑战[15],值得进一步研究。
[1]
胡晓峰, 司光亚, 吴琳. 战争模拟原理与系统[M]. 北京: 国防大学出版社, 2009.

HU X F, SI G Y, WU L. War gaming & simulation principle and system[M]. Beijing: National Defense University Press, 2009.

[2]
SILVER D, HUANG A, MADDISON CJ, et al. Mastering the game of go with deep neural networks and tree search[J]. Nature. 2016, 529(7587):484-592.

DOI

[3]
VINYALS O, BABUSCHKIN I, CZARNECKI W M, et al. Grandmaster level in StarCraft II using multi-agent reinforcement learning[J]. Nature, 2019, 575(7782): 350-354.

DOI

[4]
SILVER D, HUBERT T, SCHRITTWIESER J, et al. A general reinforcement learning algorithm that Masters chess, shogi, and Go through self-play[J]. Science, 2018, 362(6419): 1 140-1 144.

DOI

[5]
张琪. 学习驱动的CGF决策行为建模方法研究[D]. 长沙: 国防科技大学, 2018.

ZHANG Q. Research on learning driven behavior modeling methods for decision making of computer generated forces(CGFs)[D]. Changsha: National University of Defense Technology, 2018.

[6]
SUTTON R S, BARTO A G. Reinforcement learning: an introduction[M]. 2nd ed. Cambridge MA: MIT Press,1998.

[7]
BARTO A G, MAHADEVAN S. Recent advances in hierarchical reinforcement learning[J]. Discrete Event Dynamic Systems, 2003, 13(4): 341-379.

DOI

[8]
SUTTON R S, PRECUP D, SINGH S. Between MDPs and semi-MDPs: a framework for temporal abstraction in reinforcement learning[J]. Artificial Intelligence, 1999, 112(1/2): 181-211.

DOI

[9]
NG A Y, RUSSELL S J. Algorithms for inverse reinforcement learning[C]// Proceedings of the Seventeenth International Conference on Machine Learning. 2000: 663-670.

[10]
ZIEBART B, MAAS A, BAGNELL J, et al. Maximum entropy inverse reinforcement learning[C]. Proceedings of the Twenty-Third AAAI Conference on Artificial Intelligence, Chicago, IL, USA, July, 2008.

[11]
HO J, ERMON S. Generative Adversarial Imitation Learning[C]. Advances in Neural Information Processing Systems, Barcelona, Spain, December, 2016.

[12]
GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[C]. Advances in Neural Information Processing Systems, Montreal, Quebec, Canada, December, 2014.

[13]
ZHANG Y, LUO F, YU Y. Improve generated adversarial imitation learning with reward variance regularization[J]. Mach Learn, 2022(111):977-995.

[14]
LIANG E, LIAW R, NISHIHARA R, et al. RLlib: Abstractions for distributed reinforcement learning[C]. Proceedings of the 35th International Conference on Machine (ICML), Stockholm, Sweden, July, 2018.

[15]
林嘉豪, 章宗长, 姜冲, 等. 基于生成对抗网络的模仿学习综述[J]. 计算机学报, 2020, 43(2): 326-351.

LIN J H, ZHANG Z C, JIANG Chong, et al. A survey of imitation learning based on generative adversarial nets[J]. Chinese Journal of Computers, 2020, 43(2): 326-351.

文章导航

/