中国科技核心期刊      中国指挥与控制学会会刊     军事装备类重点期刊
智能博弈

海空跨域协同兵棋AI架构设计及关键技术分析*

  • 苏炯铭 ,
  • 罗俊仁 ,
  • 陈少飞 ,
  • 项凤涛
展开
  • 国防科技大学 智能科学学院, 湖南 长沙 410073

苏炯铭(1984—),男,博士,副研究员,研究方向为智能博弈。

罗俊仁(1989—),男,博士研究生。

Office editor: 李楠

收稿日期: 2023-09-28

  修回日期: 2023-11-03

  网络出版日期: 2024-04-01

基金资助

国家自然科学基金(61806212)

国家自然科学基金(62376280)

Architecture design and key technologies analysis of wargaming AI for sea-air cross-domain coordination

  • SU Jiongming ,
  • LUO Junren ,
  • CHEN Shaofei ,
  • XIANG Fengtao
Expand
  • College of Intelligence Science and Technology, National University of Defense Technology, Changsha 410073, China

Received date: 2023-09-28

  Revised date: 2023-11-03

  Online published: 2024-04-01

摘要

以深度强化学习为核心的智能博弈技术在游戏领域内的突破和进展为海空兵棋AI的研究提供了借鉴。智能体架构设计是需要解决的关键问题,良好的架构能够降低算法训练的复杂度和难度,加快策略收敛。提出基于随机博弈的海空跨域协同决策博弈模型,分析了相关的均衡解概念;在分析典型智能体框架基础上,针对海空兵棋推演决策博弈过程,提出基于多智能体分层强化学习的智能体双层架构,能够有效解决智能体间协作和维度灾难问题;从兵力协同、智能体网络设计、对手建模和训练机制共4个方面分析了关键技术。期望为海空兵棋AI设计实现提供架构指导。

本文引用格式

苏炯铭 , 罗俊仁 , 陈少飞 , 项凤涛 . 海空跨域协同兵棋AI架构设计及关键技术分析*[J]. 指挥控制与仿真, 2024 , 46(2) : 35 -43 . DOI: 10.3969/j.issn.1673-3819.2024.02.006

Abstract

The breakthrough and progress of intelligent gaming technology with deep reinforcement learning as the core in the field of games provide a method reference for the research of agents in sea-air wargames. The architecture design of the agent is the primary core key problem that needs to be solved, and a good architecture can reduce the complexity and difficulty of training and accelerate the convergence of policies. A stochastic game model of sea-air cross-domain cooperative decision-making has been proposed, and its corresponding equilibrium solution concepts have been analyzed. Based on the analysis of typical agent frameworks, aiming at the decision-making gaming process of sea-air wargames, and then an agent bi-level architecture based on multi-Agent hierarchical reinforcement learning is proposed, which can effectively solve the problems of collaboration and dimensional disaster. The key technologies are analyzed from four aspects: force coordination, agent network design, adversary modeling and training mechanism. Hoping to provide architectural guidance for the subsequent design and implementation of sea-air wargaming agents.

传统作战推演中智能体通常采用规则和分层状态机等决策机制,推演采用基于事件驱动的仿真机制,智能水平和灵活性较低。近年来人工智能(Artificial Intelligence, AI)技术在围棋[1]、德州扑克[2-4]、星际争霸[5]、斗地主[6]、Dota2[7]、王者荣耀[8]等一系列游戏博弈中取得重大突破和进展,其对抗水平基本达到或超越了人类。其中星际争霸等即时策略游戏与兵棋推演问题最为相似。完全集中式学习方法包括CommNet[9]、BiCNet[10]等;集中式训练分散式执行方法主要有反事实多智能体(Counterfactual Multi-Agent, COMA)[11]、MADDPG[12]、VDN[13]、QMIX[14]、QTRAN[15]等。这些以深度强化学习为核心的智能博弈技术发展为利用兵棋的智能作战推演提供了新的解决途径。
本文首先基于随机博弈理论建立海空跨域协同决策博弈模型及解概念;其次,在分析典型兵棋AI框架的基础上,提出海空兵棋AI“双层架构”设计方案;最后,从兵力协同、智能体网络设计、对手建模和训练机制方面分析了关键技术。

1 海空跨域协同决策博弈模型

1.1 即时策略游戏与海空兵棋对比

计算机兵棋一般由棋子、棋盘和规则组成,正在由传统的回合制向即时对抗的方向发展。即时对抗型兵棋允许双方同时开展军事行动,并即时进行裁决计算,其运行模式更像是一种即时策略游戏,只不过兵种、武器装备性能参数和裁决规则等是对真实战争的抽象和描述。星际争霸等游戏问题与兵棋博弈对抗问题在科学问题本质上具有很大的一致性,但也有明显的区别[16-18],如表1所示。
表1 即时策略游戏与海空兵棋推演对比

Tab.1 Comparison of real-time strategy game and sea-air wargaming

相似性与区别 比较项 即时策略游戏 海空兵棋推演
相似性 信息不完全 由于存在战争迷雾,对对手状态感知具有不完全性,相当于对环境状态部分可观。
状态高复杂高动态 状态包括环境、己方和敌方智能体的状态,维度随智能体数量增加而增加,智能体还可能生成和消亡。
决策搜索空间巨大 由于作战实体异构、数量多、可选动作多,组合爆炸问题使得决策空间巨大。
策略自适应 能采用的战术战法很多,可能会相互克制,没有绝对必胜的制胜策略,可能存在多个均衡解,策略需要自适应调整、多兵种协同协作配合,形成体系优势。
策略协同 大规模异构作战实体之间需要在时域、空域、任务域等方面进行协同配合。
长时决策 在对抗过程中都需要进行多次决策。
区别 对称性/平衡性 相对对称,不同种族符合平衡性设计。 通常高度不对称,兵棋推演双方在能力、单元组成、起始位置和最终目标上存在差异。
效果即时性 动作效果则在毫秒至秒级。 军事行动具有更加稀疏且延时的作战效果。比如使用导弹是兵棋中常见的作战方式,而导弹发射动作的效果往往要等待数秒或数分钟或更长的导弹飞行时间,最终击中/未击中目标后才能获取。
效果随机性 随机性较小。 随机性较大,兵棋推演在所有攻击裁决过程中均受到随机因素的影响,即随机性较高,结果差距较大,可能产生压制甚至消灭对方的战果,也可能不产生任何效果。
决策频率 即时策略游戏AI的指令生成间隔时间是几十至几百毫秒。 兵棋棋子的决策间隔时间可能更长,达到数秒或更长时间。
从博弈论角度对海空兵棋推演决策问题进行建模主要包括两方面内容:一是博弈模型,二是解的概念。

1.2 海空跨域协同随机博弈模型

针对典型海空联合作战场景,将海空联合作战决策过程描述为在战场状态空间、决策动作空间上的多步强化学习过程,其中作战实体作为智能体进行描述。决策的最终目标是使得我方智能体的累计奖励最大。
利用零和随机博弈(Stochastic Game,SG)模型建模海空联合作战决策过程。零和随机博弈中我方智能体接收到环境状态信息和奖励之后,进行联合行动决策,生成下一步的联合动作,同样敌方智能体也将生成其联合动作,双方在战场环境中相互对抗,都试图获取最大的累积期望奖励,如图1所示。由于是零和博弈,双方的奖励之和为零,交战结果最终只会一胜一负或平,不会出现共赢的情况。
图1 随机博弈过程

Fig.1 Stochastic game process

随机博弈模型可以采用五元组进行形式化描述(S, A i i = 1 N, B i i = 1 M,Γ, R i i = 1 N):
S表示当前博弈的环境状态空间,初始状态为S1;
Ai表示己方智能体i的动作空间,N表示己方智能体数量;
Bj表示敌方智能体j的动作空间,M表示敌方智能体数量;
Γ:S×AN×BMS:表示环境的状态转移函数;
Ri:S×AN×BM→R:表示己方智能体i (i∈[1,N])的奖励。
随机博弈模型具有马尔科夫性,环境状态和奖励只与当前的状态和联合动作相关。
在时间t步己方的收益为己方所有智能体收益的函数ut:
ut=f( R i i = 1 N,t)
在海空体系对抗中,一般情况下,ut i = 1 NRi,也就是说整体收益并不等于部分收益之和,它们之间的关系可能是线性或非线性关系,甚至是时变的。
由于环境状态转移的随机性(来自于作战效果的随机性与不确定性),在一次有限时步T的对抗过程完成后,己方采用策略π的总收益期望(不考虑折扣因子)为
Επ(u1+u2+…+uT)=Επ( t = 1 Tut)
类似地可以定义敌方的收益和总收益期望。

1.3 随机博弈模型解概念

1)最优响应类解
最优响应类解基于智能体间相互的最优响应,如表2所示,局限性在于:次优性,均衡解不能保证智能体得到的期望回报最大;不唯一性,均衡解不唯一,每个均衡解智能体得到的回报不同;需要采用帕累托最优等方法选择均衡;不完全性,均衡解没有规定非均衡路径上的均衡行为,即难以处理临时干扰导致的策略下概率为0的历史路径,博弈论中采用子博弈完美均衡和颤抖手完美均衡解决。
表2 最优响应类解

Tab.2 Best response solution

解的概念 适用博弈模型 说明 假设
Minimax解 2人零和博弈 2个智能体之间的相互最优响应。 假设智能体间策略概率独立
纳什均衡解 多人一般和博弈
随机博弈
每个智能体的策略是其他智能体策略的最优响应,是minimax解的泛化情形。分为纯策略纳什均衡和混合策略纳什均衡。博弈可能有多个纳什均衡,但是每个均衡解的期望收益不同。 假设智能体间策略概率独立
ε-纳什均衡解 多人一般和博弈
随机博弈
用于处理行动概率为无理数,计算系统无法完全表达的情形;纳什均衡解难以计算求解,是纳什均衡解的近似解。受ε大小的影响,ε-纳什均衡解有可能不接近于真实的纳什均衡解。 假设智能体间策略概率独立
相关均衡解 多人一般和正则式博弈
随机博弈
相关均衡能够得到比纳什均衡更大的期望回报。 考虑策略之间的相关性,一般需要外部协调者,是纳什均衡的推广。
2)无憾类解
遗憾值表示智能体在过去的事件中选择了不同的行动(或策略),获得的奖励与本可获得的奖励之间的差异值。遗憾值的定义有多种方法,随机博弈中智能体i的遗憾值可以定义为
Regre t i z= m a x π i e = 1 z[Ui(<πi,- π - i e>-Ui(πe))]
其中z表示局数,πe表示联合策略, Ui(<πi,- π - i e>表示智能体采用策略πi,其他智能体采用联合策略πe时的收益值,Ui(πe)表示采用联合策略时智能体i的收益值。无憾解要求对任意智能体策略的平均遗憾值接小于等于0:
i: l i m z 1 zRegre t i z≤0
类似于ε-纳什均衡解,对于ε>0,同样可以定义ε-无憾解。无憾解与均衡解存在关联。在2人零和正则式博弈中,无憾解经验分布收敛于Minimax解,在一般和正则式博弈中,无憾解经验分布收敛于相关均衡解。
本文采用红蓝双方团队随机博弈纳什均衡作为模型求解的解概念,描述为红蓝双方联合策略元组( π 1 *,…, π N + M *),满足:
Εr( π 1 *,…, π i *,…, π N + M *)≥Εr( π 1 *,…,πi,…, π N + M *),∀πiΠi,1≤iN
Εb( π 1 *,…, π i *,…, π N + M *)≥Εb( π 1 *,…,πi,…, π N + M *),∀πiΠi,N+1≤iN+M
其中,Εr(π1,…,πN+M)、Εb(π1,…,πN+M)分别表示红、蓝方在联合策略(π1,…,πN+M)下的期望奖励总和;πi为智能体i在策略空间Πi中选择的任一策略。

2 海空跨域协同兵棋AI架构设计

从博弈论的视角分析,考虑整个序贯决策问题的复杂性,计算纳什均衡是NP难问题,计算ε-纳什均衡是PPAD-完全问题,求解非常困难,在多项式时间内并无有效的方法能够求解,最坏的情况下仍需要指数级时间。从强化学习视角分析,博弈双方的目标都是要最大化自己的总收益期望,得到一个最佳的策略,以输出最优的联合动作。

2.1 知识与数据混合驱动

当前兵棋AI的研发模式主要包含三类,即知识驱动、数据驱动以及知识与数据混合驱动,如表3所示[19-20]。知识驱动的兵棋AI研发利用人类推演经验形成知识库,进而实现给定状态下的智能体决策。数据驱动的兵棋AI主要采用深度强化学习为基础进行策略学习,是当前的主流决策技术。主要包括深度强化学习、多智能体深度强化学习、分层深度强化学习等方法。本文采用的知识与数据混合驱动框架结合了两者的优势。
表3 不同类型兵棋AI优缺点对比

Tab.3 Comparison of advantages and disadvantages of different types of Wargame AI

框架类型 典型算法类型 优点 缺点 典型智能体
知识驱动型 基于行为树、状态机的方法。 实现相对简单,不需要借助于大量的数据进行策略的训练与学习,具有较强的可解释性。 受限于人类本身的推演水平,同时环境迁移与适应能力较差。 信息工程大学的“兵棋分队级AI-微风1.0”;中国科学院自动化研究所的“兵棋群队级AI-紫冬智剑2.0”[19];国防科技大学的“AIMP”。
数据驱动型 独立强化学习方法。 缓解不完全信息、高维状态空间等问题。 每个智能体将其他智能体视为环境的一部分,环境具有非稳态特性,缺乏理论上的收敛性保证,使得学习不稳定。每个智能体都独立地计算纳什均衡策略,它们的策略组合可能也不是全体的纳什均衡。 近端策略优化PPO算法[21]、DQN算法[22]
基于联合动作的强化学习方法。 能较好处理非稳态环境和信度分配问题。 随着智能体数量的增加,联合状态、动作空间呈指数方式增加,采用策略梯度优化的方法在计算上非常困难。
多智能体强化学习。 可以实现大规模异构作战实体的协同配合,缓解学习不稳定不收敛、联合状态和动作空间呈指数方式增加爆炸问题。 仍面临非平稳环境和信度分配问题,并且可能收敛到多个均衡解,而不同的均衡解所对应的期望收益不同。 QMIX算法[14]、WQMIX算法[23]
分层强化学习。 通过分层降低决策缓解维数灾难问题 难以确定分层层数、各层学习目标等。 HIRO算法[24]
知识与数据
混合驱动型
在作战的不同阶段或场景采用不同的算法;人类军事领域知识与机器学习算法设计融合。 实现人机协作、人机融合,加快训练算法收敛。 依赖/受限于人类领域知识。 武警警官学院开发的分队/群队AI“破晓星辰2.0”[19]

2.2 海空兵棋AI双层架构

海空兵棋AI由多个决策智能体组成,这些子智能体具有分层结构,上层智能体对下层智能体进行指导,下层智能体实现上层智能体的决策,同层智能体进行协同合作。上层任务决策与下层动作决策采用异步执行方式,一般上层任务决策时间间隔较大,而下层动作决策时间间隔较小。上层任务决策的时间间隔与任务完成时间相关,下层动作决策时间间隔与作战实体类型、任务类型、态势感知信息处理速度等因素相关。
智能体的双层架构借鉴了联合作战任务规划和指挥控制过程。在联合作战任务规划中,一般也是采用分层的方式逐层分解进行详细规划,从作战目标分析到作战行动制定(形成作战方案)到作战任务设计(形成作战计划)到计划执行与行动控制(作战计划执行与临机规划决策)等。非分层的强化学习方法采用端到端的方式从状态到动作输出,决策行为隐含在神经网络之中,难以解释各层级兵力的作战意图。
图2所示,海空兵棋AI整体架构分为“双层架构”,上层为任务决策智能体,负责规划作战任务序列;下层为某类作战实体的决策智能体,分别用于控制作战飞机、舰艇和常导等力量实现上层智能体分配的作战任务。值得注意的是,这里展示的是“双层架构”,智能体的实际架构层数和决策智能体分类还可以按需进行扩展。
图2 具有双层结构的海空兵棋AI架构

Fig.2 Sea-air wargaming agent architecture with bi-level structure

下层智能体的分类主要考虑的是各军兵种,如空军、海军、常导和战略支援部队等。这使得每类智能体的作战实体属性大致相同,具有类似的作战决策空间,有利于算法的动作探索和利用,增强智能体的泛化能力,即在新的作战装备加入之后,智能体还能够具有较好的决策性能,或者只需要少量的训练就能使智能体的策略稳定收敛。
多智能体分层强化学习架构采用多智能体方法,实现异构作战单元之间的协作配合,使得下层智能体更贴近无人平台自主应用;分层强化学习方法,实现对复杂决策问题的分而治之,同时与真实场景指挥决策体系对应,使得智能体更贴近真实战场的各级指挥员,提供指挥辅助决策,增强决策的可解释性。

2.3 智能体典型模块设计

1)战场环境状态空间表示
海空战场环境随作战过程快速动态变化,因此需要对环境状态建立相关模型。主要包括对战场空间划分,对敌我双方作战实体种类、位置和状态建模以及对战场环境建模等。环境模型表现的是当前战场在某一时刻的静态状态,建模输出可以是统计量和或状态量。
2)智能体动作空间表示
动作空间主要包括上层任务决策空间和下层动作决策空间。上层任务决策空间建模主要建立海空联合作战任务模型,主要要素包括任务类型、任务开始时间、任务目标、任务区域等。下层动作决策空间建模主要建立各类型作战实体动作模型,如机动、导弹发射、雷达开关、干扰机开关等。由于作战实体的种类和数量较多,其决策空间组合以后变得非常大,通过分层结构设计,能够大大减少其决策空间,降低策略学习难度,加快训练收敛。
3)奖励函数塑造
为缓解强化学习在海空联合作战中出现的奖励延迟和稀疏等问题,需要进行两方面建模:一是真实作战毁伤效果奖励建模,如采用得分的形式进行奖励反馈;二是对如侦察、机动等无毁伤作战行动的奖励建模,通过奖励塑造等方式构建奖励函数模型。奖励函数值中真实作战毁伤效果奖励主要用于反馈上层决策,指导任务优化;无毁伤作战行动的奖励主要用于反馈下层行动决策,优化作战实体的具体动作。
4)信息交互设计
智能体之间的信息交互关系采用同一层的智能体之间进行信息交互共享(便于智能体之间相互协调配合),信息从上层智能体往下层智能体方向单向流动的方式。值得注意的是,战场态势(敌情、我情和战场环境)信息同步至各个层次的智能体,作为决策的主要依据。多智能体强化学习信息流和输入输出如图3表4所示,上层智能体和下层智能体都采用深度神经网络进行设计,以处理高维复杂战场空间特征和离散/连续的兵棋棋子动作决策空间。
图3 多智能体强化学习信息流图

Fig.3 Information flowchart of multi-Agent reinforcement learning

表4 智能体输入输出项分析

Tab.4 Agent input-output analysis

输入输出项 描述
战场状态
序列
1)敌我双方作战实体信息:实体类型、位置、载荷类型、数量、状态等;
2)战场环境信息:作战时间、地理环境、气象和水文情况等。
己方棋子
动作序列
己方棋子的历史动作序列信息。
任务目标 达成状态目标,如毁伤敌方特定目标或达成奖励目标,如获得规定的奖励。
棋子动作 1)作战飞机棋子的动作主要包括飞行的航向、速度、高度、目标、发射导弹、雷达开关、电子干扰开关等;
2)舰艇棋子的动作主要包括航向、速度、发射导弹等;
3)常导棋子的动作主要包括发射导弹、目标、航迹等。
奖励信息 从当前状态到最终状态的奖励和。

3 海空跨域协同兵棋AI关键技术

3.1 面向兵力协同的多智能强化学习训练

面向兵力协同的多智能体强化学习方法训练架构主要有3类,这类方法主要采用端到端的方式进行决策控制,并不类似于人的分阶段分模块的OODA决策过程,如图4所示。
图4 3种典型的智能体架构

Fig.4 Three typical agent Architectures

1)Actor-Critic架构
Actor-Critic(AC)架构结合了基于值函数和基于策略的方法,被广泛应用于多智能体问题的解决方法中[10]。Actor是策略网络,负责输出动作,Critic是评价网络,负责对Actor生成动作的优劣进行评价并生成TD误差信号,同时指导Actor和Critic网络参数的更新。Actor和Critic网络都可以是深度神经网络,Actor网络输入状态,输出动作,以深度神经网络进行函数拟合,对于连续动作深度神经网络输出层可以用tanh或sigmod生成,离散动作以softmax作为输出层输出每种动作的选择概率。Critic网络输入为状态和Actor网络输出的动作,输出为Q值。Actor-Critic结构的优势在于可以在回合结束后进行更新,比传统的策略梯度算法更快。AC架构中Actor网络和Critic网络可以是多层感知器网络、卷积神经网络或循环神经网络等,如图4a)所示。
2)Actor架构
Actor架构采用同一个策略网络控制所有智能体的动作。其中典型的方法有共享参数多智能体策略下降Sarsa(λ)算法和进化策略算法等。策略网络动作探索的方式主要有以下两种:第一种是策略梯度优化方法,在动作上添加噪声进行探索,不同的动作带来不同的奖励,通过奖励的大小来计算梯度,再反向传递梯度,更新策略网络的权重;第二种方式是进化策略方法,直接扰动神经网络权重参数,不同的权重参数带来不同的奖励,通过奖励大小对应的权重按照一定的比例更新策略网络的权重,进化策略方法一般采用并行计算方法同时探索来加快训练学习过程,如图4b)所示。
3)分层架构
分层强化学习通过将任务分解成多个子任务来提高学习效率和性能,从而解决复杂任务的强化学习问题,一般分为基于选项(option)和基于子目标(subgoal)两类。基于选项的方法使用选项来表示可选的动作,可以在不同的任务中重复使用,从而提高学习效率和泛化性能。基于子目标的方法将任务分解成一系列子目标,直接学习子目标的策略和价值函数,从而使智能体能够更好地理解任务的结构和目标,灵活应对不同的任务和环境。如图4c)所示,HIRO是一种基于子目标的方法,分为两层结构,其中下层的策略记为μlo,上层的策略记为μhi。上层的策略在一个较为粗粒度的抽象层级上为下层的策略设定目标,这里的目标直接对应着下层策略应当达到的状态。

3.2 面向智能体网络的决策Transformer

决策Transformer网络[25]的提出,突破了传统的马尔科夫决策过程框架。与传统的拟合值函数或者计算策略梯度的强化学习方法不同,决策Transformer通过对奖励、状态、动作轨迹的联合分布建模替代传统的强化学习算法,利用生成式预训练Transformer模型输出最优动作,通过对自回归模型指定期望回报,生成相应的动作来达成期望回报。如图5所示,决策Transformer模型处理主要流程如下:采用线性层将输入转化为嵌入向量,将时间t转化为位置向量,并进行层归一化处理;采用GPT模型(基于掩码自注意力机制的单向Transformer模型),学习内部隐藏状态;选择用于动作预测的隐藏状态;采用线性解码层预测最优动作输出。
图5 智能体决策Transformer模型

Fig.5 Decision Transformer model of agent

自GPT(Generative Pretraining Transformer)和ChatGPT等大模型系列技术都基于Transformer网络结构,已在自然语言处理领域取得重大进展和突破,在决策领域正在深入研究之中。其主要优势有:1)打破马尔科夫性,决策具有更加长远的视角,这使得当前决策不仅仅与当前状态相关,并且与其历史状态、动作和奖励相关,能提高决策的准确性;2)决策更加灵活多变,这使得在决策时即使当前状态相同,其决策输出也不一定相同,增加了其决策的灵活性和多样性,避免了决策输出的僵化和固定,使得敌方更难以应对;3)适应战场空间的局部可观测性,针对战争迷雾下战场状态部分局部可观问题,与只考虑当前状态相比,考虑多步的历史状态、动作和奖励获取的信息更多,决策结果也将更加准确;4)决策Transformer模型采用注意力机制:首先,可以解决循环神经网络及其变体存在的长距离依赖问题,拥有更好的记忆力,能够记住更长距离的信息;其次,支持并行化计算;5)决策Transformer模型性能优秀:难以受到数据集中劣质样本的影响,对稀疏奖励问题的表现很好,并且样本利用率高,有一定的泛化能力。

3.3 面向智能蓝军的对手建模

对手建模主要是建立对手的决策模型,对未来敌方的行动进行预测,从而提升我方智能体决策的针对性,实现对敌方决策的利用。可以采用基于深度神经网络的策略重构(Policy Reconstruction)方法建立模型对对手的行动做出明确的预测来重建对手的决策过程。深度神经网络预测对手行为的优点在于不需要相关领域的专家知识,选择所有影响参与者决策的因素作为输入节点,通过反复对局来训练该网络,具有很强的抗干扰性,但其训练过程依赖于大量的样本数据。

3.4 策略空间响应预言机训练机制

策略空间响应预言机(Policy Space Response Oracle, PSRO)是一类基于元博弈理论发展起来的博弈对抗策略迭代式求解机制,与联盟训练机制不同,其具有理论支撑和收敛性保证,典型方法如下:
1)生成式PSRO
生成式PSRO方法[26]有三个组成部分:PSRO构成的主驱动器模块、一个并发学习生成模型的搜索增强最佳响应生成模块,以及带有生成世界状态采样的搜索模块。通过增加一个新的搜索过程与世界状态的生成采样来增强PSRO,并设计了两个新的基于纳什谈判解的元策略求解器。
2)正则化PSRO
以双预言机为代表的一种常见的策略探索方法是添加最能响应当前均衡的策略,但该方法可能会出现过拟合。正则化PSRO方法[27]采用基于正则化复制动态的元策略求解器,根据后悔标准截断策略的迭代探索过程。
3)Dyna PSRO
基于博弈的决策涉及对世界动态和智能体之间策略互动的推理。Dyna PSRO方法[28]协同学习经验博弈和世界模型,经验博弈推动世界模型更广泛地考虑多样性策略引起的博弈动态,世界模型通过规划指导经验博弈有效地发现新策略,在部分可观一般和博弈中可以计算出更低的遗憾解。
4)自确认PSRO
求解大策略空间正则式博弈的纳什均衡充满挑战,开放式学习框架提供了一种有效的方法。以往的研究无一例外地将多样性作为促进策略提升的渠道。然而,基于多样性的算法仅适用于循环压制的零和博弈,适用性有限。自确认PSRO方法[29]包含3个模块:多样性模块,旨在避免策略受到循环结构的约束;前瞻模块,用于在传递压制维上提升策略,理论上保证学习纳什均衡策略;基于确认的种群裁剪模块,用于求解一般和博弈中的均衡选择问题。

4 结束语

海空兵棋推演决策博弈与游戏博弈具有相似性,也有很大的不同,从博弈论角度分析,其均衡解求解非常困难。当前典型智能体的架构对此适用性不强,对此本文通过建立随机博弈模型和均衡解分析,提出采用基于多智能体分层强化学习的智能体架构,结合决策Transformer模型,从多智能体协作和决策分层方面降低问题求解的复杂度和难度,期望为后续海空兵棋AI设计实现提供架构指导。最后着重分析了兵力协同多智能体强化学习训练技术、面向智能体网络设计的决策Transformer技术、面向智能蓝军的对手建模技术和策略空间响应预言机训练机制。
[1]
Silver D, Huang A, Maddison C J, et al. Mastering the game of Go with deep neural networks and tree search[J]. Nature, 2016, 529(7587): 484-489.

DOI

[2]
Moravík M, Schmid M, Burch N, et al. DeepStack: Expert-level artificial intelligence in heads-up no-limit poker[J]. Science, 2017, 356(6337): 508.

DOI PMID

[3]
Brown N, Sandholm T. Superhuman AI for heads-up no-limit poker:Libratus beats top professionals[J]. Science, 2018, 359(6374): 418-424.

DOI PMID

[4]
Brown N, Sandholm T. Superhuman AI for multiplayer poker[J]. Science, 2019, 365(6456): 885-890.

DOI PMID

[5]
Vinyals O, Babuschkin I, Czarnecki W M, et al. Grandmaster level in StarCraft II using multi-agent reinforcement learning[J]. Nature, 2019, 575(7782): 350-354.

DOI

[6]
Zha D, Xie J, Ma W, et al. DouZero: Mastering DouDizhu with self-play deep reinforcement learning[C]. International Conference on Machine Learning, 2021: 12 333-12 344.

[7]
Openai, Berner C, Brockman G, et al. Dota 2 with large scale deep reinforcement learning[EB/OJ]. arXiv e-prints, 2019: arXiv:1912.06680.

[8]
Ye D, Liu Z, Sun M, et al. Mastering complex control in MOBA games with deep reinforcement learning[C]. the AAAI Conference on Artificial Intelligence, 2020: 6 672-6 679.

[9]
Sukhbaatar S, Szlam A, Fergus R. Learning multiagent communication with backpropagation[C]. Advances in Neural Information Processing Systems, 2016.

[10]
Peng P, Yuan Q, Wen Y, et al. Multiagent bidirectionally-coordinated nets: emergence of human-level coordination in learning to play starcraft combat games[J]. arXiv e-prints, 2017: arXiv:1703.10069.

[11]
Foerster J, Farquhar G, Afouras T, et al. Counterfactual multi-agent policy gradients[C]. the Thirty-Second AAAI Conference on Artificial Intelligence, 2018: 2 974-2 982.

[12]
Lowe R, Wu Y, Tamar A, et al. Multi-agent actor-critic for mixed cooperative-competitive environments[C]. Advances in Neural Information Processing Systems, 2017: 6 379-6 390.

[13]
Sunehag P, Lever G, Gruslys A, et al. Value-decomposition networks for cooperative multi-agent learning[J]. arXiv e-prints, 2017: arXiv:1706.05296.

[14]
Rashid T, Samvelyan M, Schroeder C, et al. QMIX: monotonic value function factorisation for deep multi-agent reinforcement learning[C]. International Conference on Machine Learning, 2018: 4 292-4 301.

[15]
Son K, Kim D, Kang W J, et al. QTRAN: Learning to factorize with transformation for cooperative multi-agent reinforcement learning[J]. arXiv e-prints, 2019: arXiv:1905.05408.

[16]
刘宝宏, 苏炯铭. 星际争霸人工智能与兵棋博弈应用初探[C]. 中国仿真大会, 北京, 2021.

LIU B H, SU J M. Starcraft artificial intelligence and discussion on its application in wargame[C]. The 33rd China Simulation Conference, Beijing, 2021.

[17]
SHAO K, ZHU Y, ZHAO D. Starcraft micromanagement with reinforcement learning and curriculum transfer learning[J]. IEEE Transactions on Emerging Topics in Computational Intelligence, 2019(3): 73-84.

[18]
孙宇祥, 彭益辉, 李斌, 等. 智能博弈综述:游戏AI对作战推演的启示[J]. 智能科学与技术学报, 2022, 4(2): 157-173.

DOI

SUN Y X, PENG Y H, LI B, et al. Overview of intelligent game: enlightenment of game AI to combat deduction[J]. Chinese Journal of Intelligent Science and Technology, 2022, 4(2): 157-173.

[19]
尹奇跃, 赵美静, 倪晚成, 等. 兵棋推演的智能决策技术与挑战[J]. 自动化学报, 2022, 48(9): 1-15.

YIN Q Y, ZHAO M J, NI W C, et al. Intelligent decision making technology and challenge of wargame[J]. Acta Automatica Sinica, 2022, 48(9): 1-15.

[20]
程恺, 陈刚, 余晓晗, 等. 知识牵引与数据驱动的兵棋AI设计及关键技术[J]. 系统工程与电子技术, 2021, 43(10): 2 911-2 917.

CHENG K, CHEN G, YU X H, et al. Knowledge traction and data-driven wargame AI design and key technologies[J]. Systems Engineering and Electronics, 2021, 43(10): 2 911-2 917.

[21]
Schulman J, Wolski F, Dhariwal P, et al. Proximal policy optimization algorithms[J]. arXiv preprint arXiv:1707.06347, 2017.

[22]
Volodymyr M, Koray K, David S, et al. Human-level control through deep reinforcement learning[J]. Nature, 2015, 518(7540): 529.

DOI

[23]
Rashid T, Farquhar G, Peng B, et al. Weighted QMIX: expanding monotonic value function factorisation for deep multi-agent reinforcement learning[C]. Advances in Neural Information Processing Systems, 2020: 10 199-10 210.

[24]
Nachum O, Gu S, Lee H, et al. Data-efficient hierarchical reinforcement learning[C]. International Conference on Neural Information Processing Systems, 2018: 3 307-3 317.

[25]
Chen L, Lu K, Rajeswaran A, et al. Decision transformer: Reinforcement learning via sequence modeling[J]. Advances in Neural Information Processing Systems, 2021(34): 15 084-15 097.

[26]
Li Z, Lanctot M, McKee K R, et al. Combining tree-search, generative models, and nash bargaining concepts in game-theoretic reinforcement learning[EB/OL]. (2023-02-01)[2023.10.10]. http://arxiv.org/abs/2302.00797.

[27]
Wang Y, Wellman M P. Regularization for strategy exploration in empirical game-theoretic analysis[EB/OL]. (2023-02-09)[2023.10.10]. http://arxiv.org/abs/2302.04928.

[28]
Smith M O, Wellman M P. Co-learning empirical games and world models[EB/OL]. (2023-05-23)[2023.10.10]. http://arxiv.org/abs/2305.14223.

[29]
Hu Y, Li H, Han C, et al. SC-PSRO: A unified strategy learning method for normal-form games[EB/OL]. (2023-08-24)[2023.10.10]. http://arxiv.org/abs/2308.12520.

文章导航

/