中国科技核心期刊      中国指挥与控制学会会刊     军事装备类重点期刊
Command & Control

Multi-level agent architecture for war games

  • YU Xiaohan 1 ,
  • YUAN Duo 1 ,
  • YAO Changhua 2
Expand
  • 1 Army Engineering University, Nanjing 210001
  • 2 Nanjing University of Information Science and Technology, Nanjing 210044, China

Received date: 2024-04-05

  Revised date: 2024-06-18

  Online published: 2025-01-20

Abstract

The complexity of war games poses challenges for single-technique-built agents, as it requires balancing between coarse-grained strategic adjustments and fine-grained action control, thus limiting agent performance. To address this, this paper proposes a multi-level agent architecture for military strategy games based on the "Intent-Task-Action" framework, aiming to integrate various technical strengths for intelligent agent modeling in these games. Through a top-down decomposition and propagation mechanism, this architecture progressively breaks down combat strategies into executable tasks and actions. Techniques such as Finite State Machines, Coalition Games, and Behavior Tree are employed to implement the different levels of the agent architecture. The application scope of the realized agent is preliminarily defined as the tactical level scenario of the land combat unit. Finally, through multi-round adversarial experiments with various benchmark AI on a war gaming platform, the feasibility and effectiveness of the proposed architecture are validated.

Cite this article

YU Xiaohan , YUAN Duo , YAO Changhua . Multi-level agent architecture for war games[J]. Command Control and Simulation, 2025 , 47(1) : 69 -76 . DOI: 10.3969/j.issn.1673-3819.2025.01.009

兵棋游戏作为一款军事训练和决策模拟工具,已经成为模拟战争的重要手段,开发兵棋智能体成为人工智能研究的一个重要方向[1-4]
为了更真实模拟战争,兵棋游戏越发复杂庞大,涉及算子的类型越发多样,行动越发细致,智能体的开发面临着巨大策略空间和超长行动序列,单一的智能体技术很难兼顾总体局势把控与精确行动控制。诸如有限状态机的智能体方法[5-8],能够建模专家知识,实现作战策略的结构化表示,善于在局势变化中产生优秀策略,但这类方法难以在可控的复杂程度下细化到行动控制层面。近年来流行的深度强化学习智能体建模方法[9-10],虽非常善于敏锐察觉态势变化,为算子提供最佳作战行动,但兵棋的超长行动序列加大了深度强化学习训练难度,限制了算子行动的远期作用。单一智能体技术的不足,在越是复杂的兵棋游戏中,体现越是明显。将不同优势的智能体技术整合在一起是解决该问题的一种思路。
鉴于此,本文提出了“意图-任务-行动”的三层级智能体架构,该架构可整合有限状态机、联盟博弈、行为树等技术,构建多技术融合的智能体:有限状态机建模上层作战意图,用于智能体调整作战策略;联盟博弈建模作战任务的分配,用于促成算子间的协同与协作;行为树建模算子行动方式,用于根据态势变化精准控制算子行为。上述方法所实现智能体在未经更广泛场景验证之前,其应用范围初步界定于陆战战斗环境,且主要聚焦于分队战术层级的场景。为验证本文提出架构的实用性,在庙算兵棋平台上的分队级想定中进行了仿真实验,实验结果表明,本文架构相较单一智能体技术有较大优势。

1 多层级智能体架构设计

针对上述问题,提出面向兵棋游戏的“意图-任务-行动”多层级智能体架构。

1.1 整体架构设计

在面对复杂的兵棋游戏想定时,做出有效决策需要考虑多种因素。将智能体分层,不同层级分别履行不同的职责,将复杂、模糊的决策问题分解为许多规模较小、界线清晰的子问题来处理,使得复杂的决策问题变得易于理解和解决。最终,决策由上到下,由粗到细,完成由总体策略到单个算子行为的决策过程。如图1所示,本文设计的智能体架构分为三层:作战意图层、任务分配层和算子行动层。
图1 多层级智能体架构

Fig.1 Intelligent agent architecture

在三层架构中,作战意图层负责产生我方总体策略,作战意图层分析判断战场整体态势并制定作战意图,并将其传递给任务分配层进行进一步细化。任务分配层根据作战意图层的策略,通过战场态势,为算子分配目标和任务,实现有组织、有协作的进攻或防御。算子行动层在接收任务后,生成符合态势的具体行动,生成的算子行动输入兵棋推演引擎中,推进战场态势变化。
三层架构的多层分工将决策问题拆分成多个子问题,更加有助于解决问题。由于每一层都是相对独立的模块,单个层级的错误或异常不会影响其他层,从而降低了整个系统出现故障的风险。这样做还有助于提高智能体灵活性,各层级都可以根据需要选用合适的技术,在某个层级所采用技术达不到预期效果时,可在无需调整其他层级的基础上,针对性地进行修改或替换。

1.2 作战意图层

作战意图层聚焦于总体决策,在对战场的整体态势进行判断后决定下一步我方的总体策略。解决总体上的“做什么”问题。
作战意图层首先要进行的是对战场整体态势的判断,通过收集、分析战场数据,确定当下战场的各种关键因素的状态和趋势。具体实现中,可根据推演引擎发送的地形、我方算子状态和敌方算子状态等信息,分析得出敌我双方目前实力对比、主要目标情况以及上一个任务的完成情况等。
在完成态势分析后,根据态势分析结果进行决策以产生当前我方策略。目前决策的方式基本是基于专家知识的,即结构化地表示人类专家知识,基于此制定符合当前态势的策略。下节介绍了使用有限状态机结构化表示专家知识并从中产生策略的方法。
最后作战意图层将产生的策略传入任务分配层,进行下一步作业。

1.3 任务分配层

任务分配层的主要目标是根据上层下达的策略制定作战任务,为每个算子合理分配任务,解决“怎么做”“谁来做”的问题。
任务分配层首先根据上层下达的作战策略,结合当前态势明确具体任务划分和任务目标。在对任务进行详细分析的基础上,包括分析任务的难度、所需的兵力、预计的完成时间等,将任务分配给具有相应能力的算子,期间还要充分考虑算子之间的协作配合,提高完成任务的可能性。在推演进行中,还要能够根据态势变化,动态调整任务分配方案,增强智能体的应变能力。
任务分配层的主要意义在于确保上层下达的作战策略得到最优落实,充分体现算子特长,考虑多个算子执行任务时的协同与协作,提升整体作战效能。下节中使用联盟博弈,在优化整体作战效能的基础上,完成算子任务分配。

1.4 算子行动层

算子行动层根据具体情况计划算子的行动,即如何根据实时战场态势,为算子生成当前最佳作战行动,解决单个算子的“做什么”问题。
在庙算平台的兵棋对抗中,单个算子的任务由移动、射击、夺控等多种行动组合完成,在执行这些行动时要考虑其机动路径的安全性、对敌方算子的通视情况、是否在友军算子的掩护下等因素。算子行动层就是在尽可能多地考虑战场影响因素后,得出当下最佳行动,即完成算子行为控制。算子行动层生成当前最佳行动后,智能体将算子行动指令列表传输给兵棋游戏引擎,推动态势演进。

2 架构实现

上文阐述了多层级智能体架构,本节将有针对性地选用合适方法作为框架中各层级的实现技术,并最终组合成一个可行的智能体。在架构实现的过程中,也不难发现本文架构的灵活性,各层级的方法都可分别替换成相同功能的其他方法。
为便于叙述,本节将在庙算陆战兵棋平台中具体阐述各层级的实现方法。庙算陆战兵棋平台有合理的规则、成熟的环境和生态,为人们广泛熟知,是一个理想的兵棋游戏智能体开发平台。

2.1 基于有限状态机的策略制定

有限状态机(finite state machine,FSM) 是构建游戏智能体的智能和行为的常用建模方法之一。它本质上是一个由事件触发的在有限数量个状态之间进行转换的模型。它通过将复杂的智能体的决策抽象为不同的状态以及状态之间的转换,让每个状态只需要管理自己的转换条件,从而降低智能体决策的整体复杂度。由于其实现简单且逻辑结构清晰,有限状态机技术被广泛应用到动作游戏的开发中。本文使用有限状态机来对在战场态势发生变化时策略发生变化的情况进行建模,是实现多层级智能体架构中作战意图层的方法。
有限状态机有两个基本要素:状态、事件。作战意图层需要通过分析战场态势数据分析态势变化,在态势变化时制定相应策略。放到有限状态机中,战场态势发生的变化即为“事件”,我方采取的策略作为“状态”。本文通过三个参数来定义战场态势的变化情况:分数对比、兵力对比和夺控点情况,以三个参数为基础,构建出15种变化情况(即“事件”),即E1,E2…,E15,例如“我方占领所有夺控点,兵力不占优势”(E9)是与兵力和夺控点相关的“事件”,其他“事件”在表1中列出。设置了4种总体策略(即“状态”):进攻(S1)、防御(S2)、全面进攻(S3)和全面防御(S4)。基于这4种“状态”和15种“事件”,绘制出作战意图层的状态转换图,如图2所示。
表1 作战意图层的变化情况(“事件”)

Tab.1 Changes at the operational intent level ("events")

事件 含义
E1 兵力变为优势
E2 分数从非优势变为优势,有第三方夺控点
E3 分数从优势变为非优势
E4 占领夺控点,有第三方夺控点
E5 兵力变为优势,有非我方夺控点
E6 分数从优势变为非优势,有非我方夺控点
E7 失去夺控点,分数占劣势
E8 分数从非优势变为优势,没有第三方夺控点
E9 占领所有夺控点,兵力是非优势
E10 分数从非优势变为优势
E11 分数从优势变为非优势,无非我方夺控点
E12 失去夺控点,分数占优势
E13 占领所有夺控点,兵力占优
E14 兵力变为优势,无非我方夺控点
E15 兵力变为劣势
图2 作战意图层的状态转换图

Fig.2 State transition diagram for the layer of operational intents

假设我方当前处于进攻状态S1,正在进攻最后一个夺控点,兵力占一定优势,但遭遇敌方顽强抵抗。经过拼搏,我方最终拿下夺控点,但也损失不少兵力,此时触发事件E9:“我方占领所有夺控点,兵力不占优势”。经有限状态机,我方状态由进攻S1转换至防守S2,并基于此调整我方所有幸存算子的任务。以上是基于有限状态机的一次策略调整示例。真实兵棋对抗中,就是基于如图2的状态转换图,密切关注态势变化,在监察到变化事件时,根据状态转换完成策略调整,提升智能体宏观策略层面的智能。

2.2 基于联盟博弈的协同任务分配

联盟博弈是一种研究参与者之间的合作行为及其对收益影响的模型。在联盟博弈中,参与者可以形成各种联盟,形成联盟是为了实现共同的目标或增加整体的收益。特征函数是联盟博弈中的一个重要概念,它为每个可能的联盟指定一个值,这个值反映了联盟成员通过合作能够获得的收益。通过定义特征函数,可以为联盟的形成和扩大提供合理参考。
使用联盟博弈来实现任务分配,将每个算子视为博弈的一个参与者,算子可以自由地组成联盟来执行指定任务。通过设定一个特征函数来为每个可能的联盟计算出一个效能值,该值表示该联盟完成任务的能力。这个特征函数需要反映联盟成员本身的能力以及协同完成任务时的增益。通过求解最大联盟值来得到最优任务分配方式。
本文基于效能值和协作加成值设计联盟博弈的特征函数。联盟中算子协同执行任务的总体效用的计算公式为
A(X)= a i j X (E({aij}))+ { a i j , a i ' j ' } X ( m a x { a i j , a i ' j ' } XΔ({aij,ai'j'}))
其中,A(X)表示联盟X的总体效能值,aij表示分配算子oi执行任务tj(本文中的任务有进攻、防御、侦察三种),E({aij})表示任务分配aij的效能值,Δ({aij,ai'j'})表示算子oioi'的任务分配aijai'j'之间的协作加成。在一个联盟中,多组算子之间都存在协作加成效果时,优先保留效果最优的协作加成,从而使联盟总体效用最优,即选择 m a x { a i j , a i ' j ' } XΔ({aij,ai'j'})。
基于联盟博弈的协同任务分配流程如表2
表2 基于联盟博弈的协同任务分配流程

Tab.2 Collaborative task assignment process based on Alliance Game

基于联盟博弈的协同任务分配流程
步骤1:根据作战意图形成初始的任务划分X1,…,Xn,并确定Xi(i=1,…,n)的任务类型和目标;
步骤2:为Xi(i=1,…,n)分配算子,确定各算子任务,形成初始联盟 X i 0 (i=1,…,n),令t=0;
步骤3:根据式(1)计算联盟 X i t (i=1,…,n)的效能值,更新最优联盟 X i * (i=1,…,n);
步骤4:使用最近邻搜索方法,调整联盟结构,得到 X i ( t + 1 ) (i=1,…,n);
步骤5:如果达到迭代结束条件,转步骤6;否则,令t=t+1,转步骤3;
步骤6:输出最优联盟集合 X i * (i=1,…,n)。
例如,某次任务分配过程中一个执行侦察任务的联盟中有坦克o1、步战车o2、步兵o3三个算子,坦克执行进攻任务t1,步战车、步兵执行侦察任务t2。假设坦克执行进攻任务效能值E({a11})=0.95,步战车执行侦察任务效能值E({a22})=0.75,步兵执行侦察任务效能值E({a32})=0.75;a11a22a32两两之间均存在协作加成效果,加成值分别为Δ({a11,a22})=0.45、Δ({a11,a32})=0.35、Δ({a22,a32})=0.8。因此在计算联盟总体效能值时,保留最大的Δ({a22,a32}),即
A(X)=(E({a11})+E({a22})+E({a32}))+Δ({a22,a32})=3.25
本文在上述计算联盟效能值的基础上,采用迭代优化的方式形成稳定联盟组合,从而完成对所有算子的任务分配。使用联盟博弈实现算子的任务分配,将任务分配问题转化为了优化问题,在理论上保证了解决方案的可行性。联盟博弈允许动态形成和调整联盟,这为任务分配提供了高度的灵活性,可根据战场态势动态调整。联盟博弈帮助找到每个联盟成员的最佳贡献,从而提高整体性能,确保资源得到有效利用。

2.3 基于行为树的算子行为控制

行为树(behavior tree)是一种树结构,执行时会从根节点开始按照指定的顺序遍历,直到终结状态。行为树通过子节点控制树的遍历顺序:通过设置子节点的逻辑,可以指定特定的规则控制下一个遍历的节点。而行为树的叶子节点可以执行具体的操作:通过设定叶子节点,可以执行具体操作并返回一个状态信息。
本文以步兵防御任务为例,给出算子执行任务的行为树构建方法。考虑步兵算子具有以下特点:(1)相对其他算子来说机动能力较差,需要与战车算子进行配合,搭乘战车算子进行机动;(2)具备引导射击的能力,在进攻时能够有效引导后方算子打击敌方;(3)步兵的抗打击能力强,最适合防御已占领的夺控点。步兵防御任务行为树如图3所示。
图3 步兵防御任务行为树

Fig.3 Infantry defense task behavior tree

在任务分配层为步兵算子下达防御任务后,首先在夺控点周围推理防御的最佳位置(A1)。在完成防御位置推理后,检测步兵是否正在车上(A2),如果步兵正在车上且战车没有进行其他任务,则向战车发送运输请求(A3)。如果不在战车上则首先考虑任务目标夺控点是否被敌军占领或无人占领(A4),如果被敌军占领则进行机动以占领夺控点(A5)。如果任务目标夺控点被我方占领,则前往推理出的防御位置(A6),能转入掩蔽状态则转入掩蔽状态(A7),如果有敌人进入射击范围或引导射击范围,则进行射击(A8)。
采用行为树对算子行动逻辑进行抽象建模,将复杂的任务分解成多个小步骤,每个小步骤代表一个节点,最终将所有节点组合成一个行为树,自顶向下地进行决策,实现了算子根据战场情况灵活完成任务的目标。

3 实验

本文的实验部分分为两部分,第一部分是在兵棋游戏动态变化的环境中,展示智能体各层级如何感知并应对态势的变化。第二部分将展示本文构建智能体和其他基准智能体在对抗过程中的整体表现。

3.1 智能体各层级效果展示

本节实验以“庙算-陆战指挥官”兵棋平台中“2022分队城镇居民地夺控战斗想定(人混)Ⅰ”对抗想定为场景进行仿真实验,想定中红蓝双方围绕主要夺控点和次要夺控点进行战斗,其主要夺控点位于坐标3431,次要夺控点位于坐标3729,对抗时长2 880 s。红方配备坦克、战车、无人机、步兵、巡飞弹等算子,蓝方配备坦克、战车、无人机、步兵等算子,双方初始兵力部署情况见表3,想定初始态势如图4C1所示。
表3 分队城镇居民地夺控战斗想定棋子部署表

Tab.3 Group-level multi-air combat scenario chess deployment table

阵营 棋子类型 车(班)数 分值 初始位置
中型坦克 2 30 2442、2542
重型战车 2 21 2443、2543
无人战车 2 20 2443、2543
步兵 2 12 2443、2543
巡飞弹 2 0 2443、2543
无人机 1 1 2344
重型坦克 1 30 4229
重型战车 2 21 4328、4428
无人战车 2 20 4328、4428
步兵 2 12 4328、4428
侦察型战车 2 15 4430、4330
无人机 1 1 4426
图4 战场态势变化图

Fig.4 Changes in battlefield situation

本节将展示并分析兵棋游戏的态势变化中智能体各层级的效果。首先,如图4所示,以战场态势从C1(初始态势:夺控点无人占领)变为C2(我方占领主要夺控点,敌方占领次要夺控点)时为例,智能体各层级反应如下所示:
在智能体作战意图层中,在C1态势中,战场态势为夺控点无人占领,敌我兵力、分数差距不大,此时我方作战意图是进攻主要夺控点。而在C2态势中,战场态势发生变化:我方占领主要夺控点,敌方占领次要夺控点,双方兵力、分数差距不大,变化情况符合表2中的E1事件,有限状态机重新进入进攻状态,重新选择夺控点作为目标,即次要夺控点作为下一步进攻的目标。
在作战意图层下达整体作战意图以及目标后,任务分配层根据表3的流程开始形成执行任务联盟。
图5展示的是C2态势时的联盟示意图,当前时刻共产生5个联盟。
图5 兵棋推演中的任务分配

Fig.5 Task allocation in war game

针对目标点位3729形成以下联盟:
(1) 进攻联盟1。联盟成员包括重型坦克算子(0058)执行进攻任务、重型战车算子(0048)执行进攻任务、步兵算子(0050)执行进攻任务;
(2) 进攻联盟2。联盟成员包括无人战车算子(0053)执行进攻任务、无人战车算子(0054)执行侦察任务;
(3) 侦察联盟1。联盟成员包括巡飞弹算子(0051)执行侦察任务、巡飞弹算子(0052)执行侦察任务。
针对目标点位3431形成以下联盟:
(1) 防御联盟1。联盟成员包括重型战车算子(0047)执行防御任务、步兵算子(0049)执行防御任务;
(2) 侦察联盟2。联盟成员包括无人机算子(0032)执行侦察任务。
在完成任务分配后,每个算子的任务以及任务目标点都被下达到算子行动层,算子行动层开始根据任务和当前态势计算算子下一步行动。以步兵算子(0049)执行针对目标点位3431的防御任务为例(如图6所示),根据2.3节中的步兵防御行为树,此时步兵根据目标点位推理防御位置,选取3432作为防御位置。当前步兵算子正在搭乘重型战车算子(0047),位于3434,与目标防御位置距离只有2格,不需要继续运输,开始下车。目标夺控点已经被我方占领,步兵算子下车后直接机动至防御位置3432。
图6 步兵防御任务执行过程

Fig.6 Infantry defense mission execution process

智能体在庙算平台的分队级想定“2022分队城镇居民地夺控战斗想定(人混)Ⅰ”上成功运行,表明上述方法实现的智能体适用于处理拥有多个算子(如21个算子)和多个夺控点(如2个夺控点)的复杂分队级想定。然而,必须明确界定的是,在未在更复杂想定中进行实验验证的情况下,当前智能体的适用范围严格限定于陆战战斗环境,且最高不超过分队战术层级的场景。这一限定基于智能体所依赖的特定方法论,在未经更广泛场景验证前,其适用性具有明确的边界。

3.2 智能体表现

进行智能体之间的对抗比赛是评估其优越性的一种常用方法。通过让不同的智能体进行对抗,观察它们在战斗中的表现,以评估它们的优劣。本节实验采用了“庙算-陆战指挥官”兵棋平台中的两个典型想定——“2022分队城镇居民地夺控战斗想定(人混)Ⅰ”(简称“想定I”)与“2022分队城镇居民地夺控战斗想定(人混)II” (简称“想定II”),以智能体对智能体的方式进行了测试。为了实现对抗的多样性,我们引入了多个平台内置的AI模型作为对手,包括人机混合练习AI-激进型、人机混合练习AI-保守型、人机混合基准AI-灵活型以及人机混合基准AI-保守型,分别控制红、蓝方形成了八种不同的对抗方案。
在每一种仿真方案中,本文均执行了十次独立的重复实验,并详细记录了智能体在每次对决中的胜负情况。与不同智能体对抗胜率统计如表4所示。
表4 智能体测试胜率统计

Tab.4 Statistics on the success rate of intelligent agent testing

想定 练习AI-
激进型
练习AI-
保守型
基准AI-
灵活型
基准AI-
保守型
想定Ⅰ 80% 60% 70% 90%
想定Ⅱ 70% 70% 80% 80%
在庙算平台中,净胜分是将己方占领夺控点的得分、剩余算子的分数以及击毁敌方算子的得分进行求和,然后减去对方这三个数值的加和所得。因此,净胜分是评估智能体表现的关键指标之一。以在“想定I”中进行的对抗实验为例,我方智能体净胜分箱型图如图7所示,折线图如图8所示。
图7 对抗净胜分箱型图

Fig.7 Split box diagram of net victory against each other

图8 对抗净胜分折线图

Fig.8 Line chart of net wins against opponents

分析对抗结果和对抗复盘可以发现,本文智能体拥有较高的胜率。在面对多种采取不同策略的智能体时,基于本文架构实现的智能体能够迅速分析战场态势,采取合理策略,通过合理的任务分配和算子行为控制方式有效地利用每个算子,提高了对抗的比分和胜率。
综上所述,实验证明了本文提出的面向兵棋游戏的多层级智能体架构具有较高的实用性,与现有的基准AI对抗具有较高的胜率。

4 结束语

本文提出了基于“意图-任务-行动”的三层智能体架构,并使用有限状态机、联盟博弈、行为树等方法构建了智能体。在实验中,智能体展现出了优越的性能,证明了这种多元化技术整合架构的有效性和可行性。实验结果揭示了智能体在复杂游戏环境中的适应性和竞争力,同时也突显了其在策略制定和决策执行方面的优越性。我们的研究为兵棋游戏的AI设计提供了新的视角,展示了如何通过技术和方法的融合来克服单一技术可能遇到的局限性。此外,我们的智能体架构为未来研究者提供了一个坚实的基础,可以在此基础上进一步探索和优化。未来的工作可以集中在更深入地理解各种技术之间的相互作用,将新技术应用到架构之中,以及如何在不断变化的游戏动态中维持和提升智能体的性能。
[1]
孙李程, 马宏宾. 从兵棋推演看人工智能发展[J]. 军事文摘, 2024(11):66-70.

SUN L C, MA H B. Development of artificial intelligence from war games[J]. Military Abstracts, 2024(11):66-70.

[2]
胡晓峰, 荣明. 作战决策辅助向何处去——“深绿” 计划的启示与思考[J]. 指挥与控制学报, 2016, 2(1): 22-25.

HU X F, RONG M. Where do operation decision support systems go: inspiration and thought on deep green plan[J]. Journal of Command and Control, 2016, 2(1): 22-25.

[3]
胡晓峰, 贺筱媛, 陶九阳. Alpha Go 的突破与兵棋推演的挑战[J]. 科技导报, 2017, 35(21): 49-60.

DOI

HU X F, HE X Y, TAO J Y. Alpha Go’s break-through and challenges of war gaming[J]. Science & Technology Review, 2017, 35(21): 49-60.

[4]
聂凯, 曾科军, 孟庆海, 等. 人机对抗智能技术最新进展及军事应用[J]. 兵器装备工程学报, 2021, 42(6): 6-11, 26.

NIE K, ZENG K J, MENG Q H, et al. Recent advances in intelligent technologies of human-computer gaming and its military applications[J]. Journal of Ordnance Equipment Engineering, 2021, 42(6): 6-11, 26.

[5]
SALES D O, CORREA D O, FERNANDES L C, et al. Adaptive finite state machine based visual autonomous navigation system[J]. Engineering Applications of Artificial Intelligence, 2014(29): 152-162.

[6]
QUINLAN J R. Generating production rules from decision trees[C]. International Joint Conference on Artificial Intelligence, 1987(87): 304-307.

[7]
NICOLAU M, PEREZ-LIEBANA D, O’NEILL M, et al. Evolutionary behavior tree approaches for navigating platform games[J]. IEEE Transactions on Computational Intelligence and AI in Games, 2017, 9(3): 227-238.

[8]
尤岳, 黄昱申, 陈科. 无人潜航器交战行为分层建模方法[J]. 数字海洋与水下攻防, 2023, 6(5): 622-628.

YOU Y, HUANG Y S, CHEN K. A hierarchical modeling method of UUV combat actions[J]. Digital Ocean & Underwater Warfare, 2023, 6(5): 622-628.

[9]
崔文华, 李东, 唐宇波, 等. 基于深度强化学习的兵棋推演决策方法框架[J]. 国防科技, 2020, 41(2): 113-121.

CUI W H, LI D, TANG Y B, et al. Framework of wargaming decision-making methods based on deep reinforcement learning[J]. National Defense Technology, 2020, 41(2): 113-121.

[10]
VINYALS O, BABUSCHKIN I, CZARNECKI W M, et al. Grandmaster level in StarCraft II using multi-agent reinforcement learning[J]. Nature, 2019(575): 350-354.

Outlines

/