1 海空跨域协同决策博弈模型
1.1 即时策略游戏与海空兵棋对比
表1 即时策略游戏与海空兵棋推演对比Tab.1 Comparison of real-time strategy game and sea-air wargaming |
相似性与区别 | 比较项 | 即时策略游戏 | 海空兵棋推演 |
---|---|---|---|
相似性 | 信息不完全 | 由于存在战争迷雾,对对手状态感知具有不完全性,相当于对环境状态部分可观。 | |
状态高复杂高动态 | 状态包括环境、己方和敌方智能体的状态,维度随智能体数量增加而增加,智能体还可能生成和消亡。 | ||
决策搜索空间巨大 | 由于作战实体异构、数量多、可选动作多,组合爆炸问题使得决策空间巨大。 | ||
策略自适应 | 能采用的战术战法很多,可能会相互克制,没有绝对必胜的制胜策略,可能存在多个均衡解,策略需要自适应调整、多兵种协同协作配合,形成体系优势。 | ||
策略协同 | 大规模异构作战实体之间需要在时域、空域、任务域等方面进行协同配合。 | ||
长时决策 | 在对抗过程中都需要进行多次决策。 | ||
区别 | 对称性/平衡性 | 相对对称,不同种族符合平衡性设计。 | 通常高度不对称,兵棋推演双方在能力、单元组成、起始位置和最终目标上存在差异。 |
效果即时性 | 动作效果则在毫秒至秒级。 | 军事行动具有更加稀疏且延时的作战效果。比如使用导弹是兵棋中常见的作战方式,而导弹发射动作的效果往往要等待数秒或数分钟或更长的导弹飞行时间,最终击中/未击中目标后才能获取。 | |
效果随机性 | 随机性较小。 | 随机性较大,兵棋推演在所有攻击裁决过程中均受到随机因素的影响,即随机性较高,结果差距较大,可能产生压制甚至消灭对方的战果,也可能不产生任何效果。 | |
决策频率 | 即时策略游戏AI的指令生成间隔时间是几十至几百毫秒。 | 兵棋棋子的决策间隔时间可能更长,达到数秒或更长时间。 |
1.2 海空跨域协同随机博弈模型
1.3 随机博弈模型解概念
表2 最优响应类解Tab.2 Best response solution |
解的概念 | 适用博弈模型 | 说明 | 假设 |
---|---|---|---|
Minimax解 | 2人零和博弈 | 2个智能体之间的相互最优响应。 | 假设智能体间策略概率独立 |
纳什均衡解 | 多人一般和博弈 随机博弈 | 每个智能体的策略是其他智能体策略的最优响应,是minimax解的泛化情形。分为纯策略纳什均衡和混合策略纳什均衡。博弈可能有多个纳什均衡,但是每个均衡解的期望收益不同。 | 假设智能体间策略概率独立 |
ε-纳什均衡解 | 多人一般和博弈 随机博弈 | 用于处理行动概率为无理数,计算系统无法完全表达的情形;纳什均衡解难以计算求解,是纳什均衡解的近似解。受ε大小的影响,ε-纳什均衡解有可能不接近于真实的纳什均衡解。 | 假设智能体间策略概率独立 |
相关均衡解 | 多人一般和正则式博弈 随机博弈 | 相关均衡能够得到比纳什均衡更大的期望回报。 | 考虑策略之间的相关性,一般需要外部协调者,是纳什均衡的推广。 |
2 海空跨域协同兵棋AI架构设计
2.1 知识与数据混合驱动
表3 不同类型兵棋AI优缺点对比Tab.3 Comparison of advantages and disadvantages of different types of Wargame AI |
框架类型 | 典型算法类型 | 优点 | 缺点 | 典型智能体 |
---|---|---|---|---|
知识驱动型 | 基于行为树、状态机的方法。 | 实现相对简单,不需要借助于大量的数据进行策略的训练与学习,具有较强的可解释性。 | 受限于人类本身的推演水平,同时环境迁移与适应能力较差。 | 信息工程大学的“兵棋分队级AI-微风1.0”;中国科学院自动化研究所的“兵棋群队级AI-紫冬智剑2.0”[19];国防科技大学的“AIMP”。 |
数据驱动型 | 独立强化学习方法。 | 缓解不完全信息、高维状态空间等问题。 | 每个智能体将其他智能体视为环境的一部分,环境具有非稳态特性,缺乏理论上的收敛性保证,使得学习不稳定。每个智能体都独立地计算纳什均衡策略,它们的策略组合可能也不是全体的纳什均衡。 | 近端策略优化PPO算法[21]、DQN算法[22]。 |
基于联合动作的强化学习方法。 | 能较好处理非稳态环境和信度分配问题。 | 随着智能体数量的增加,联合状态、动作空间呈指数方式增加,采用策略梯度优化的方法在计算上非常困难。 | ||
多智能体强化学习。 | 可以实现大规模异构作战实体的协同配合,缓解学习不稳定不收敛、联合状态和动作空间呈指数方式增加爆炸问题。 | 仍面临非平稳环境和信度分配问题,并且可能收敛到多个均衡解,而不同的均衡解所对应的期望收益不同。 | QMIX算法[14]、WQMIX算法[23]。 | |
分层强化学习。 | 通过分层降低决策缓解维数灾难问题 | 难以确定分层层数、各层学习目标等。 | HIRO算法[24]。 | |
知识与数据 混合驱动型 | 在作战的不同阶段或场景采用不同的算法;人类军事领域知识与机器学习算法设计融合。 | 实现人机协作、人机融合,加快训练算法收敛。 | 依赖/受限于人类领域知识。 | 武警警官学院开发的分队/群队AI“破晓星辰2.0”[19]。 |
2.2 海空兵棋AI双层架构
2.3 智能体典型模块设计
表4 智能体输入输出项分析Tab.4 Agent input-output analysis |
输入输出项 | 描述 |
---|---|
战场状态 序列 | 1)敌我双方作战实体信息:实体类型、位置、载荷类型、数量、状态等; 2)战场环境信息:作战时间、地理环境、气象和水文情况等。 |
己方棋子 动作序列 | 己方棋子的历史动作序列信息。 |
任务目标 | 达成状态目标,如毁伤敌方特定目标或达成奖励目标,如获得规定的奖励。 |
棋子动作 | 1)作战飞机棋子的动作主要包括飞行的航向、速度、高度、目标、发射导弹、雷达开关、电子干扰开关等; 2)舰艇棋子的动作主要包括航向、速度、发射导弹等; 3)常导棋子的动作主要包括发射导弹、目标、航迹等。 |
奖励信息 | 从当前状态到最终状态的奖励和。 |