1 基本概念
1.1 纳什均衡
Ri(s, ,…, )≥Ri(s, ,…, ,σi, ,… )
Q*(S,a)= E[Rt|St=s,at=a,σ]
1.3 博弈强化学习
E[fi(π*,t)|St=s,π*]≥E[fi(π',t)|St=s,π']
2 智能博弈对抗算法研究现状
2.1 研究现状
2.2 智能博弈对抗算法
2.2.1 多智能体博弈学习
表1 典型的多智能体博弈学习算法特点Tab.1 Characteristics of typical multi-intelligence body game learning algorithms |
算法 | 特点 |
---|---|
Minmax-Q | Minmax-Q算法适用于可以完全观察到状态信息和行动结果的场景,如井字棋、国际象棋等。然而,对于更复杂的场景,如围棋或视频游戏,由于状态空间过大,直接应用Minmax-Q算法的效果一般。 |
CFR | CFR算法通过反事实概率来计算玩家的策略,适用于大规模不完全信息博弈。 |
GDA | GDA算法在处理符合高斯分布的数据时表现良好,且计算效率较高。然而,当数据不符合高斯分布时,GDA算法的性能会下降。此外,GDA算法还需要计算协方差矩阵,这在处理高维数据时可能会导致计算成本过高。 |
2.2.2 多智能体博弈强化学习
表2 典型的多智能体博弈强化学习算法特点Tab.2 Characteristics of typical reinforcement learning algorithms for multi-intelligent body games |
算法 | 特点 |
---|---|
NFSP | 算法可以解决无先验知识、不依赖局部搜索的近似纳什均衡问题,适用于连续行动博弈,但计算复杂度较高。 |
FOF | 用二人零和博弈对复杂问题进行建模,模型考虑因素较少,简化程度较高。 |
Nash-Q- Learning | 利用均衡解引导策略选择,使最终策略具有合理性,要求博弈各阶段均有鞍点或全局最优点,收敛要求苛刻。 |
2.2.3 多智能体博弈深度强化学习
表3 典型的多智能体博弈深度强化学习算法特点Tab.3 Characteristics of typical deep reinforcement learning algorithms for multi-intelligent body games |
算法 | 特点 |
---|---|
Mean-Field | Mean-Field算法通常用于处理具有大量相互作用的系统,如统计物理、神经网络等。算法通过引入一个平均场来近似系统中各个元素之间的相互作用,简化计算并提高效率。 |
Minimax-DQN | Minimax-DQN算法需要大量的计算资源来训练神经网络,并且对于非零和博弈问题不太适用。 |
LOLA | 需要考虑其他智能体的学习过程,算法计算量相较于其他算法比较大。 |