中国科技核心期刊      中国指挥与控制学会会刊     军事装备类重点期刊
Engineering & Application

Research on Command Decision-making of Submarine Attack and Defense Confrontation Training Based on Deep Reinforcement Learning

  • GUO Hong-yu ,
  • CHU Yang ,
  • LIU Zhi ,
  • ZHOU Yu-fang
Expand
  • 1. Jiangsu Automation Research Institute, Lianyungang 222061, China

Received date: 2021-10-13

  Request revised date: 2021-10-26

  Online published: 2022-05-19

Copyright

Copyright reserved © 2022

Abstract

The offensive and defensive confrontation between the submarine and the surface ship formation is the key content of submarine combat research. How to ensure that the submarine survives and breaks through the joint blockade of the ship formation and anti-submarine helicopters is a test of the submarine command decision. To this end, in view of the asymmetry of the submarine-ship-helicopter confrontation scenario, the submarine agent is constructed from two aspects of deep reinforcement learning and rule inference, and two Proximal Policy Optimization (PPO) algorithm improvement mechanisms are proposed. It carries out mutual game confrontation and distributed training, and finally realizes the intelligent decision-making of submarines in the confrontation process. Related technical routes and algorithms have been implemented and verified on the wargaming platform. The improved algorithm has greatly improved the convergence speed and stability. The research on submarine intelligent command decision-making provides technical reference.

Cite this article

GUO Hong-yu , CHU Yang , LIU Zhi , ZHOU Yu-fang . Research on Command Decision-making of Submarine Attack and Defense Confrontation Training Based on Deep Reinforcement Learning[J]. Command Control and Simulation, 2022 , 44(1) : 103 -111 . DOI: 10.3969/j.issn.1673-3819.2022.01.015

近年来,AlphaGo、Alpha Star等智能体在围棋、“星际争霸”等各类游戏中不断战胜人类的顶尖选手,人工智能技术的迅猛发展和广泛应用,已经成为新一轮科技革命的主导因素,世界主要的军事大国纷纷制定人工智能发展战略与规划,加快军事智能化的发展[1]。在战术层面的决策博弈领域,由于作战环境、对手、目标、手段、方式都相对确定,通过人工智能技术能够逐步实现作战智能指挥决策,给指挥员在复杂现代战争中的指挥决策提供建议,帮助指挥员做出更好的决策判断。
与作战智能指挥决策过程具有一定相似性的是“星际争霸”游戏的决策问题。“星际争霸”智能体的训练技术可以在战场数据生成机理、战略战术算法开发和验证方面,为作战指挥决策智能体的构建提供理论指导和技术支撑[2]。目前,人们对深度强化学习算法在军事智能决策上的应用进行了广泛的探索。文献[3]针对高度复杂且行为连续的战场环境,提出了一种改进的深度确定策略梯度(DDPG)算法, 提高算法收敛速度,设计了一种混合双噪声的探索策略,从而实现复杂且连续的军事决策控制行为;文献[4]针对多机协同空战,研究利用深度强化学习实现多机协同的方法,提出了集中式训练-分布式执行架构,并对近端策略优化算法设计了四种算法增强机制,利用兵棋推演平台进行了验证;文献[5]针对作战仿真推演系统,提出了一种基于深度强化学习技术的智能决策模型,建立了以actor-critic体系为基础的智能体训练网络,根据反潜作战想定,利用SAC算法训练智能体实现自主决策;文献[6]针对作战实体间的博弈对抗,提出了一种监督学习和深度强化学习相结合的算法,利用近端策略优化(Proximal Policy Optimization,PPO)算法和改进的额外奖励,提升智能体的作战决策能力。
本文针对潜艇与水面舰艇反潜编队间的对抗,研究利用人工智能技术实现潜艇的智能指挥决策,设计了基于深度强化学习的分布式训练方法,构建了潜艇智能体决策模型和舰艇及其舰载反潜直升机的协同反潜规则体模型,利用互博弈对抗的方式训练得到潜艇决策智能体模型。根据文献[7]对各深度强化学习算法在海战场中应用的分析。本文选取了PPO算法进行研究,并提出了两种增强改进机制,针对性地提高潜艇攻防对抗场景下深度强化学习算法的效果。最后,在兵棋推演平台上设计潜舰机攻防对抗想定,对本文提出的训练方法和算法改进效果进行验证,实验结果证明了本文所用方法的实用性和有效性。

1 深度强化学习

1.1 深度强化学习理论

强化学习的基本思想是智能体在与环境交互的过程中根据环境反馈得到的奖励不断调整自身的策略以实现最佳决策,主要用来解决决策优化类的问题。深度学习是通过学习一种深层的非线性网络结构,实现复杂函数的逼近,能够对训练数据的本质特征进行学习,具有较强的无监督特征提取能力[8]
对强化学习过程的描述通常为如图1所示的马尔科夫决策过程,基本要素有策略、奖励函数、值函数和环境状态。
图1 强化学习基本学习模型
深度强化学习是将深度学习与强化学习相结合,融合了深度学习和强化学习的优点,实现了从环境中获取状态信息通过学习得到当前最优动作。
目前,深度强化学习在棋类博弈、即时策略游戏和兵棋推演等智能决策领域不断取得重大突破,显示出了深度强化学习在认知决策方面具有巨大的潜力和独特的优势,使智能体在高动态性、高复杂性的战场环境下具有作战决策能力成为可能。

1.2 近端策略优化算法

PPO算法是Schulman等人在提出置信区域策略优化(Trust Region Policy Optimization,TRPO)算法保证策略更新稳定的基础上,进一步提出的一种改进后的策略梯度算法,通过截断或限制KL散度的方式,避免策略出现突变的情况,增强了训练的效果[9]。策略梯度算法的主要目标是找到一个可以让带有折扣的未来期望的收益达到最大的策略,因此,PPO算法的网络参数θ更新的目标函数为
L(θ)=Ε[min(rt(θ) A ^ t,clip(rt(θ),1-ε,1+ε) A ^ t)]
其中, A ^ t为优势函数,该函数定义为:
A ^ t = δ t + ( γλ ) δ t + 1 + + ( γλ ) T - t + 1 δ T - 1 δ t = r t + γV ( s t + 1 ) - V ( s t )
rt(θ)为新旧策略的比值:
rt(θ)= π θ ( a t | s t ) π θ old ( a t | s t )
网络参数θ的更新为
θt+1=θt+αθL(θt)
此外,ε为截断常数,其取值为一个经验值,表示新旧策略的最大差值;clip函数为截断函数,将rt(θ)的值限定在1-ε和1+ε之间,表示新策略不会因为远离旧策略而获益。
因此,PPO算法的描述如下:
初始化策略参数θ,θold重复每轮更新
重复每个Actor
重复T
每步使用旧的策略参数产生θold决策
计算每一步中的优势函数估计A
迭代K
求解累积期望回报函数的策略梯度,每次使用小批量数据
用策略梯度θ更新策略参数
将新的策略参数更新至θold

2 智能体构建

目前,潜艇攻防对抗缺少历史仿真数据,且潜艇和主流的舰机协同反潜兵力属于非对称性的博弈对抗,为此本文研究构建潜艇智能体模型和反潜规则体模型,利用互博弈对抗的方式进行深度强化学习训练,其训练流程的总体框架如图2所示,主要的研究内容是深度强化学习训练和两类模型的构建。
图2 智能体训练总体框架图

2.1 基于深度强化学习的分布式训练

为了获取大量互博弈对抗数据,提高智能体的训练速度,本文参考Alpha Star的训练[10],设计了基于深度强化学习的分布式训练方法,如图3所示,该训练方法由数据采样、分布式学习和预测推断三部分组成。
图3 基于深度强化学习的分布式训练流程
1)数据采样
数据采样利用CPU集群采用并行方式同时与多个仿真环境进行交互,每个仿真环境开启一局对战,利用数据采样器(CPU)采集每一步潜艇智能体的状态数据,其数据格式为(state,action,reward)三元组形式,经过样本处理、奖励计算,将采集的数据送入样本数据库(Sample Buffer)。此外,数据采样器通过与智能体的交互,获得下一步需要执行的动作(Action),并利用动作指令解码器将动作转化为仿真环境可以接受执行的指令。经过大量对战数据的积累,样本数据库可为强化学习提供大量的样本数据。
2)分布式学习
分布式学习利用多个学习器Leaner(GPU)采用了Tensor Flow的开源模块,对采集的数据进行消费。当样本数据库采集的数据满足一批的数量后,Leaner读取这些样本数据,输入神经网络中进行前向计算,调用强化学习算法,根据算法的优化目标计算损失函数值,进而计算得到梯度的更新值,持续稳定输出多层神经网络的参数,生成针对潜艇突防任务的潜艇智能体。通过获得仿真环境中指令的执行结果对其进行评价,评价结果反馈给智能体模型,通过反复迭代,实现智能体模型参数优化。
3)预测推断
预测推断是基于当前智能体的状态信息,运用分布式学习中提供的智能体(神经网络)实施前向推断,输出决策序列。预测推断模块,可以将智能体模型通过对环境态势预测得到的动作指令集分发到各个仿真环境,同一个智能体模型可指挥多个仿真环境内的对战。其中,前向推断采用Tensor RT库,该库是一个高性能的深度学习推理(Inference)优化器,可以为深度学习应用提供低延迟、高吞吐率的部署推理。

2.2 潜艇智能体决策模型

在深度强化学习训练框架中,智能体通过分布式学习中的学习器对样本数据进行学习,根据环境状态做出动作决策,智能体的决策模型结构如图4所示。
图4 智能体决策模型结构图
智能体决策模型采用Actor-Critic机制,Actor网络用于输出潜艇采取的动作,Critic网络用于评价智能体决策的优劣,引导策略进化。因为PPO算法具有较好的收敛性和稳定性,使用clip函数的方法操作相对简单且鲁棒性好,适用于在兵棋仿真推演平台上进行潜艇攻防对抗实验,所以,选取PPO算法进行实验验证;考虑战场态势信息部分可观测,智能体需要根据历史上的观察动作来进行连续决策,因此,神经网络模型的主体采用双向循环神经网络,同时利用长短时记忆网络(Long short-term memory,LSTM)[11]结构来解决长序列训练中出现的梯度消失和梯度爆炸问题;由于战场态势信息维度高、关联性不强,为了提高训练效率,引入注意力机制[12],使用Softmax回归函数对输入态势信息的重要性进行归一化处理,得到各参数信息的相对重要性,实现对敌我局部态势信息的聚焦;神经网络输出智能体的决策指令形式多种多样,有连续型、离散型、数值型等,需要在神经网络末端针对每种输出形式增加一个全连接网实现连接,并加入解码模块,将决策指令转为平台可接受的操作指令。

2.3 多决策行动方案的规则体模型

为了防止规则体智能体出现行动决策变化少、泛化能力弱等问题,不利用红蓝双方博弈对抗产生大量不同的数据。为此,本文根据反潜作战的典型战术规则和行动方案,探索了一种基于多决策行动方案的规则体构建方法,利用反潜的战术规则和行动方案,给每个实体单位设计了规则推理模型,在代码层面实现协同反潜规则体可以根据战场态势信息触发不同的作战任务和决策指令,使规则体在反潜过程中具有多种战术变化,其设计方案如图5所示。
图5 规则体设计方案
构建的规则体模型,具有多种决策行动方案,在互博弈对抗中,使潜艇智能体面对不同的战术战法,获得更加丰富的样本数据。此外,还可以通过观察智能体训练过程中反潜规则体的表现是否符合预期要求,以及智能体和人类进行人机对战中人类选手战胜潜艇智能体所用的战术战法,对反潜规则体的决策进行调整改进,继续进行对抗训练。

3 增强改进机制

为了加快算法的收敛速度,提高算法的稳定性,本文提出了两种算法的增强改进机制,对于损失函数引入了值函数截断机制来加快算法收敛速度,提高训练的稳定性;对于奖励函数引入决策引导和专家经验奖励机制,建立完善的决策引导体系,来提高智能体的作战效率,使智能体可以探索更多的战术战法。

3.1 损失函数

损失函数决定了智能体的学习能力,在潜艇智能体决策模型中,对于策略网络的策略梯度计算,本文采用了PPO算法,其损失函数为了保证策略更新的安全性,引入了截断机制。但是,在复杂的攻防对抗场景下,每次采样轨迹的奖励存在很大的波动,单纯地将策略更新限定在一定范围,智能体会出现很多无效的动作,并且,策略梯度的截断会导致与值函数的畸形发展,很难找到最优策略。
为了解决这个问题,本文将价值网络的输出使用泛化优势估计(Generalized Advantage Estimation,GAE)来构造PPO算法的优势函数,保障策略向更好的方向更新快速找到最优策略,另外针对价值网络,还设计了一种值函数的截断机制,将每一轮动作值函数的更新同样限定在一定的阈值内。
对于价值网络的损失函数采用均方误差(mean squared error, MSE)拟合目标的奖励期望,并对其进行截断处理:
ValueLoss(φ)=max(MSE(Vφ,Vtarget),MSE(Vold+clip(Vφ-Vold,-ε,ε),Vtarget))
其中,Vold表示更新之前的价值估计,用于限定本轮更新的范围;Vtarget表示更新的目标价值,在训练阶段由价值网络的输出基于反事实基线(Counterfactual Baseline)构造,即智能体采取了一个动作,在对其进行评价时要基于所有可能采取的动作进行分析;Vφ表示价值网络当前的输出,采用均方误差(Mean Squared Error,MSE)对目标价值的奖励期望进行拟合。
使用截断函数可以减少值函数受到估计偏差以及轨迹采样方差的影响,防止更新的目标价值出现错误,保障了值函数更新的稳定性,使价值网络更新匹配策略网络,保障了智能体动作的有效性。

3.2 决策引导体系

决策引导的实现是通过构建奖励函数对强化学习决策动作进行评价,奖励函数的优劣直接影响智能体的训练是否能够收敛以及收敛的方向,是智能体训练的关键。
在一局对战过程中,奖励函数可以分为两个部分,即过程奖励和终局奖励。其中,终局奖励占比较大,反映了智能体最终能否取得胜利;过程奖励虽然占比较小,但是可以对智能体进行决策引导并加速收敛,在训练过程中十分重要。因此,奖励函数通常设计为终局奖励和过程奖励之和:
r = r end + r process r process = k 1 Δ x + k 2 Δ y r end = ω 1 r win + ω 2 r price
其中,rprocess为过程奖励,引导智能体前进;rend为终局奖励,对最终结果进行评价;Δx为当前经度与上一步经度的差值;Δy为当前纬度与上一步纬度的差值;k1、k2为权重系数,用于调整智能体的前进方向,使智能体不断靠近目标地点;rwin为智能体胜负的奖励;rprice为智能体自身损耗的评价奖励,损耗包括武器弹药消耗量和自身战损情况;ω1、ω2为权重系数,要保证胜负奖励占据主导地位。
但是,这种方式会导致智能体机动性差,决策步数多、决策时间长的问题,为了解决这一问题,本文对终局奖励和过程奖励进行改进,引入专家经验奖励完善决策引导体系:
r end_new = ω 1 r win + ω 2 r price + τ max τ step r process_new = k 1 Δ x + k 2 Δ y + i = 1 n q i
其中,τmax为想定运行到设定的结束时间时,智能体可进行的最大决策步数;τstep为一局对战结束时智能体进行的决策步数;qi为智能体进行某些行为动作或处于某些状态的额外奖励。
在终局奖励中,增加决策步数的比值,即τmaxstep来降低决策步数,引导智能体快速向目标区域前进,提高智能体的作战效率;在过程奖励中,增加额外的专家经验奖励来增强智能体的机动性和攻击性,使智能体探索更多的战术战法。
强化学习的奖励函数需要针对不同的训练场景进行设计,本文在原有的奖励函数基础上,加入决策引导和经验奖励机制对奖励函数进行改进,在上述决策引导体系的应用中,还需要根据实际情况进行具体分析和改进。

4 智能体训练与验证

本文利用中国船舶集团公司第七一六所研发的悟空·海上智能博弈平台,编写潜艇攻防对抗作战想定,实现数据采集和潜艇智能体验证。该兵棋推演平台具有舰艇、潜艇、飞机、导弹、各种传感器等多种武器装备模型,可以实现到达指定区域、沿航线运动、飞机起飞降落、开火、放置浮标等多种操作,具备实时观察智能体训练场景的能力,可以进行人人对战和人机对战。

4.1 想定设计

实验想定如图6所示,该想定红方包含三艘水面舰艇,即两艘携带反潜直升机的护卫舰和一艘驱逐舰,蓝方为一艘核潜艇。想定区域为长140 km、宽140 km的海上矩形区域,想定时长为5个小时。三艘红方舰艇在固定海域范围巡航,舰艇间相距30 km,蓝方潜艇在水面舰艇侧方距离50 km处准备穿越红方舰艇搜索区域到达另一侧的指定区域。潜艇的胜利条件为在规定时间内到达指定区域。红蓝双方的兵力编成如表1所示。
表1 兵力编成
红方 蓝方
实体类别 护卫舰 驱逐舰 反潜直升机 核潜艇
数量 2 1 2 1
武器 反潜鱼雷*8、
诱饵*5
反潜鱼雷*6、
火箭助飞鱼
雷*6、诱饵*5
空潜鱼雷
*1、浮标
鱼雷*16、
诱饵*6
传感器 舰壳声呐、
拖曳线列
阵声呐
拖曳线列阵
声呐、回声定
位声呐
吊放声呐、
水面搜索
雷达
对海雷达、
综合声呐

4.2 模型建立

利用悟空·海上智能博弈平台建立各实体单位模型并配置搭载的武器和传感器等信息,实现想定编辑。根据智能体训练流程,构建潜艇智能体决策模型和多决策行动方案规则体模型,对模型的要素信息进行如下定义。
1)状态空间设计
状态空间包含战场上敌我双方的实体信息,我方实体信息包含潜艇、鱼雷和诱饵的信息,敌方实体信息包含敌方舰艇、直升机、鱼雷、诱饵和浮标等信息。由于战争迷雾的存在,潜艇获取的敌方信息只有通过传感器探测到的敌方舰艇位置和来袭鱼雷的信息,无法探测得到直升机和浮标信息。各实体单位的状态空间信息见表2
表2 状态空间信息
实体 状态信息
潜艇 经度、纬度、航向、航速、深度、鱼雷数量、诱饵数量、敌方舰艇经纬度、来袭导弹经纬度、目标区域经纬度
舰艇 经度、纬度、航向、航速、鱼雷数量、诱饵数量、潜艇经纬度、来袭导弹经纬度
鱼雷 经度、纬度、航向、航速、深度
直升机 经度、纬度、航向、航速、高度、浮标数量、鱼雷数量、潜艇经纬度
2)动作空间设计
潜舰机攻防对抗的作战决策包含航向、航速、高度、开火距离、投放诱饵方向和投放浮标等。其中,舰艇高度保持不变,只有直升机可以投放浮标,鱼雷耗尽后开火动作无效。为了降低动作空间维度,本文对实体的航向、航速、高度、开火距离和投放诱饵方向进行了离散化处理,见表3
表3 动作空间信息
动作类别 动作范围
实体航向 东、西、南、北、东北、东南、西北、西南8个动作方向
潜艇下潜深度 -200 m、-300 m、-400 m
直升机高度 500 m
直升机速度 100 km/h、300 km/h
潜艇速度 15 kn、25 kn、34 kn
舰艇速度 15 kn、29 kn
投放诱饵方向 0°、60°、120°、180°、240°、300°
潜艇开火距离 20 nmile内
舰艇开火距离 27 nmile内
3)决策引导体系设计
本实验的决策引导体系设计参考公式(6)和(7),根据想定内容对潜艇决策智能体的奖励参数值的设置见表4
表4 潜艇智能体奖励设计
参数名称 奖励条件 奖励值
终局
奖励
潜艇到达目标区域 10
rwin 潜艇被击毁 -10
想定结束未到达目标区域 -10
rpricre 潜艇无损伤 1
潜艇有损伤 -1
系数 ω1 1
ω2 1
过程
奖励
qi 潜艇击沉一艘舰艇 3
潜艇超出作战区域 -2
鱼雷接近潜艇2 km内 -3
潜艇诱饵成功引诱鱼雷 2
系数 k1 0.5
k2 10
4)智能体训练参数设计
根据本次实验想定场景大小,训练过程中可同时进行30局对战,对智能体训练过程所涉及的参数配置见表5
表5 训练参数配置
参数名 配置信息 参数名 参数值
学习器 1块GPU ε 0.1
采样器 36个CPU τmax 500
采样批大小 30局对战数据 θ 1
训练批大小 128 k 2
隐藏层大小 128 折扣率 0.9
数据记录的间隔 10 学习率 2e-4
损失值 0.5
5)规则体设计
反潜规则体的设计如图7所示。其中,反潜直升机可以选择携带声呐和浮标进行探测或者选择携带一枚鱼雷进行攻击;当实体的诱饵和鱼雷消耗殆尽时,投放诱饵和发射鱼雷的操作无效。
图7 舰机协同反潜规则体决策图

4.3 智能体训练结果

记录智能体训练过程中每轮30局对战的平均奖励值和平均决策步数,并进行可视化处理,其中,一轮为30局对战数据。本文奖励函数值的设置是经过多次实验确定潜艇决策智能体效果较好的数值,由于调整奖励值的实验变量较多,在此不做比较。此外,本文还进行了三组奖励函数相同的对比验证实验,共产生45 000局左右的互博弈对抗数据。三组实验分别是损失函数改进实验、损失函数未改进实验以及增强反潜规则体继承实验,其中,继承实验采用损失函数改进实验中第390轮产生的智能体模型,潜艇决策智能体的训练效果如图8图9所示。
图9 决策步数曲线
从图中的三组曲线可以看出,三组实验潜艇决策智能体在相同的决策引导体系下,每轮的平均奖励值和决策步数最终都可以收敛。对比两图中损失函数改进前后的两组实验曲线,改进后智能体在230轮训练后就开始逐步收敛并缓慢增加,曲线的波动幅度较小,训练过程中潜艇智能体的决策行为稳步增强,而损失函数改进前潜艇决策智能体虽然总体上是趋于收敛的,但收敛效果并不好,奖励曲线波动较大,在340轮之后才不会出现平均奖励值变为负数的情况,通过两组实验的对比,损失函数的改进可以将平均奖励值提高18%左右,决策步数下降10%左右,潜艇智能体对反潜规则体的胜率提高了27%左右。
图8图9中增强反潜规则体继承实验的曲线可以看出,智能体经过200轮的训练后,逐渐稳定收敛,奖励值稳定在14分左右,相比于继承前的损失函数改进实验第390轮模型,奖励值提高18%,决策步数下降9%,智能体的攻击性得到加强,与规则体对战的胜率达到90%以上,实现了对潜艇智能体决策模型的进一步优化。

5 结束语

本文针对潜舰机攻防对抗非对称性的特点,构建了潜艇智能体决策模型和多决策行动方案的协同反潜规则体模型,提出的两种PPO算法增强改进机制,通过潜艇决策智能体和协同反潜规则体间的互博弈对抗,利用深度强化学习分布式训练框架实现了潜艇的智能指挥决策。通过仿真实验,验证了潜艇决策智能体培育方法和决策引导体系的有效性;在对比实验中,验证了损失函数的改进能够加快算法的收敛速度,提高训练的稳定性,增强潜艇智能体的指挥决策能力;在继承实验中,证实了经过对反潜规则体的增强和对潜艇智能体的继承实现,可以培育具有更高智能决策能力的潜艇智能指挥决策模型,为军事智能体的培育和潜艇作战辅助决策提供了技术参考。
[1]
陶九阳, 吴琳, 胡晓峰. AlphaGo技术原理分析及人工智能军事应用展望[J]. 指挥与控制学报, 2016, 2(2):114-120.

[2]
黄彬城, 陈思, 高放, 等. 星际争霸视角的未来作战自主决策技术[J]. 科技导报, 2021, 39(5):117-125

[3]
况立群, 李思远, 冯利, 等. 深度强化学习算法在智能军事决策中的应用[J]. 计算机工程与应用, 2021, 57(20):1-10.

[4]
施伟, 冯旸赫, 程光权, 等. 基于深度强化学习的多机协同空战方法研究[J]. 自动化学报, 2021, 47(7):1610-1623.

[5]
王兴众, 王敏, 罗威. 基于SAC 算法的作战仿真推演智能决策技术[J]. 中国舰船研究, 2021, 16(6):1-10.

[6]
张振, 黄炎焱, 张永亮, 等. 基于近端策略优化的作战实体博弈对抗算法[J]. 南京理工大学学报, 2021, 45(1):77-83.

[7]
马晶, 刘鹏, 仵钇征, 等. 深度强化学习应用于海战场多智能体对抗问题研究[J]. 舰船科学技术, 2021, 43(S1):119-125,131.

[8]
赵星宇, 丁世飞. 深度强化学习研究综述[J]. 计算机科学, 2018, 45(7):1-6.

[9]
Schulman John, Sergey Levine, Pieter Abbeel, Michel Jordan, Philipp Moritz. Trust region policy optimization[C]. In: Proceedings of the 31st International Conference on Machine Learning, Lille, France, 2015: 1889-1897.

[10]
Risi S, Preuss M. Behind DeepMind’s AlphaStar AI that Reached Grandmaster Level in StarCraft II[J]. KI-Künstliche Intelligenz(1610-1987), 2020, 34(1):85-86.

[11]
Punia S, Nikolopoulos K, Singh S P, et al. Deep Learning with Long Short-term Memory Networks and Random Forests for Demand Forecasting in Multi-channel Retail[J]. International Journal of Production Research(1366-588X), 2020, 58(16):4964-4979.

[12]
Vaswani A, Shazeer N, Parmar N, et al. Attention is All you Need[C]// Advances in Neural Information Processing Systems, Long Beach, United States, 2017: 5998-6008.

Outlines

/