中国科技核心期刊      中国指挥与控制学会会刊     军事装备类重点期刊
Unmanned System & Technology

A deep deterministic policy gradient method for collision avoidance of autonomous ship

  • HU Zhengyang ,
  • WANG Yong
Expand
  • Jiangsu Automation Research Institute, Lianyungang 222061, China

Received date: 2023-08-04

  Revised date: 2023-10-09

  Online published: 2024-10-10

Abstract

This research addresses the crucial problem of collision avoidance decision making for autonomous ships under diverse encounter situations. Building upon the Deep Deterministic Policy Gradient (DDPG) algorithm, appropriate reward functions based on the International Regulations for Preventing Collisions at Sea (COLREGS) have been designed to effectively guide intelligent agents in acquiring optimal strategies. By incorporating the concept of potential reward shaping, the proposed approach ensures efficient obstacle avoidance while adhering strictly to the established rules. Moreover, extensive simulations have been conducted to validate the algorithm’s performance in collision avoidance for both dual-ship and multi-ship scenarios under varying encounter situations, and a comparative analysis with the TD3 algorithm has been undertaken. The obtained results demonstrate that the proposed algorithm exhibits rapid convergence and stable training performance. The resulting models successfully achieve collision-free navigation while strictly adhering to the COLREGS. Particularly, in two-ship encounter situations, the proposed algorithm outperforms the trajectory planned by the TD3 algorithm in terms of shorter path length and higher efficiency.

Cite this article

HU Zhengyang , WANG Yong . A deep deterministic policy gradient method for collision avoidance of autonomous ship[J]. Command Control and Simulation, 2024 , 46(5) : 37 -44 . DOI: 10.3969/j.issn.1673-3819.2024.05.006

近年来,随着全球贸易的蓬勃发展和航运业务的日益繁忙,海上航行安全成为全球关注的焦点。为了确保船舶在复杂的海上环境中安全导航,海上航行规则(COLREGS)被广泛采用和执行。COLREGS是国际海事组织(IMO)制定的一系列规定,旨在规范船舶在海上的交通和避碰行为,以减少事故发生和最大限度保护人员、船舶和环境的安全,在商业航运、渔业捕捞、私人休闲航海以及港口航道管理等多个领域都有广泛应用[1]
传统的航行路径规划方法主要依赖电子海图或专家经验设计航行规则,无法适应复杂多变的海上环境。此外,这些方法忽视了船舶之间的协同作用和动态交互,无法对突发情况做出及时响应。因此,为了提高海上航行的安全性和效率,研究人员需要开发一种智能化的路径规划方法,能够根据实时环境信息和船舶间的交互来动态调整航线,以满足COLREGS的要求。
强化学习(RL)作为一种端到端的机器学习方法,通过与环境进行交互学习最优的行为策略,逐步积累经验并优化智能体的决策过程。在路径规划领域,RL已经展现出了潜力,可以在未知环境中实现自主的路径规划和决策,受到国内外学者广泛关注。
周怡[2]通过AIS系统获取周围船舶实时信息并同步到电子海图中,通过预测航线实现避碰,并且改进DDPG算法,在失败区域反复学习试错,将经验池分类提高样本利用率加快收敛速度。Lyu[3]根据COLREGS将障碍船可能出现的位置划分为4个区域,并利用APF算法改进DQN的动作空间和奖励函数,解决了稀疏奖励难题,实现在多船会遇情况下满足航行规则的避障。周双林[4]将可航行范围分成30个区域,每个区域中至多存在一条障碍船,根据与障碍船的最近会遇距离和最近会遇时间以及方位角设计状态空间,结合COLREGS,同时考虑航向跟随和保持来设计奖励函数,实现了满足COLREGS的船舶避碰。李昀哲[5]通过两船信息建立状态空间,根据不同会遇态势、船舶领域以及碰撞危险度进行决策。刘钊[6]结合LSTM(Long Short-Term Memory)网络提取多时刻的状态信息,通过量化规则奖励引导智能体按照COLREGS避碰,利用多船随机会遇场景提高模型的泛化性。Guo[7]通过规则转换的方法,结合COLREGS在船首方向绘制导航限制线约束Agent的动作空间,当Agent越过限制线时给予惩罚,引导Agent学习。Zhang[8]提出一种多船会遇局面的分布式避碰决策算法,适用于目标船操纵不遵守COLREGS情况。Kang[9]通过船舶领域评估碰撞危险程度,并结合差分进化算法设计障碍物约束下的适应度函数来优化避碰路径。Shen[10]通过添加规则线限制航行区域,使本船符合COLREGS要求,并利用船舶领域构建奖励函数,在多种会遇场景下训练得到了多船会遇的避碰策略。
尽管在遵守COLREGS的前提下进行路径规划的研究已经取得了大量的成果,还存在一些问题需要解决。COLREGS是一套相对复杂的规则集,其中包含多种情况下的行为规定。在基于强化学习的路径规划中,模型需要具备理解和遵守这些规则的能力,并同时具备适应不同情况的灵活性以及规划路径的高效性。因此,如何使算法在理解COLREGS的基础上减少路径的冗余,仍然是一个待解决的问题。

1 基于强化学习的USV避碰流程

为了确保USV能够在遵守COLREGS的情况下对有碰撞危险的海上船舶进行安全有效的避障,本文提出的算法流程如图1所示。
图1 基于强化学习的USV避碰方法

Fig.1 A reinforcement learning-based collision avoidance method for USV

船舶进入无人船的探测范围时,通过结合其航向、航速以及本船的运动信息,可以判断是否存在碰撞风险。根据任务要求,算法确定强化学习中各个要素,并利用USV的观测信息和目标信息设计状态空间,以确保USV能够获得足够的信息以做出符合COLREGS的决策。根据USV的动力学特性确定动作空间,并将奖励非稀疏化思想与COLREGS相结合,设计奖励函数。在多种会遇情况下进行训练,利用Adam优化器更新策略网络和价值网络,得到符合COLREGS的USV避碰模型。最后,研究人员在两船及多船会遇情况下进行仿真实验,证明算法的有效性。

2 相关算法原理

2.1 DDPG算法原理

DDPG是一种基于策略梯度的深度强化学习算法,结合DQN(Deep Q-Network)和确定性策略梯度方法,同时使用经验回放和目标网络来提高算法的稳定性和收敛性,广泛应用于需要连续动作控制的任务中。DDPG算法结构如图2所示。
图2 DDPG算法流程

Fig.2 DDPG algorithm flow

DDPG采用Actor-Critic框架,共有4个网络,分别是:参数为θ,输入为状态s的Actor网络μθ(s);参数为ω,输入为状态动作对(s,a)的Critic网络Qω(s,a);参数为θ-的目标Actor网络 μ θ -(s);参数为ω-的目标Critic网络 Q ω -(s,a)。算法训练过程中,针对t时刻下的元组 s t , a t , r t , s t + 1,算法首先让目标Actor网络计算t+1时刻的动作并预测其价值,计算得到TD目标如下:
yt=rt+γQω- s t + 1 , μ θ - s t + 1
其中,γ为折扣因子,rt为该动作获得的奖励。
最小化目标损失L ω
L ω= 1 2[Qω s t , a t-yt]2
更新当前Critic网络为
ω←ω-α Q ω - s t , a t - y t· ωQω s t , a t
计算采样的策略梯度,以此更新当前Actor网络如下:
θ←θ+β θμθ s t· aQω s t , μ θ s t
DDPG目标网络的更新方式和DQN略有不同:在DQN中,采取的是目标网络延迟更新方法,而DDPG采用的是软更新方式,让目标网络缓慢接近在线网络,其中τ为软更新系数:
ω-←τω+ 1 - τω-
θ-←τθ+ 1 - τθ-

2.2 LSTM算法原理

LSTM(Long Short-Term Memory)是一种循环神经网络(Recurrent Neural Network,RNN)的变体,旨在解决传统RNN在长序列上存在的梯度消失和梯度爆炸问题。LSTM通过引入门控机制来有效地处理和记忆长期依赖关系,其结构如图3所示。
图3 LSTM网络结构

Fig.3 LSTM network structure

LSTM的关键思想是细胞状态(cell state)和门控单元(gate units),LSTM中的细胞状态类似于RNN中的隐藏状态,但它是沿着时间序列传递并贯穿整个网络。细胞状态可以看作是网络的记忆单元,能够在不同的时间步长上存储和传递信息。门控单元则是用来控制信息的流动和保留,它们分别是遗忘门(Forget Gate)、输入门(Input Gate)和输出门(Output Gate)。
遗忘门决定细胞状态中的哪些信息需要被遗忘,它根据当前输入Xt和前一时刻的隐藏状态ht-1来生成一个0到1之间的f值来决定是否让上一时刻学到的Ct-1值通过或部分通过,其中,0表示完全忘记,1表示完全保留;输入门决定要更新细胞状态的哪些部分,它通过使用sigmoid激活函数生成一个0到1之间的值,表示要保留的信息量;输出门根据当前输入和前一时刻的隐藏状态来确定输出。

2.3 结合LSTM的DDPG

本文算法的主要目标是在遵守COLREGS的情况下,能够有效避开障碍船并成功到达目标点。然而,算法通过分析单个时刻的信息是无法获取障碍船的航向、航速等运动要素,从而无法准确判断当前的会遇情况,并采取相应的避让动作。因此,如果无人船能够根据连续多个时刻的信息预测出障碍船未来的动作趋势[11],就能够根据不同情况采取相应的避碰动作。为了实现上述目标,本文采用LSTM(Long Short-Term Memory)网络提取输入状态中障碍船的运动信息,经LSTM处理后与本船位置信息和目标点信息合并输入全连接层。全连接层每层含有256个神经元,各层之间采用ReLu激活函数,输出层则只有一个神经元,激活函数采用双曲正切函数tanh将输出映射到[-1,1]区间,与动作边界值abound相乘后输出动作a。网络结构如图4所示。价值网络与策略网络类似,区别在于价值网络输入要增加当前动作a,且输出层不需要激活函数。策略网络和价值网络均采用Adam优化器。
图4 船舶避碰策略网络结构

Fig.4 Ship collision avoidance policy network architecture

3 基于强化学习的决策要素设计

3.1 状态空间设计

为了使用DDPG算法学习避障控制策略,需要精心设计状态空间以提高模型的泛化能力,并减少冗余信息对学习过程的干扰。状态空间由船舶周围的观测信息、本船的运动信息和目标点的信息组成。船舶的观测信息是基于连续多个时刻的2D雷达扫描数据,每个时刻的数据由长度为L的一维数组表示,该数组记录了单束雷达的距离测量值。本船的运动信息包括当前位置的信息,而目标点的信息包括当前位置与目标点之间的距离。通过LSTM网络处理观测信息,将这3种信息合并形成一个时刻的状态St

3.2 动作空间设计

在船舶航行过程中,由于频繁改变航速会对发动机造成损伤,船员往往通过改变航向而不是航速来进行避碰。为贴合实际,本文使用航向变化量Δφ - π / 2 , π / 2来作为动作空间。

3.3 碰撞危险评估

作者在设计奖励函数之前,首先需要根据船舶的会遇情况进行危险程度的评估。假设USV的探测范围为dc,与目标船(TS)的安全距离为ds。在计算过程中,算法忽略那些不在USV探测范围内的目标船。当目标船进入USV探测范围时,算法首先计算了本船与目标船之间的最小会遇距离[12](DCPA)。如图5所示,VTS为目标船速度,VOS为本船速度。如果DCPA小于船舶的安全距离,则判断两船相对速度的延长线是否经过目标船的前方。如果延长线经过目标船前方,那么算法在侵犯领域惩罚的基础上,根据具体的会遇态势,给予相应的奖励或惩罚。
图5 碰撞危险判断示意图

Fig.5 Illustration of collision hazard assessment

船舶避让过程中,除了考虑船舶安全性及路径的效率性之外,还要考虑是否遵守COLREGS规则。根据COLREGS规则,两艘船的相对位置被划分为4个避障策略区域,如图6所示。
图6 会遇态势区域

Fig.6 Encounter Situation Zones

3.4 规则量化

当船舶之间存在碰撞危险时,算法根据不同的会遇态势在相应的位置虚拟目标点来引导USV避障。
1)交叉相遇局面
当两艘船舶相交的航向存在交叉的情况并有碰撞危险时,会遇态势属于交叉会遇局面。根据COLREGS规则,拥有右舷优先权的船舶有避让权。右舷船舶应继续保持航向和速度,而左舷船舶则应该避让右舷船舶,并且避免从船首经过,因此在交叉会遇情况下,在TS后方如图7a),设置虚拟目标点,引导USV从TS后方绕过。
图7 不同会遇局面避碰策略

Fig.7 Collision avoidance strategies in various encounter scenarios

2)追越局面
当一艘船舶正在追赶另一艘船舶时,会遇态势存在跟随的会遇局面。根据COLREGS规则,跟随船舶应当避免碰撞并保持足够的安全距离,在航向和速度上做出调整,从目标船侧方通过如图7b)所示,确保安全超越。
3)对遇局面
当目标船(TS)和本船(OS)的相对方位角在[355°, 360°]或[0°, 5°]之间且存在碰撞风险时属于对遇局面,本船应向右转,以通过对方船的左舷,因此在TS右侧如图7c)所示,设置虚拟目标点,引导USV朝右转,以避开TS

3.5 奖励函数设计

在强化学习中,奖励函数定义了学习任务的目标,并为智能体提供即时的反馈信号,引导其在不同状态下做出最优决策。通过奖励函数,智能体能够逐步优化策略,平衡探索和利用的关系,并形成学习信号,从而提高其性能和效率。因此,奖励函数的设计对于强化学习的成功至关重要。
强化学习在探索初期由于奖励的稀疏性及探索的随机性无法获得正向奖励而陷入局部最优,采用基于势能的回报塑形思想对奖励函数进行塑形。在本文中,目标位置被赋予较高的势能值,而障碍物和限制区域则被赋予较低的势能值。智能体会根据其当前位置的势能值,沿着更高势能值的方向移动,以寻找一条安全、高效的路径。通过调整势能场的形状,可以影响智能体在环境中的行为,从而实现不同的路径规划目标,例如避开障碍物、遵守规则等。基于势能的塑形回报方法因其简单、灵活且易于实现而被广泛应用于自主导航和路径规划领域。
首先建立目标点的势能函数,计算公式如下:
φatt s=kgoalcos ρ X O S , X g o a l ρ m a x X O S , X g o a l · π 2
其中,φatt(s)代表当前状态目标点产生的势能,kgoal为调整接近目标点奖励大小的系数,XOS为USV的实时位置,Xgoal为目标点的位置,ρ X O S , X g o a l为该状态下USV和目标点之间的距离。
存在碰撞危险时,虚拟目标点的势能函数为
φvir-att s=kvir-goalcos ρ X O S , X g o a l ρ m a x X O S , X g o a l · π 2
其中,kvir-goal为调整接近虚拟目标点的奖励大小系数。
同理,根据有碰撞危险的船位置建立障碍船的势能函数:
φrep s= k T S ( s i n ρ X O S , X T S ρ m a x X O S , X T S · π 2 - 1 ) ρ X O S , X T S d s 0 , ρ X O S , X T S > d s
其中,φrep s表示当前状态障碍船TS产生的势能函数,kTS为调整接近TS的奖励大小系数,ρ X O S , X T S为本船和障碍船之间的距离。
当USV进入避碰状态时奖励函数为
reward= k a v i + r a t t+rrep+rvir-att
其中,kavi为避碰状态下惩罚,另外3个参数计算公式为:
rattatt s ,att s
rreprep s ,rep s
rvir-attvir-att s ,vir-att s
当USV与障碍船相撞时,奖励函数为
reward=ratt+rrep+rvir-att+kcol
其中,kcol为碰撞惩罚。

4 仿真验证

4.1 实验设置

针对自主避碰任务,设计了一个5 km*5 km的仿真训练区域,起点为(0.5,2.5),终点为(4.5,2.5),令探测范围dc为1 km,安全范围为0.5 km,USV航速为5 m/s。
在Windows10平台上搭建未知环境下USV自主避碰仿真实验环境,软硬件具体信息如表1所示。
表1 仿真环境

Tab.1 Simulation environment

硬件环境 处理器
显卡内存
Corei5-12 400 f
RTX 3 070 Ti
32G/3 200 Mhz
软件环境 操作系统 Windows10
编程语言 Python3.10
深度学习框架 Pytorch
强化学习环境 Pygame
为了提高算法的泛化性,算法通过随机生成1~3艘航线经过本船与目标点连线的障碍船进行训练,模拟会遇情况,并且采用随机优先级采样方法,提高算法的收敛速度。算法仿真设置迭代次数为15万次,评价网络学习率为3×10-4,策略网络学习率为3×10-5,折扣因子为0.98,软更新率为0.005,根据以上参数进行训练,经过平滑处理的累计奖励曲线如图8所示,到达目标点的成功率曲线如图9所示。由图8图9可以得出累积奖励在第10万次左右趋于收敛,成功率也在第10万次左右趋于平稳,且达到90%以上。
图8 累积奖励曲线

Fig.8 Total reward curve

图9 成功率曲线

Fig.9 Success rate curve

为验证算法能够在不同会遇局面下遵守COLREGS规则进行避碰,本文分别设置不同的会遇场景进行仿真实验,并与文献[6]的TD3算法进行比较。

4.1.1 对遇局面

仿真实验设置目标船的初始位置为(4.5,2.5),航向为180°,航速为5 m/s。两种算法下本船及目标船航行轨迹见图10,本船和障碍船距离变化曲线见图11,其中蓝色轨迹为本文算法规划的轨迹,绿色轨迹则为TD3算法规划的轨迹。由图10a)可知,两种算法控制的USV感应到有船进入探测范围后都迅速右转,从对遇船左侧通过,然而从图10b)可以看出TD3算法控制的USV转向角较大,而DDPG控制的USV转向角较小。虽然DDPG控制的USV与目标船距离较近,但是从图11可知,两种算法下本船和障碍船的距离始终大于ds,整个避碰过程中本船都没有进入目标船安全领域。综合分析图10d)图11可知,在满足安全规则条件下,DDPG控制的USV在对遇局面中所规划的路径更短。
图10 对遇局面航行轨迹

Fig.10 Vessel navigation trajectories of head-on situations

图11 对遇局面下船间距变化曲线

Fig.11 Variations of inter-vessel distance in head-on situations

4.1.2 交叉相遇局面

仿真实验设置目标船初始位置坐标为(2.5,0.75),航向为90°,航速为5 m/s。两种算法下本船及目标船航行轨迹如图12所示,本船和障碍船间距变化曲线如图13所示。由轨迹图12a)可知,在交叉会遇情况下,目标船进入探测范围后,两种算法都做出右转避障动作。由图12c)可知两种算法都是经过船尾避障,符合COLREGS要求。虽然TD3算法对目标船做出反应的速度比DDPG算法更快,且最小会遇距离更远。但是从图12c)可以看出,TD3算法做出的避让动作幅度较大且恢复朝向目标的速度较慢,使得TD3算法规划的路径比DDPG更长。
图12 交叉局面航行轨迹

Fig.12 Vessel navigation trajectories of crossing situations

图13 交叉局面下船间距变化曲线

Fig.13 Variations of inter-vessel distance in crossing situations

4.1.3 追越局面

仿真实验设置目标船的初始位置坐标为(1.5,2.5),航向为0°,航速为2.5 m/s,两种算法下本船及目标船航行轨迹如图14所示,本船和障碍船间距变化曲线如图15所示。由图14a)可以看出,算法在检测到障碍船后,两船都开始右转,图14b)表明本船经由目标船右侧越过目标船,随后慢慢恢复航向,到达目标点,从图14c)可以看出,DDPG算法避障中,提前恢复航向导致本船与障碍船间距减小,随后又进入避障状态右转。但从图15可知此时障碍船并未进入安全距离。综合分析可知,DDPG算法满足安全避障的要求且比TD3规划的路径更短。
图14 追越局面航行轨迹

Fig.14 Vessel navigation trajectories of overtaking situations

图15 追越局面下船间距变化曲线

Fig.15 Variations of inter-vessel distance in overtaking situations

4.1.4 多船会遇局面

目标船的初始设置如表2所示。不同算法下本船与各个目标船航行轨迹及船间距如图16图17所示。由图16a)可知当第一个目标船进入USV探测范围时,两种算法控制的USV都进行左转避让从目标船船尾通过,两种算法规划的轨迹大致相同。由图16b)可知,在避让完第二个目标船后,两种算法的路径出现较大的区别。TD3算法感知到第3个目标船驶来后继续向上方行驶,避开了第3个目标船。DDPG算法由于较快恢复航向驶向目标点,需要对第3个障碍物做出较大幅度的避让动作,但是DDPG算法可以较快地从避让动作中恢复驶向目标点航向。因此在多船会遇情况下两种算法的路径长度大致相同。
表2 目标船初始设置

Tab.2 Initial configuration of the TS

目标船 初始位置 航速/(m/s) 航向/(°)
TS1 (0,2) 6 0
TS2 (0.75, 5) 4 315
TS3 (5,3.75) 2.5 180
图16 多船会遇航行轨迹

Fig.16 Vessel navigation trajectories of multi-ships encounter situations

图17 多船会遇局面下船间距变化曲线

Fig.17 Variations of inter-vessel distance in multi-ships encounter situations

4.2 实验结果分析

在对不同场景进行仿真实验后,作者通过对两种算法控制下本船的轨迹、本船与障碍船的间距进行分析,可知本文提出的USV自主避碰决策算法在两船会遇情况下规划出的路径长度比TD3所规划的路径长度要短;而多船会遇情况下本文算法所规划的路径长度与TD3相当。

5 结束语

针对不同的会遇态势,本文基于DDPG算法提出了一种COLREGS规则约束下的无人船舶自主避碰决策算法。算法根据本船探测范围内的全局状态信息为状态输入,采用LSTM网络对多个时刻的信息进行整合、提取和预测,确保了周边态势感知的完整性和连贯性,并从连续的动作空间中选取避碰动作,使得船舶航行过程更加流畅,更符合船舶操控特性。算法同时根据COLREGS规则设计了奖励函数,保证了避碰动作的规范性和安全性。算法通过对不同的会遇场景进行仿真实验,结合船舶航行轨迹以及相对距离,可以看出在船舶存在碰撞危险时,本文算法能够正确选取避碰动作,证明了算法的有效性。
[1]
SPAULDING M L, HOWLETT E, et al. Application of SARMAP to estimate probable search area for objects lost at sea[J]. Marine Technology Society Journal, 1996, 30(2): 17-25.

[2]
周怡, 袁传平, 谢海成, 等. 基于DDPG算法的游船航行避碰路径规划[J]. 中国舰船研究, 2021, 16(6): 19-26, 60.

ZHOU Y, YUAN C P, XIE H C, et al. Collision avoidance path planning of tourist ship based on DDPG algorithm[J]. Chinese Journal of Ship Research, 2021, 16(6): 19-26, 60.

[3]
LYU H G, YIN Y. COLREGS-constrained real-time path planning for autonomous ships using modified artificial potential fields[J]. The Journal of Navigation, 2019, 72(3): 588-608.

[4]
周双林, 杨星, 刘克中, 等. 规则约束下基于深度强化学习的船舶避碰方法[J]. 中国航海, 2020, 43(3): 27-32, 46.

ZHOU SL, YANG X, LIU K Z, et al. COLREGs-Compliant method for ship collision avoidance based on deep reinforcement learning[J]. Navigation of China, 2020, 43(3): 27-32, 46.

[5]
李昀哲, 王硕丰, 刘彬, 等. 基于深度强化学习的船舶避碰决策算法[J]. 船舶工程, 2022, 44(10): 118-126.

LI Y Z, WANG S F, LIU B, et al. Research on decision-making algorithm for ship collision avoidance based on deep reinforcement learning[J]. Ship Engineering, 2022, 44(10): 118-126.

[6]
刘钊, 周壮壮, 张明阳, 等. 基于双延迟深度确定性策略梯度的船舶自主避碰方法[J]. 交通信息与安全, 2022, 40(3): 60-74.

LIU Z, ZHOU Z Z, ZHANG M Y, et al. A twin delayed deep deterministic policy gradient method for collision avoidance of autonomous ships[J]. Journal of Transport Information and Safety, 2022, 40(3): 60-74.

[7]
GUO S, ZHANG X, ZHENG Y, DU Y. An autonomous path planning model for unmanned ships based on deep reinforcement learning[J]. Sensors, 2020, 20(2): 426-426.

[8]
ZHANG J F, ZHANG D, YAN X P, et al. A distributed anti-collision decision support formulation in multi-ship encounter situations under COLREGS[J]. Ocean Engineering, 2015, 105(6): 336-348.

[9]
KANG Y T, CHEN W J, ZHU D Q, et al. Collision avoidance path planning in multi- ship encounter situations[J]. Journal of Marine Science and Technology, 2021, 26(4): 1 026-1 037.

[10]
SHEN H Q, HASHIMOTO H, MATSUDA A, et al. Automatic collision avoidance of multiple ships based on deep Q-learning[J]. Applied Ocean Research, 2019, 86(2): 268-288.

[11]
武曲, 张义, 郭坤, 等. 结合LSTM的强化学习动态环境路径规划算法[J]. 小型微型计算机系统, 2021, 42(2): 334-339.

WU Q, ZHANG Y, GUO K, et al. LSTM combined with reinforcement learning dynamic environment path planning algorithm[J]. Journal of Chinese Computer Systems, 2021, 42(2): 334-339.

[12]
胥文, 胡江强, 尹建川, 等. 基于模糊理论的船舶复合碰撞危险度计算[J]. 舰船科学技术, 2017, 39(13): 78-84.

XU W, HU J Q, YIN J C, LI K. Composite evaluation of ship collision risk index based on fuzzy theory[J]. Ship Science and Technology, 2017, 39(13): 78-84.

Outlines

/