近年来,随着全球贸易的蓬勃发展和航运业务的日益繁忙,海上航行安全成为全球关注的焦点。为了确保船舶在复杂的海上环境中安全导航,海上航行规则(COLREGS)被广泛采用和执行。COLREGS是国际海事组织(IMO)制定的一系列规定,旨在规范船舶在海上的交通和避碰行为,以减少事故发生和最大限度保护人员、船舶和环境的安全,在商业航运、渔业捕捞、私人休闲航海以及港口航道管理等多个领域都有广泛应用
[1]。
传统的航行路径规划方法主要依赖电子海图或专家经验设计航行规则,无法适应复杂多变的海上环境。此外,这些方法忽视了船舶之间的协同作用和动态交互,无法对突发情况做出及时响应。因此,为了提高海上航行的安全性和效率,研究人员需要开发一种智能化的路径规划方法,能够根据实时环境信息和船舶间的交互来动态调整航线,以满足COLREGS的要求。
强化学习(RL)作为一种端到端的机器学习方法,通过与环境进行交互学习最优的行为策略,逐步积累经验并优化智能体的决策过程。在路径规划领域,RL已经展现出了潜力,可以在未知环境中实现自主的路径规划和决策,受到国内外学者广泛关注。
周怡
[2]通过AIS系统获取周围船舶实时信息并同步到电子海图中,通过预测航线实现避碰,并且改进DDPG算法,在失败区域反复学习试错,将经验池分类提高样本利用率加快收敛速度。Lyu
[3]根据COLREGS将障碍船可能出现的位置划分为4个区域,并利用APF算法改进DQN的动作空间和奖励函数,解决了稀疏奖励难题,实现在多船会遇情况下满足航行规则的避障。周双林
[4]将可航行范围分成30个区域,每个区域中至多存在一条障碍船,根据与障碍船的最近会遇距离和最近会遇时间以及方位角设计状态空间,结合COLREGS,同时考虑航向跟随和保持来设计奖励函数,实现了满足COLREGS的船舶避碰。李昀哲
[5]通过两船信息建立状态空间,根据不同会遇态势、船舶领域以及碰撞危险度进行决策。刘钊
[6]结合LSTM(Long Short-Term Memory)网络提取多时刻的状态信息,通过量化规则奖励引导智能体按照COLREGS避碰,利用多船随机会遇场景提高模型的泛化性。Guo
[7]通过规则转换的方法,结合COLREGS在船首方向绘制导航限制线约束Agent的动作空间,当Agent越过限制线时给予惩罚,引导Agent学习。Zhang
[8]提出一种多船会遇局面的分布式避碰决策算法,适用于目标船操纵不遵守COLREGS情况。Kang
[9]通过船舶领域评估碰撞危险程度,并结合差分进化算法设计障碍物约束下的适应度函数来优化避碰路径。Shen
[10]通过添加规则线限制航行区域,使本船符合COLREGS要求,并利用船舶领域构建奖励函数,在多种会遇场景下训练得到了多船会遇的避碰策略。
尽管在遵守COLREGS的前提下进行路径规划的研究已经取得了大量的成果,还存在一些问题需要解决。COLREGS是一套相对复杂的规则集,其中包含多种情况下的行为规定。在基于强化学习的路径规划中,模型需要具备理解和遵守这些规则的能力,并同时具备适应不同情况的灵活性以及规划路径的高效性。因此,如何使算法在理解COLREGS的基础上减少路径的冗余,仍然是一个待解决的问题。