中国科技核心期刊      中国指挥与控制学会会刊     军事装备类重点期刊
Weapon & Information System

Cooperative cruise method of heterogeneous cluster based on quantum decision

  • LIU Hao 1, 2 ,
  • ZHANG Yunfei 1 ,
  • ZHANG Weibin 1 ,
  • Hu Qizhi 1, 2
Expand
  • 1 Yunzhou Intelligent Technology Co., Ltd., Southern Marine Science and Engineering Guangdong Laboratory (Zhuhai), Zhuhai 519082, China
  • 2 Yunzhou Innovation Technology Co., Ltd., Shenzhen Research Institute, Shenzhen 518106, China

Received date: 2023-06-22

  Revised date: 2023-07-30

  Online published: 2024-07-29

Abstract

By analyzing the characteristics of collaborative decision-making behavior of heterogeneous clusters, this paper introduces quantum decision-making model to solve the autonomous decision-making problem of heterogeneous clusters. Firstly, it is triggered from the OODA loop process to clarify the control mode of heterogeneous cluster collaboration. Then, aiming at the specific problem of heterogeneous cluster cooperative cruise, the tasks of unmanned boat cluster and UAV cluster are split, and the application models of formation optimization and autonomous detection are constructed respectively. The formation optimization algorithm is designed to dynamically generate the best communication formation structure. The quantum decision cloud and feedback scoring mechanism are designed to select the most suitable decision content among many possible detection options. Finally, the effectiveness of formation optimization model and autonomous detection model in heterogeneous cluster cooperative cruise is demonstrated by simulation experiments. Experiments show that the quantum decision model has greater applicability and mobility in decision behavior selection and optimization than the conventional decision model.

Cite this article

LIU Hao , ZHANG Yunfei , ZHANG Weibin , Hu Qizhi . Cooperative cruise method of heterogeneous cluster based on quantum decision[J]. Command Control and Simulation, 2024 , 46(4) : 66 -76 . DOI: 10.3969/j.issn.1673-3819.2024.04.009

随着人工智能技术深刻嵌入集群控制领域,决策行为逐步从人工决策向智能辅助决策乃至机器自主决策演化;在异构集群协同巡航研究领域,经典决策方式为集中控制多个异构单元完成各类巡航任务,人或控制中枢是决策主体[1];引入人工智能技术后,人作为决策主体的部分权力让渡于机器智能,以此聚焦人的关注力并降低决策错误率。在人工智能技术迭代的关键时期,有必要深入分析理解决策的内涵、要素,找到集群自主决策的技术瓶颈,更深入地探索人工智能技术。
从决策主体分析,无人系统的技术演化方向朝着分布式、立体化、跨域协同的模式发展,以多决策主体协同配合的跨域异构协同是未来无人系统的研究重点[2];其中,无人机/无人艇跨域协同是当前国际的前沿研究领域,世界各发达国家和经济体均将其列为无人系统发展路线图的战略核心技术,如美国国防部2018年8月30日公布的第五版《2017-2042财年无人系统综合路线图》和我国2017年发布的《新一代人工智能发展规划》,以及国务院《中国制造2025》规划,明确了以跨域异构协同为核心的无人系统是人工智能未来的主要研究方向之一[3]。以无人艇和无人机搭建的异构无人系统协同包含[4]:一是以无人艇为核心的编组模式。以无人艇作为无人系统的编组中心,利用无人艇相对更大的载荷、功率存储、续航能力,为无人机等提供中转,增强异构无人系统的整体作战能力;二是异构平台协同巡航预警。结合有人平台和异构无人平台,发挥异构无人集群全天候、常态化、不间断的巡航游走特性,实现对划定区域范围的目标协同探测和常态警戒;三是异构平台一体化协同作业。采取规则化或强化学习产生的决策树,利用规模效应在作业时域和空域中自主达成作业需求,自主、高效、连贯、可控地完成各类任务需求。当前异构无人协同的研究瓶颈主要集中在:1)协同航迹规划、2)自主避障、3)通信组网、4)异构编队协同。其中最紧迫的决策问题集中在异构协同航迹规划上,即异构集群协同巡航问题。国内外的主流研究可划分为全局任务规划和动态任务规划两大算法类别。
全局任务规划以控制中枢作为决策主体,将决策权划归控制中枢,在有效时间内利用各类优化算法计算出当前态势最佳任务规划,分发到异构集群执行;使用全局任务规划的方法的优点是算法寻优效果明显,能够针对场景进行适应性启发优化,缺点则是决策时间和动作响应之间存在延迟,特别是在动态场景中,全局任务规划的响应时效性较差,因此有必要做出改进。同类研究的典型改进方法包含:侯岳奇等[5]将无人机和无人艇的协同问题转化为协同航迹规划问题,设计了贴合实际场景的多约束条件惩罚函数,以集群平均航行时间为算法优化目标,采用自适应差分进化算法进行迭代优化,实现了离线静态场景中集群平均航行时间最短的路径规划;姚鹏等[6]采用区域分解、子区域分配、航路规划的分层求解思路,通过高斯混合模型分配和归类子区域,以最大化观测收益作为算法优化目标,采用并行滚动时域控制算法进行航路规划,有效解决异构集群的最优动态覆盖观测问题;曾宏等[7]提出了一种无人机、无人艇和无人潜航器的协同运动规划方法,采用完成规划任务的优先级次序进行任务分配,首先获取无人机的位置并实施路径规划,在达到理想效果后依次规划无人艇、无人潜航器的路径,以解决协同规划中的任务执行次序问题;Chen Y等[8]研究地面移动机器人(UGV)和无人机的协同路径规划问题,设计了以UGV为起降载体的协同行动场景,针对两架无人机和一台无人车构造约束条件,以充电时间、悬停时间、最大速度设计算法目标函数,将路径规划问题转化为多约束优化问题,引入粒子群算法获取路径规划;Wu Y等[9]探讨了基于异构无人车集群的快递配送问题,以各无人车完成配送任务的最长时间作为算法优化目标,采用改进粒子群算法获取最优完工时间的任务调度策略;Martin J G等[10]在异构集群任务分配问题中引入分支定界算法和遗传算法,以行进距离、完成任务时间、消耗资源作为优化目标,获取一段时间后的可行解;Deng Q等[11]在异构无人机集群的任务分配问题中,根据异构无人机的作业能力、运动参数、机载资源的差异构造约束条件,通过任务拆分降低使用遗传算法寻优的时间消耗。
动态任务规划以异构智能体为决策主体,将部分或全部决策内容让渡给智能体自主决策和执行,通过信息素等环境变量间接控制集群决策的演化方向,逐步达成全局优化收敛。相比较而言,动态任务规划在决策内容相对简单时(如动态避障、动态组网),具有相对优势,如通信数据量少、环境生存率高、动态适应能力强等,在处理如跨域协同航迹规划等复杂决策问题时,算法表现不尽如人意,异构智能体各自优化导致集群整体决策效果难以保证,易陷入由反馈延时导致的周期性波动。同类研究主要基于如下改进:Zheng Z等[12]探讨了异构无人机集群在多障碍物场景中的实时航迹规划问题,通过云端服务器共享集群感受的障碍和威胁信息,通过分析威胁信息修正各无人机的路径规划,以此构建基于自适应策略的路径规划算法,应对复杂动态场景的不确定性;Chen J等[13]探讨了异构多无人机系统在大规模搜救问题中的任务规划问题,采用分层任务分配策略,通过基于聚类和协商机制的模型解耦算法,将大规模的任务分配问题分解为若干个不相交且独立的小规模任务分配问题,以降低计算量和通信成本;Gao S等[14]将异构无人机的任务分配问题转化为多旅行商问题,通过改造蚁群算法的优化目标,将异构目标分解为点、线、面目标,引入了个体信息素和序列信息素,提升算法收敛速度;Zhang Y等[15]依托动态规划方法求解异构无人机集群的任务规划,将多无人机协作任务看作多个子任务,通过任务拆解分配降低算法复杂度和通信时间延迟;Chen Y等[16]在处理无人车与无人机集群协同路径规划问题时,结合蚁群算法和遗传算法分步求解无人车和无人机的最优路线,将异构协同路径规划问题拆分成具有时间先后次序的无人车路径规划和无人机路径规划;Chen J等[17]在异构无人机集群路径规划问题中,结合线性规划和聚类算法,将飞行路径拆分为子任务集合,而后规划出各无人机的最优路径。
通过前述分析可知,同类主流研究主要以任务拆分和时空转换获取一定时间内的相对最优解,算法主要以基于启发搜索的群体优化算法和基于决策空间寻优的动态规划算法为主,优点是算法成熟可靠,能够获得相对最优解;缺点是忽略了异构集群内的差异性互补信息,导致算法在执行层面与同构算法无法区分,没有考虑各异构智能体之间的非线性关联和时空局限,进而造成收敛结果与真实场景的偏离。

1 本文工作

本文借鉴贝叶斯模型和AlphaGo中的蒙特卡罗树搜索设计反馈评分函数,设计量子云存储结构,在异构集群协同巡航过程中,记录、积累、分析时空尺度下的有效信息,作为后续决策的改进依据;评估信息序列环节的重点是实现对复杂系统演化结果的精准反馈,确保信息能够通过反馈量化对比并转化为量子云中的概率评分。

1.1 集中控制与分布控制

决策是决策主体以当前所处态势作为决策依据,在解向量空间中探索各种可能性,计算并优选出相对优越的决策内容,以此指导下一阶段行动的全过程,因此决策的本质是一种启发式的搜索、剪枝、优化过程。“感知-认知-决策-行动”的循环过程可理解为决策行为从设想到执行的过程,其中感知环节对应决策依据,认知环节对应决策计算,决策环节对应决策内容,行动环节对应决策主体。在各类应用场景转换中,决策主体、决策依据、决策内容各不相同,但决策计算是相同的,即依据态势数据,在众多可能的决策内容中优选一条最合适的并赋予决策主体执行,因此决策计算可归纳为启发式搜索算法,算法性能优劣直接制约决策的质量和效率。集中控制和分布控制的关系如图1所示。
图1 集中控制和分布控制图示

Fig.1 Centralized decision and non-centralized decision diagram

1.2 量子决策与神经网络

通过前述分析,决策在算法层面能够梳理出启发式搜索的执行流程,即:输入决策内容,感知周边态势(决策依据),生成决策向量空间,获取各个空间解向量的概率评分,选择一个解向量作为决策结果输出,在行动中反馈并更新解向量概率评分。该决策算法可以划归为一种典型的贝叶斯概率计算模型,归属于动态规划算法和蒙特卡洛树搜索。相较而言,人工神经网络(ANN)与决策算法有较大相似性,ANN计算过程:输入态势数据,生成调参矩阵,输出一个决策结果,在行动中评价决策结果优劣并修改调参矩阵;如此反复直至决策结果最优。ANN的问题:一是从能量使用上分析,ANN通过参数调整实现对多组输入数据的非线性拟合,耗费大量的算力在拟合和压缩过程,产生了能量的耗散;二是从信息利用上分析,ANN生成的调参矩阵只适用在特定的场景领域,跨域迁移会导致ANN决策失效,训练出的模型不可解释,不利于信息传播和利用;三是从信息增量上分析,实现信息增量提速的大方向是多维尺度下的信息交流共享,而ANN特殊的训练模式和数据的时空隔离,降低了信息交流效率。
量子决策是对决策算法在执行层面的细化和实现,算法核心是根据当前态势构建量子云模型,量子云中包含当前态势中的各种决策结果及其概率评分,但在OODA的行动环节之前,量子云的各个决策结果均有执行的可能,此时的决策主体处于不确定状态,定义为“量子叠加态”;行动环节会通过各决策结果的概率评分选择唯一的结果执行,促使决策主体的行动确定化,根据行动结果更新量子云模型的概率评分;而后从当前行动结果出发,产生后续的态势,为量子云模型提供新增数据,如此往复构建出量子决策模型。量子决策与神经网络的最大区别在于:量子决策中对应同一态势的各种决策结果会以一定的概率执行,即便概率很小也有执行机会,是一种不确定性的概率模型;而神经网络只对应有限的决策结果,是一种确定性的选择模型。量子决策与ANN模型的区别如图2所示。
图2 量子决策与神经网络图示

Fig.2 Quantum decision and ANN decision diagram

1.3 问题描述

量子决策的核心问题是处理4类决策要素之间的分工配合,共同搭建OODA循环,在异构无人集群巡航中引入量子决策模型,问题建模:在无人决策情况下由无人机和无人艇组成的异构集群完成对划定水域的常态化巡航,无人艇集群负责组建动态通信网络,无人机集群负责探测周边水域和辨识追踪可疑目标;无人机能够定期降落在无人艇完成能源补给,无人艇能够定期返回补给站完成能源补给;每艘无人艇可搭载4艘无人机,无人机的起降时机和飞行路线是量子决策的应用项,即量子决策模型应用在无人集群的巡航路径规划;各智能体之间存在最优通信距离设为4 km,超过通信距离10%则会断开通信,无法共享后续的水域态势和可疑目标位置,失去控制的无人单元可自主决策完成任务;处于通信距离内的异构无人装备之间可组建多跳无线自组网,构成网状网络拓扑,确保异构无人系统经过多跳后还能保持通信传输高带宽、低损耗,以及网络节点的动态编组作业和自动重连接;避障行动的实施依靠无人装备对周边环境态势的感知和自主判断,采取相应的避障算法,无人艇需要依靠自身携带的激光测距雷达感知周边水域700 m内的障碍物,采取细菌游走策略实施避障行动;无人机需要感知周边的运动点障碍,无须规避水面障碍,躲避同类无人机。
根据问题建模,可梳理无人艇作用:平均分布于巡航划定水域,感知周边态势以实现动态自主避障(500-700 m感知范围即可),能源剩余小于警戒值时自主返航补给,负责异构无人集群的通信传输中继,无人机设备起降,围捕可疑目标;无人机作用:判断周边水域巡航态势并自主起降探测,巡航路径的动态规划,能源剩余小于警戒值时自主搜寻无人艇降落补给,负责感知周边水域态势,识别并跟踪可疑目标,定位并共享可疑目标位置。据此设定异构无人集群各层级分工:在无人单元层级,从单元感知到的周边态势中判断障碍距离,组织发起动态避障行动;在无人艇集群层级,根据无人艇距离实现队形结构优化,建立由无人艇为核心的抗毁动态通信网络;在无人机集群层级,根据水域场景各位置的信息素动态调整无人机的起降时机和行进目标,协同实现对划定水域的巡航态势感知和可疑目标辨识。异构集群巡航问题描述如图3所示。
图3 异构集群巡航图示

Fig.3 Cruise of heterogeneous cluster

根据图3,无人异构单元能做出的决策可梳理为表1。水域场景中各点位置信息素浓度的计算和更新由云端根据集群探测数据汇总生成,并按照集群内各单元的实时位置按需发送,各单元无须掌握全局态势;云端与中央控制终端的区别:云端只负责汇总、生成、显示任务水域场景的全局态势,通过信息素浓度的更新间接限制各单元行动,而不直接控制各单元的行动;人与云端的关系:人通过云端掌握水域场景的全局态势,可将决策指令发送到各无人单元,控制各单元行动,云端是人的态势研判媒介,人是云端的服务对象;人的决策指令是笼统的行动目标,具体如何行动,如何拆分任务,行动后如何返航等细节由无人单元自主决策,无人单元的决策是对人的决策指令的补充和完善。
表1 无人异构单元决策项

Tab.1 Decision items of unmanned heterogeneous unit

决策主体 决策内容 决策依据
确定行进目标 周边700 m水域内的通信信息素
无人艇 实时动态避障 周边700 m水域内的障碍距离
自主返航补给 自身能源储备剩余量和补给点
无人机 判定起飞时机 周边2 km水域内的探测信息素
确定行进目标 周边3 km水域内的探测信息素
实时动态避障 周边4 km水域内的无人机距离
自主返航补给 自身能源储备剩余量和补给点
云端平台 更新语义地图 水域场景中各位置探测时刻和无人艇距离
更新场景态势 与人主观同步,动态调整显示
划定巡航范围 上级要求
标记可信目标 主观判断

2 算法设计

2.1 无人艇集群通信组网

在实现各无人艇自主动态避障的前提下,本案算法实现集群层面的队形结构控制,即在集群规模数量增减情况下,各无人艇能够自动调整队形结构,以Mesh网络通联效率最大化为目标,实现队形结构的自主优化;在队形结构优化基础上,实现无人艇速度的相对静止,达成结构稳定以及集群队形固定情况下的编组行进。集群队形结构动态优化过程可描述为:无人艇感知附近无人艇的位置,确定最近3艘无人艇的距离;根据无人艇距离与最佳通信距离的差异值计算无人艇的实时行进速度;计算无人艇下一时刻的行进目标位置;重复上述过程,即可微调每艘无人艇的相对位置,确保无人艇距离维持在最佳通信距离附近,保证组网通信的效果最大化。队形结构动态优化原理如图4所示。
图4 队形结构动态优化原理

Fig.4 Dynamic optimization principle of formation structure

算法的总体设计思想:将系统的直接决策权力下放到无人艇单体层面,通过无人艇自身的OODA循环,形成自主决策智能行为;在探测环节,由无人艇实时感知周边水域场景态势,获取距离自身最近的3艘无人艇的实时位置,计算无人艇间距和方向;在认知环节,计算下一时刻的最优通信位置;在决策环节,判定无人艇当前所处位置在队形结构中是否符合通信距离最优原则,如不符合则输出最优通信位置;在行动环节,在向目标行进过程中,调用动态避障算法,修正无人艇的游走轨迹,确保行动可行性;重复上述过程,即可微调集群内各无人艇的实时位置,达成队形结构的通信距离最优化配置。队形结构动态优化算法的核心是赋予无人艇自主探测、认知、决策和行动的能力,减少与指挥者的通信数据量,通过无人艇的OODA循环自主构建动态的队形结构,并能应对水域场景中各类障碍物的阻隔和集群规模数的动态增减,是一种自适应的动态优化算法模型。队形结构优化算法流程图如图5所示。
图5 队形结构优化算法流程图

Fig.5 Flow chart of formation structure optimization algorithm

队形结构优化算法中,核心模块为计算实时行进速度模块和计算最优通信位置模块。计算实时行进速度模块的作用是根据无人艇在队形结构中的相对位置,更新无人艇的实时行进速度,确保无人艇在队形结构中越接近最优通信位置,艇速越小,直至趋近于0,达成队形结构的收敛和稳定。行进速度模块计算过程:判断周边最近无人艇与当前无人艇的距离设为d1,周边次近无人艇与当前无人艇的距离设为d2,周边第三近无人艇与当前无人艇的距离设为d3,最佳通信距离设为dt,无人艇最大行驶速度为vmax,则无人艇当前的实时速度v计算公式为
v= v m a x ,   ( d 1 < 0.9 d t o r d 1 > 1.1 d t ) v m a x · | d 1 - d t | d t , [ 0.9 d t d 1 1.1 d t   a n d ( d 2 < 0.9 d t   o r d 2 > 1.1 d t ) ] v m a x · | d 1 - d t | d t · | d 2 - d t | d t , [ 0.9 d t d 1 , d 2 1.1 d t   a n d ( d 3 < 0.9 d t   o r d 3 > 1.1 d t ) ] v m a x · | d 1 - d t | d t · | d 2 - d t | d t · | d 3 - d t | d t ,   ( 0.9 d t d 1 , d 2 , d 3 1.1 d t )
计算最优通信位置模块的作用是根据无人艇在队形结构中的相对位置,计算出下一时刻的最优通信位置,确保无人艇到达该位置即可达成队形结构的相对优化。通信位置模块计算过程:设周边最近、次近和第三近的无人艇位置分别为(x1,y1)、(x2,y2)、(x3,y3),当前无人艇位置为(x,y),最近无人艇与当前无人艇之间的方向α1计算公式为
α1=arctan x - x 1 y - y 1× 180 π
根据方向α1计算出最近无人艇沿α1方向延伸最优通信距离d1的位置,设为(x'1,y'1),计算公式为:
x'1=x1+sin α 1 · π 180·dt
y'1=y1+cos α 1 · π 180·dt
计算延伸位置与当前无人艇的延伸距离d'1:
d'1= ( x - x '   1 ) 2 + ( y - y '   1 ) 2
同理可计算出次近无人艇的延伸距离d'2,第三近无人艇的延伸距离d'3;从中选取延伸距离最大值,其对应的延伸位置即为无人艇的最优通信位置。

2.2 无人机集群自主探测

借鉴启发式搜索策略和蒙特卡罗树随机,通过卷积和池化操作获取无人装备当前的态势矩阵,利用算法存储态势矩阵对应的量子云,而后代入信息率浓度,计算一段时间后无人集群获取的信息素总量,通过蒙特卡罗树搜索的反馈公式更新量子云中各位置的反馈评分,优化后续“态势-量子云-目标”的选择概率,进而通过对量子云的动态调整实现集群在单位时间内采集信息素总量的最大化。集群巡航算法基于分布控制架构,将无人艇游走分为两个子任务:一是由中央控制单元决定各无人艇的游走目标;二是由各艇根据当前水域场景自行决定障碍规避路线和游走路线(细菌的避障旋转策略)。考虑到自进化算法的可比较性,设计两种游走目标的生成算法:一是基于随机方式在全局定位游走目标;二是基于自进化方式在无人艇附近的九宫格范围定位游走目标。基于上述设计,巡航算法可区分为目标随机生成的自主巡航算法和目标自进化的自主巡航算法,算法流程图如图6所示。
图6 集群自主探测算法流程图

Fig.6 Flow chart of cluster autonomous detection algorithm

如不使用目标自进化选取模块,上述算法模型也能够实现无人艇集群对任何场景限定复杂障碍的自主巡航,但巡航效果并非最优化,即只能达到可执行,并未达到最优化的算法目标。本文的智能算法集中在目标生成模块,使用目标自进化算法替代原有的目标随机生成算法,实现目标选择随着集群巡航经验积累的自我改进过程。
目标自进化算法的实现流程:
步骤1)遍历各无人艇,若无人艇当前位置与目标位置距离>100 m或者目标位置信息素浓度>0.5,则转入步骤2;否则重复步骤1;
步骤2)更新智能体经验库。也就是抗体数据库的更新操作,在判断无人艇向目标行驶的任务结束时,更新步骤包括:
子步骤2-1,判断无人艇携带的智能体态势矩阵编码。如编码为空,则判定无人艇未携带智能体,目标为全局随机选择,无须更新智能体经验库,转入步骤3;否则转入子步骤2-2;
子步骤2-2,计算当前时刻下生成目标位置时的九宫格信息素总变化量。根据无人艇携带智能体的计算目标时的位置信息、计算目标时的九宫格信息素总量、计算目标的时刻(s),结合当前时刻,代入九宫格信息素总量计算模块,计算出当前的信息素总量。设九宫格内的方格坐标为纵坐标i,横坐标j;作用时刻为t时,水域内某点距离信息素扩散位置(无人艇的游走实时位置)的距离为lij,信息素扩散时刻为t0(某无人艇产生该信息素的时刻),扩散系数为μ;则根据菲克浓度方程第二扩散定律,九宫格内某点位置在t时刻的信息素浓度p计算公式为
pij(t)=max 1 5 + t - t 0 - μ · l i j 2 · ( t - t 0 ) , 0
设九宫格的区域范围为θ,则t时刻某点位置采集到的九宫格信息素总量Pt的计算公式为
Pt= i θ j θ pij(t)
式中,若区域属性为障碍,则pij=0;设智能体的当前目标计算时刻为t,目标重新计算的时刻为t',则信息素总变化量ΔPt'计算公式为
ΔPt'=Pt'-Pt
子步骤2—3,插入或删除智能体。借鉴K近邻算法中按区域位置更新个体的思想,以ΔPt'作为待插入智能体的反馈评分,将智能体集合按照态势矩阵编码区分为128个种群,在每个种群内根据智能体携带的目标位置增量信息,计算待插入智能体与种群内现存智能体之间的距离;若距离>阈值(1 km)则判断当前区域还未搜索,直接插入智能体;否则计算阈值范围内的所有智能体的反馈评分,取最低评分智能体与待插入智能体比较,保留相对高分的智能体。
步骤3)随机生成子代智能体。
步骤4)变异生成子代智能体。
步骤5)生成目标位置。根据输出的子代智能体中的位置增量信息和无人艇当前位置,计算出下一刻需到达的目标位置;将目标位置代入无人艇接续完成巡航任务;
步骤6)重复步骤1—5,直至无人艇转入其他任务。

2.3 行进目标自进化

基于前述的“量子云”不确定概率结构,以无人装备当前所处位置作为输入变量,以下一阶段应到达的目标位置作为输出变量,构建“态势矩阵-目标位置”的概率模型,描述在当前态势条件下无人装备下一刻所有可能出现的位置概率;而后通过反馈结果更新量子云概率模型,留存模型并迁移到未来或同类异构集群协同巡航任务中使用,达到巡航经验的自我积累。
从异构集群的巡航角度分析,每个无人装备当前所处的区域态势会随着周边无人装备的游走和自身位置的改变而发生动态变化,这种变化既被周边因素干扰,也随着时间而自我改变,构成以时间为标度的态势变化树,每一时刻自身或周边无人装备的目标选择,都会影响后续的态势变化,进而影响每个时间段内的集群采集总信息量。如果把时间作为层级,每个装备的目标选择作为树叶,异构集群在固定时间段的巡航就会转化为一颗金字塔型的选择树结构,无人装备的每次选择都会影响最终的反馈评分。蒙特卡罗树搜索是算法工程师通过信息论和实践经验总结出的决策优选算法,在每次选择中记录选择的目标,获得反馈评分后更新每个选择节点的评分和选中次数,而后调用信息论中的概率转换公式更新节点的选中概率,则反复迭代后,低采集信息量的选择就会因反馈评分较低而获得低选中概率。逐步优化各个态势的量子云概率;目标自进化算法流程如图7所示。
图7 目标自进化算法流程图

Fig.7 Flow chart of target self-evolution algorithm

其中,随机生成子代智能体的算法流程,包含如下步骤:
步骤1)生成待选目标集合。以无人艇当前位置的九宫格区域为目标选取范围,代入待选目标采集模块,生成待选目标集合;
步骤2)判断若待选目标数为0,则直接转入目标随机生成模块;否则转入步骤3;
步骤3)计算基因编码信息。以待选目标数为基础,生成随机整数记为基因编码,对应为待选目标集合中的目标序号;采集待选目标序号对应的目标直角坐标、差值无人艇的当前坐标,生成智能体的目标位置增量信息;
步骤4)计算反馈评分因变量信息。采集当前时刻作为智能体的计算目标时刻;同步存储计算目标时的位置信息、计算目标时的九宫格信息素总量;
步骤5)补充其他编码信息。采集当前位置对应的九宫格态势矩阵编码作为智能体的态势编码;代数、反馈评分信息清零;输出随机智能体。
子代智能体变异,包含如下步骤:
步骤1)判断随机子代智能体与同种群(相同态势编码)其他智能体的位置增量距离;若所有距离均>阈值(1 km),则判定无须生成子代智能体,直接退出并输出随机子代智能体作为目标选取依据;否则转入步骤2;
步骤2)选择父代智能体。以同种群智能体中的反馈评分高低作为概率分布,随机选取父代智能体;按照高反馈评分的智能体被选中的概率更高的原则,确定父代智能体的序号;
步骤3)变异父代产生相似子代智能体。以父代智能体增量位置半径1 km内探索符合待选目标规定的待选目标集合;随机生成基因编码对应待选目标集合中的目标序号;通过差值获取相似子代智能体的目标位置增量信息;
步骤4)判断:若父代智能体在当前位置的待选目标集合数为0,则直接转入目标随机生成模块;否则删除随机生成的子代智能体,输出父代生成的相似子代智能体。

3 实验分析

从演化角度分析,本文算法的结果并不唯一,因为每次各无人装备的选择均基于概率,选择结果会影响集群中其他无人装备的后续选择,所以各态势的量子云概率处于动态调整和适应中,经过一段时间的集群自组织,量子云概率模型的总体调整幅度会逐步收敛,并在全局展现出异构无人集群的秩序化。实验中的坐标系说明:标记的待作业区域面积为纵向15 km×横向60 km,使用方格组网,单格边长为200 m,以网格中心点作为行进目标位置判断,属性包含“水域”和“障碍”;坐标系采用北东坐标系,以直角坐标存储水域内各无人装备的实时位置,参考基准点设为左上角顶点。

3.1 无人艇集群通信组网实验

设置每隔600 s投放1艘无人艇,观察并统计集群的队形结构动态变化,分别记录各无人艇周边最近3艘艇的平均间距,以及无人艇的实时速度,统计结果如图8所示。
图8 简单场景中的距离和速度

Fig.8 Distance and speed in simple scene

通过实验数据统计可知,由11艘无人艇组成的队形结构中,7艘、8艘、9艘、10艘、11艘集群分别实现了稳定的队形结构,稳态时间段集中在1 790 s—2 310 s、3 740 s—4 080 s、5 310 s—5 400s;稳态阶段中,各艇的实时速度趋近于0,在空间中形成稳定的形态,在不稳定阶段中,各无人艇艇速达到最大速度,通过将新无人艇插入原有队形结构中,逐步达成稳定状态;从结构优化时间分析,艇数越多,则重建稳态的时间长度越短,队形结构也越稳定。复杂场景中的距离和速度统计如图9所示。
图9 复杂场景中的距离和速度

Fig.9 Distance and speed in complex scene

通过实验数据统计可知,复杂场景中因为障碍物存在,导致集群结构收敛时间明显延长,稳态时段分别为420 s—600 s、6200 s—6 480 s;虽然收敛时间延长,但只要集群规模不变,则结构一定会逐步趋于稳定,也就是最优化的通信组网结构。通过实验分析发现,集群在初始状态微小改变的情况下,会导致后续稳定结构差异明显,即很小的初始变量设置差异,甚至是无差异状态,集群在结构优化过程中收敛生成的最优结构也存在差别。分别对12艘无人艇集群的队形结构进行优化,4次的最优结构如图10所示。
图10 12艘无人艇集群最优结构

Fig.10 Optimal structure of 12 USVs

通过对各种最优结构的分析可知,对于相同的参数设置,在程序执行过程中,由于无人艇互相之间极小的影响,放大到长时间尺度中会产生颠覆性的影响,进而产生完全不同的队形结构;12艘无人艇集群组成的队形结构按照网络连接,产生的队形为以三角形为特征的复杂多边形结构,这种结构在最优通信距离±10%的范围内组成稳定状态,结构保持了稳定的关联性;如对结构中某几个节点进行删减操作,并不会对任意两节点间的通信产生破坏,网络会通过其他链路将信息转发,共同组成高带宽的通信网络。

3.2 无人机集群自主探测实验

首先可通过目标随机生成和自进化生成两种算法模式,比较集群巡航的自进化优势,图11为两种算法应用到10艇自巡航任务中的实时覆盖率统计结果。
图11 10艇巡航任务中随机和自进化算法对比

Fig.11 Comparison of random and self-evolutionary algorithms in 10 USVs

通过实验对比可知,使用自进化算法后,目标选取策略随着集群游走的时间累加和态势矩阵积累,采集到的经验逐步使自进化算法的实时覆盖率显著高于随机算法;覆盖率在1 257 s稳定变化后,随机算法的平均实时覆盖率为52.36%,而自进化算法的平均实时覆盖率为58.54%,证明了自进化策略的有效性。但上述方法只能证明算法的有效性,为了验证算法采集到的抗体库经验有效性,设计以70艘无人艇集群作为采集条件,通过100 000 s自进化获取抗体经验库,对照无经验自进化和引入抗体库的带经验自进化的实时覆盖率,对比结果如图12所示。
图12 70艘巡航任务中抗体经验对比

Fig.12 Comparison of antibody experience in 70 USVs

通过实验对比可知,引入抗体经验库之前,无人艇集群的实时覆盖率在90.19%至99.86%之间变化,抖动范围较大;引入抗体经验库之后,集群实时覆盖率抖动范围明显压缩,在93.69%至100%之间变化;在1 600 s稳定分布后,无人艇集群的实时覆盖率提升明显,实时覆盖率均值从96.84%提升到99.79%;实验证明了抗体经验库在同场景中的有效性。
综上所述,可归纳免疫进化算法优点:一是实现了巡航游走过程中的实时经验获取,相比于常规启发式优化算法节约了时间延迟;二是实现了巡航游走过程的自我进化和更新迭代,改进游走策略过程全自主实施,提升了集群的智能化程度;三是实现了自进化经验的输出和迁移,再次执行巡航任务时可利用之前积累的巡航经验,直接采用最优的巡航策略。

3.3 异构协同巡航实验

以无人艇搭载无人机巡航的形式,间隔固定时段(10 s)投放一艘无人机,与无人艇采取不同的速度对固定区域执行巡航任务,无人机在能源消耗剩余小于10%时返回无人艇补给,仿真效果如图13所示。
图13 异构集群协同巡航动画展示

Fig.13 Heterogeneous cluster collaborative cruise animation display

通过效果展示可知,本文算法应用于异构集群协同巡航,能够在多约束条件下满足无人艇和无人机作为协同智能体组合的生存需求,且通过巡航经验积累和量子决策优化实现巡航效率的稳步提升,巡航扩展空间逐步延伸,适合于对未知水域的异构协同巡航任务。

4 结束语

本文通过仿真实验论证队形优化模型和自主探测模型在异构集群协同巡航中的有效性;实验表明,量子决策模型相比于常规决策模型,在决策行为选择和优化中具有更大的适用性和迁移性。本文创新点:一是从复杂系统演化方向着手,分析了深度学习神经网络和人脑思维模式存在的问题;二是设计替代神经网络函数拟合的量子云概率模型;三是通过量子云和蒙特卡罗树搜索构建出量子决策树,以空间消耗换取时间缩短,实现复杂系统的无延时优化;四是实现了算法结果的可解释性和跨时空迁移应用。
[1]
宋书文. 管理心理学词典[M]. 兰州: 甘肃人民出版社, 1989.

SONG S W. Dictionary of management psychology[M]. Lanzhou: Gansu People’s Publishing House, 1989.

[2]
徐小斌, 段海滨, 曾志刚, 等. 无人机/无人艇协同控制研究进展[J]. 航空兵器, 2020, 27(6): 1-6.

XU X B, DUAN H B, ZENG Z G, et al. Progresses in UAV/USV cooperative control[J]. Aero Weaponry, 2020, 27(6): 1-6.

[3]
张卫东, 刘笑成, 韩鹏. 水上无人系统研究进展及其面临的挑战[J]. 自动化学报, 2020, 46(5): 847-857.

ZHANG W D, LIU X C, HAN P. Progress and challenges of overwater unmanned systems[J]. Acta Automatica Sinica, 2020, 46(5): 847-857.

[4]
李凌昊, 张晓晨, 王浩, 等. 海上异构无人装备一体化协同作战架构[J]. 舰船科学技术, 2019, 41(23): 50-53.

LI L H, ZHANG X C, WANG H, et al. Research on cooperative operational architecture of integrated heterogeneous unmanned marine equipment[J]. Ship Science and Technology, 2019, 41(23): 50-53.

[5]
侯岳奇, 陶浩, 龚俊斌, 等. 多约束条件下无人艇和无人机集群协同航迹规划[J]. 中国舰船研究, 2021, 16(1): 74-82.

HOU Y Q, TAO H, GONG J B, et al. Cooperative path planning of USV and UAV swarms under multiple constraints[J]. Chinese Journal of Ship Research, 2021, 16(1): 74-82.

[6]
姚鹏, 綦声波, 黎明. 基于无人机/无人艇的最优动态覆盖观测技术[J]. 海洋科学, 2018, 42(1): 106-111.

YAO P, QI S B, LI M. Optimal dynamic coverage for UAV/USV surveillance[J]. Marine Sciences, 2018, 42(1): 106-111.

[7]
曾宏, 张云飞, 赵继成, 等. 无人机、无人艇及无人潜器的运动规划方法和存储介质: CN114326798A[P]. 2022-04-12.

ZENG H, ZHANG Y, ZHAO J, et al. Motion planning method of unmanned aerial vehicle, unmanned ship and unmanned submersible vehicle and storage medium: CN114326798A[P]. 2022-04-12.

[8]
CHEN Y, REN S W, CHEN Z H, et al. Path planning for vehicle-borne system consisting of multi air-ground robots[J]. Robotica, 2020, 38(3): 493-511.

[9]
WU Y Z, DING Y H, DING S S, et al. Autonomous last-mile delivery based on the cooperation of multiple heterogeneous unmanned ground vehicles[J]. Mathematical Problems in Engineering, 2021: 1-15.

[10]
MARTIN J G, FREJO J R D, GARCÍA R A, et al. Multi-robot task allocation problem with multiple nonlinear criteria using branch and bound and genetic algorithms[J]. Intelligent Service Robotics, 2021, 14(5): 707-727.

[11]
DENG Q B, YU J Q, WANG N F. Cooperative task assignment of multiple heterogeneous unmanned aerial vehicles using a modified genetic algorithm with multi-type genes[J]. Chinese Journal of Aeronautics, 2013, 26(5): 1 238-1 250.

[12]
ZHENG Z, LIU Y, ZHANG X Y. The more obstacle information sharing, the more effective real-time path planning?[J]. Knowledge-Based Systems, 2016, 114: 36-46.

[13]
CHEN J E, XIAO K, YOU K, et al. Hierarchical task assignment strategy for heterogeneous multi-UAV system in large-scale search and rescue scenarios[J]. International Journal of Aerospace Engineering, 2021: 1-19.

[14]
GAO S, WU J Z, AI J L. Multi-UAV reconnaissance task allocation for heterogeneous targets using grouping ant colony optimization algorithm[J]. Soft Computing, 2021, 25(10): 7 155-7 167.

[15]
ZHANG Y Z, FENG W C, SHI G Q, et al. UAV swarm mission planning in dynamic environment using consensus-based bundle algorithm[J]. Sensors, 2020, 20(8): 2 307.

[16]
CHEN Y, CHEN M Q, CHEN Z H, et al. Delivery path planning of heterogeneous robot system under road network constraints[J]. Computers & Electrical Engineering, 2021(92): 107 197.

[17]
CHEN J C, DU C L, ZHANG Y, et al. A clustering-based coverage path planning method for autonomous heterogeneous UAVs[J]. IEEE Transactions on Intelligent Transportation Systems, 2022, 23(12): 25 546-25 556.

Outlines

/