中国科技核心期刊      中国指挥与控制学会会刊     军事装备类重点期刊
无人作战

通信带宽有限条件下无人机集群自主行为决策研究*

  • 金俊宇 ,
  • 张婷婷
展开
  • 陆军工程大学指挥控制工程学院, 江苏 南京 210007

金俊宇(1996—),男,硕士研究生,研究方向为军事需求工程。

张婷婷(1977—),女,博士,副教授。

Copy editor: 胡前进

收稿日期: 2022-03-29

  修回日期: 2022-06-06

  网络出版日期: 2022-12-12

基金资助

中国博士后基金(2019M651991)

国家自然科学基金(61802428)

Research on Autonomous Behavior Decision of UAV Cluster with Limited Communication Bandwidth

  • JIN Jun-yu ,
  • ZHANG Ting-ting
Expand
  • School of Command and Control Engineering, Army Engineering University, Nanjing 210007, China

Received date: 2022-03-29

  Revised date: 2022-06-06

  Online published: 2022-12-12

摘要

通信是无人机集群协同决策控制的基础。在通信资源稀缺的战场环境下实现无人机集群的高效通信具有重要意义。目前,多智能体强化学习方法在无人机集群自主协同策略研究中应用广泛,但多数方法未考虑有限通信资源带来的影响。首先,研究了部分可观测条件下的无人机集群通信问题并给出决策模型;其次,基于研究假设和信息论,设计一种基于带宽利用率的奖励策略,该策略下的奖励值随带宽资源的利用率变化而调整,能实时指导无人机的通信行为;再次,在模型训练-执行过程中,利用长短期记忆模型作为记忆单元,保证无人机协同决策的有效性;最后,通过空中对抗仿真实验验证了所提方法的有效性,为带宽受限作战场景下的无人机集群自主协同决策提供方法借鉴。

本文引用格式

金俊宇 , 张婷婷 . 通信带宽有限条件下无人机集群自主行为决策研究*[J]. 指挥控制与仿真, 2022 , 44(6) : 7 -15 . DOI: 10.3969/j.issn.1673-3819.2022.06.002

Abstract

Communication is the basis of UAV cluster cooperative decision control. In the battlefield environment with scarce communication resources, it is of great significance to realize the efficient communication of UAV cluster. At present, Multi-Agent Reinforcement learning method is widely used in the research of Autonomous Cooperation Strategy of UAV cluster, but most methods do not consider the impact of limited communication resources. Based on the partial observable Markov decision process, a communication based autonomous behavior decision model of UAV cluster is proposed; Based on the research hypothesis and information theory, a reward strategy based on bandwidth utilization is designed. The reward value under this strategy is adjusted with the change of available bandwidth, which can guide the UAV whether to send messages at each step in real time; In the process of model training and execution, the long-term and short-term memory network is used as the memory unit to ensure the effectiveness of UAV cooperative decision-making. The effectiveness of the proposed method is verified by air confrontation simulation experiment, which provides a method reference for autonomous cooperative decision-making of UAV cluster in bandwidth limited combat scenario.

在日益复杂的作战环境和作战任务下,传统无人系统的人机交互技术无法支持操作/指挥人员对集群进行实时决策与控制,需要无人机具备自主、智能完成任务的能力,并展开协同来应对战场的复杂性和动态性[1]。如何实现在不确定作战环境下对战场态势变化的自主响应将是无人机集群完成复杂任务的关键。同时,类比指挥员或驾驶员的决策过程来研究无人机的自主性行为和决策机制,对理解、设计和实现无人机自主系统具有重要意义。
作为无人机自主系统最重要的功能,行为决策指综合感知信息使无人机产生有利于当前态势的行为,进一步指导运动控制系统对无人机进行控制[2]。目前,无人机的任务主要依靠预先规划,决策模型按照“感知—建模—规划—动作”的慎思结构进行设计,缺点是自主行为都必须经过上述各模块且缺一不可,针对任务环境的建模需要依赖大量知识,现有方法很难给出一个涵盖所有环境状态的模型[3]。同时,战场环境的非结构化、动态变化以及无法预测的特点,使得难以对任务环境进行有效建模,做出规划并产生合理动作,且即便能对环境建模,因计算能力的限制,无法满足决策对实时性的要求[4]
多智能体深度强化学习(Multi-agent Deep Reinforcement Learning,MDRL)针对无模型或者建模复杂的协同决策系统,采用“感知—动作”的反应式结构实现多个Agent的协同决策控制,其核心思想是将目标任务分解为Agent的多个基础行为,当传感器感知的数据发生变化时,个体依靠策略直接做出反应并从上述行为空间集中选择动作,具有较强的应变能力;训练时,将任务间接表示为奖励(目标)函数,以优化的方式模拟多个智能体与环境的相互作用,期望找到一个最大化累计奖励的策略,为实时协同决策提供了可行的方法[5]
集群的状态感知和信息共享作为无人机集群协同决策控制的基础[6],要求无人机通过机间通信链路实现通信,但战场上以带宽为代表的通信资源尤为短缺[7]。为解决多智能体训练环境的非平稳性和部分可观察性,目前多数MDRL方法将Agent之间的通信理想化,假设Agent在每个决策控制周期中都不断地通过 信息交互来获取全局感知,用作策略网络的输入[8]。这种低效的通信方式并不适用于通信资源短缺的战场环境,部分无人机频繁占用带宽进行通信,将导致其他无人机无法及时发送消息,进而影响集群有效协同。

1 问题定义与描述

1.1 基于通信的无人机自主行为决策模型

本文所研究的无人机集群系统中,每架无人机的机载传感器感知范围有限,仅能准确感知自身位置状态,且无人机的动作-状态转移具有马尔可夫性,因此可以用分布式部分可观测马尔可夫决策过程(Decentralized Partially Observable Markov Decision Processes,Dec-POMDPs)[9]来描述无人机集群的行为决策过程。在Dec-POMDPs框架中,每架无人机作为智能体,根据自身获得的局部感知信息独立地做出决策,全局奖励与所有无人机的联合行为有关[10],其求解过程可以看成是联合策略空间中的最优规划的问题。基于Dec-MOMDPs的无人机集群行为决策问题可以用多元组<I,S,A,T,Z,O,R,γ>描述,其中各要素分别表示:
1)作战编组。I={1,…,n}是执行任务的无人机集合,n是无人机的数量。
2)位置状态。S= × i = 1 n Si是集群位置状态集合。某一时刻的集群位置状态s包括每个无人机的自身位置信息<s1,…,sn>,siSi
3)行为。A= × i = 1 n Ai是集群行为集合。某一时刻的集群行为由编组内所有无人机的行为组成,集群行为a=<a1,…,an>∈A,aiAi,Ai是无人机i的行为集合。具体而言,无人机i在某一时刻的行为ai包括运动行为和通信行为。
4)状态转移函数。T描述系统的状态转移,由每个无人机的状态转移组成。已知无人机i的运动模型,其自身状态完全可知,则无人机i的状态转移函数即为其运动学方程。
5)机载传感器的感知模型。Z(s,i):SOi描述了无人机i通过传感器感知自身位置状态si获得信息oi的过程,其中oiOi,无人机i的感知信息oi即位置状态si
6)奖励函数。R= i = 1 nRi:S×AR描述了无人机集群在系统状态s采取行为a获得奖励的过程。
7)折扣因子。γ∈[01]用于计算累计奖励。在Dec-MOMDPs模型下,每个无人机都是通过训练来学习行为策略μi(ai|oi):OiAi,最大化累计奖励的期望值J(μi)=E t = 0 γ t R i,Ri是当前时刻无人机i获得的奖励。
无人机i通过感知信息交互可以突破感知能力的限制,获得整个集群的位置状态信息[oi,m-i],为自身决策提供有力支持,其中,m-i表示无人机i从集群内其他无人机接收到的感知信息。在此基础上,无人机i基于通信的自主行为决策模型可以表示为μi(ai|oi,m-i):Oi×M-iAi,其中,ai包括运动行为和通信行为,m-i=<m1,…,mi-1,mi+1,…,mn>∈M-i,如图1所示。
图1 基于通信的无人机自主行为决策模型

1.2 无人机行为空间

无人机行为包括运动行为和通信行为。运动行为用于实现无人机在空间的位移,由无人机的运动方程描述。假设所有无人机的飞行高度恒定,无人机i的位置状态用si=[xi,yi]描述,表示其在二维惯性坐标系中的坐标。无人机i从当前时刻到下一时刻的运动模型如下
x '   i = x i + v i c o s   φ i y '   i = y i + v i s i n   φ i
其中,viφi分别是无人机i在某个时刻的速度和航向角,二者组成无人机的运动行为,如图2所示,其中ij用于标识对抗双方的无人机。
图2 无人机的运动模型
通信行为用于实现机间信息交互,即感知信息的发送,用布尔值表示,1表示发送信息,0表示静默。
无人机之间的通信需要经过编码、传输、解码。信源编码的过程是从信息源的符号(序列)到码符号集(比特流)的映射,编码后的信息以比特为单位通过信道进行传输。本文按照香农的信源编码定理[11],假设每个无人机的观测信息需要L个符号来传输,每个符号至少需要Nb个比特进行编码,否则信息将丢失。某一时刻有nm个无人机选择发送感知信息时,需要传输的符号数量为nm(n-1)L,信息量nm(n-1)LNb

1.3 无人机集群通信方式

如前文所述,本文旨在研究带宽受限作战场景下的无人机集群协同决策问题。因此,需要对该问题中无人机集群的通信方式做以下假设:
1)通信方式。采用Ad hoc网络实现信息交互,如表1所示。
表1 Ad hoc网络中的主要路由协议
类型 延时 协议 连通性要求
先验式路
由协议
每个节点都进行周期性的路由分组广播,通过交换路由信息,维护一张到其他节点的路由信息表,网络延时相对较小 优化链路状态协议
(OLSR)
目的节点序列距离矢量协议
(DSDV)
双向链路

单向链路/
双向链路
反应式路
由协议
无须定期的路由分组广播,有通信业务时才查找路由,节省一定的通信开销的同时,机间通信延时较大 基于动态源路由协议
(DSR)
按需距离矢量路由协议
(AODV)
双向链路


单向链路/
双向链路
2)链路连通性。机间链路都为单向链路。在移动自组网环境中,因隐藏终端问题(Hidden Terminal Problem)和无人机之间设备能量(如电池能量)差异导致单向链路普遍存在[12]
3)通信频率。每个时刻,无人机最多发送一次感知信息,如图3所示。
图3 无人机在每个时刻只发送一次感知信息
4)传输与转发时延。无人机i的感知信息经封装后发送给无人机j,无论经过多少次转发,总时延不超过一个时刻间隙。
5)MAC协议。采用频分多址接入协议(Frequency Division Multiple Access,FDMA),将无线信道资源按照当前时刻所需的链路数量平均分成若干个子信道,每条物理链路分得一个子信道。
6)路由协议。考虑决策的实时性和链路的连通性,本文研究的无人机集群采用DSDV协议作为自组网路由协议。每个无人机作为路由节点维护到其他节点的路由表,信息根据经过的链路数(跳数)来选路。同时,DSDV协议通过给每个路由设定序列号避免了路由环路的产生[13]。如图4所示,无人机1作为信源给组网内其他无人机发送自己的感知信息,信息传输的路径是一个无交叉的有向树。每条分配信道的物理链路只经过一次消息。
图4 组网内信息传输路径
基于上述假设,本文研究的无人机集群内部通信过程可以描述如下:在某个时刻,若干个无人机通过Ad hoc网络选择发送局部感知信息,所有友机都能及时接收信息并用于下个时刻的行为决策。当有nm个无人机发送自身感知信息时,有且只有nm(n-1)条链路需要信道资源。根据MAC协议,除去用于路由广播的信道带宽,剩余带宽大小为B的信道用于传输信息,在不考虑划分隔离带的情况下,每条链路分得均等大小的带宽用于传输编码后的信息。

2 无人机策略模型训练方法

无人机在每个时刻根据当前态势做出关于运动行为的决策,以保证有利态势,同时通过监听信道做出关于通信行为的决策,实现态势共享。行为的优劣取决于策略模型。在策略模型μi(ai|oi,m-i)已知的情况下,可以估计出策略带来的累计奖励,值越大,说明模型越好。因此,需要选择合适的方法来求解无人机的动作策略模型。以多智能体深度确定性策略梯度算法(Multi-agent Deep Deterministic Policy Gradient, MADDPG)为代表的MDRL方法以无监督学习方式在无人机训练过程中通过对行为试探和奖励不断反馈,形成行为策略决策知识,这种方式能够在不确性噪声和外部环境动态变化情况下得到行为最优策略解,而无须匹配系统状态与行为关系知识数据[14-15],如图5所示。
图5 基于MDRL的无人机策略训练方法

2.1 基于带宽约束的通信行为奖励机制

信息交互能克服多智能体训练环境非平稳性,使得无人机在训练过程中学习到更好的策略并在执行过程中能做出更好的决策。传统的MDRL方法中,Agent在每个决策控制周期中模拟信息交互来获取全局感知用于决策。为了改进这种低效的通信方式,适用于带宽有限的战场环境,需要设计一个合适的奖励机制来减少无人机的通信次数,降低信道带宽需求的同时,保证带宽资源利用率的最大化。
本文在理想的无噪声信道中进行研究,根据奈奎斯特定理,计算信道带宽为B的信道容量[16],即理想低通信道下的一个时刻间隙最多可以传输的信息量为
Rmax=2Blog2K
其中,K表示每个码元离散电平的数目。
在相邻时刻间隙内,机间通信的信息量大于信道容量时,传输的信息会发生差错或失真。因此,当nm个无人机选择发送感知信息时,相邻时刻间隙内传输的信息量应满足每条物理链路传输的信息量不超过该链路分得带宽的信道容量,即LNb≤2Blog2K/nm(n-1)。在信道带宽B、集群编组数量n和无人机感知信息编码方式LNb确定时,可知一个时刻最多允许2Blog2K/(n-1)LNb个无人机发送感知信息。
根据上述约束条件,关于无人机通信动作的奖励值计算如下:
Rcomm,i=kcomm[nm-2Blog2K/(n-1)LNb]2
其中,kcomm<0,在上述奖励机制下,无人机i在每个时刻通过对信道监听,判断当前占用带宽的无人机个数nm。当nm<2Blog2K/(n-1)LNb,带宽资源充足时,鼓励无人机i发送信息来获得更大的奖励值;相反,带宽资源不足时,nm>2Blog2K/(n-1)LNb,无人机i发送消息会减小奖励值Rcomm,i。只有通信无人机的数量nm接近2Blog2K/(n-1)LNb时,整个集群内部信息交互获得的奖励值最大。

2.2 基于带宽约束和历史信息的模型训练方法

受带宽资源限制,无人机无法时刻保持通信。如果没有接收到友机的感知信息,无人机需要使用历史信息作为当前决策模型的输入信息来保证一定的有效协同。Wang等人针对多智能体部分可观测环境提出Recurrent MADDPG(R-MADDPG),使用长短期记忆模型(Long-short Term Memory,LSTM)来记忆之前时刻接收到的信息作为历史信息,用于非连续通信场景下的多智能体协同决策问题[17]
图6所示,无人机的策略模型采用Recurrent Actor-Critic网络进行训练。R-Actor网络是递归神经网络对行为策略函数μ的模拟,参数为θμ。R-Critic网络是递归神经网络对状态评价函数Q(s,a)的模拟,参数为θQ。R-Actor网络和R-Critic网络分别用hμhQ存储各自网络隐藏层的上一时刻历史状态信息。
图6 基于LSTM的策略训练-执行模型
1)在模拟战场环境中训练过程。
在某一时刻,无人机i的R-Actor网络以自己的感知信息oi和接收到其他无人机的感知信息m-i为输入。受带宽限制可能无法接收到部分无人机的感知信息,利用存储的隐藏层历史状态hp来代替缺失的感知信息。R-Actor网络将无人机i的通信行为和运动行为输出到训练环境中,得到反馈奖励Ri。上述过程作为无人机i的状态转移数据<oi,m-i,ai,o'i,Ri>存入经验池D中,用于R-Critic网络训练。
Ri=Rcomm,i+Rtask,i
其中,Rcomm,i是环境对无人机通信行为的奖励, Rtask,i是环境根据作战任务对无人机i运动行为的奖励。
无人机i的R-Critic网络随机从经验池中抽取一批无人机在同一时刻的状态转移数据,组成集群的状态转移数据<s,a,s',R>作为学习样本,其中,s=<o1,…,on>,a=<a1,…,an>。通过贝尔曼方程计算当前行为带来的累计奖励,然后与R-Critic网络输出Q(s,a)的值进行比较,利用上述偏差L(θQ)使用梯度下降的方法更新θQ,基于累计奖励期望值函数J(μi)的策略梯度更新θμ。行为策略模型训练流程如表2所示。
表2 无人机行为策略模型训练流程
基于带宽约束和历史信息的模型训练算法
1 For episode =1 to MaxEpisode do
2 随机初始化无人机起始状态s=<s1,…,sn>
3 隐藏层历史状态hμhQ初始化
4 For t=1 to MaxStep do
5 对于每个无人机i选择动作ai=μi(oi,m-i)
6 无人机集群执行联合动作a=<a1,…,an>
7 根据占用带宽的无人机数量计算Rcomm,i
8 计算关于作战任务的奖励函数Rtask,i
9 R= i = 1 nRi= i = 1 n(Rcomm,i+Rtask,i)
10 得到奖励R和新的s'h'μh'Q
11 ss'hμh'μhQh'Q
12 将状态转移数据<s,a,s',R,h'μ,h'Q>存入经验池D
13 For无人机i=1 to n do
14 从经验池随机抽取T个样本<sj,aj,sj',Rj>
15 yi= R i j+γ Q i μ i(sj',a1,…,an) | a i = μ i ( o i , m - i )
16 计算损失函数
17 L( θ Q i)= 1 T [ j y j - Q i μ i ( s j , a j , h '   μ , h '   Q ) ] 2
18 基于损失函数L( θ Q i)梯度下降更新 θ Q i
19 基于策略梯度∇J(μi)更新 θ μ i
20 End For
21 更新Target网络参数
22 End For
23 End For
2)在真实战场环境中执行过程。
无人机i的行为策略模型μi训练完成后,根据自身感知信息oi和从其他无人机接收到的感知信息m-i做出行为决策,由R-Actor网络输出当前有利于态势的行为,指导无人机运动控制和信息发送。

3 仿真实验

为了验证所提方法的有效性,本文在课题组自建的无人作战Swarmflow仿真平台中模拟了带宽受限作战场景下的无人机空中对抗,在OpenAI开源的多智能体训练环境中完成Agent的策略训练[18]

3.1 实验案例

图7所示,该仿真环境基于大洞山卫星地图模拟了真实的空域作战环境,选取2 000×2 000的空域作为交战区域。在该空域内,敌我双方的无人机群以2∶4兵力态势进行对抗,无人机以离散的时间步长同时进行决策并采取行动。
图7 Swarmflow仿真平台下的训练环境
1)状态空间。分为局部空间信息和全局空间信息。局部空间信息指由机载传感器感知范围内的局部信息,这里设定无人机只能感知自身所在空域的坐标;全局空间信息由每个无人机所感知的坐标组成。
2)行为空间。每架无人机的行为分为运动、通信两种,其中,运动行为包含前向速度和航向角;通信行为包含发送信息和静默。
3)奖励函数。奖励函数设计的目标是让无人机学会有效完成作战任务和高效利用带宽资源。
将空中对抗任务简化为对抗性质的协同攻击,双方的作战目标是尽可能通过协同来攻击对方获得奖励,假设无人机i可以目测敌机与自己的方位角εj。任务得分规则参照文献[19]的对抗实验。如果一方有两架以上的无人机和敌方一架无人机相遇,参与攻击的无人机将获得奖励,被围攻的敌机将得到负奖励,反之亦然。同时,无人机i的航向角φi大小越接近于目标敌机j的方位角εj,得到的负奖励值越小。
由于战场上可利用的信道带宽有限,双方无人机需要采用高效的通信方式以避免频繁通信。设定战场上双方可用带宽大小为B,能支持不超过nmax=2Blog2K/(n-1)LNb个无人机发送消息。奖励计算方式设计如表3所示。
表3 无人机行为奖励计算方式
行为 目的 描述 计算方式
通信
行为
单位时间步内发送自身感知信息oi 见公式(2)
运动
行为
向攻击
目标运动
减少航向角φi与最近敌机j的方位角εj差距 kφ ( φ i - ε j ) 2,kφ<0
协同
攻击
以数量优势进行协同攻击 k t a s k - 2 k t a s k ,ktask>0

3.2 实验设置

对抗双方均采用相同的训练方法来训练各自无人机的策略模型。
1)实验硬件环境。在联想PowerEdge T630塔式服务器上进行训练,服务器配置包括:内存16 G,处理器Intel Xeon E5-2660,一块集成显卡Matrox Electronics SystemsLtd G200R2和两块GeForce RTX 2080 Ti独显。
2)实验软件环境。使用Win 10操作系统和Python3.6解释器。算法的环境依赖包括OpenAI Gym 0.10.5,tensorflow 1.8.0,numpy 1.14.5。Agent的行为策略模型(R-Actor网络)和效用评估模型(R-Critic网络)均为三层全连接神经网络,隐藏层为64个LSTM单元。
3)训练参数。训练参数设计具体如表4所示。
表4 实验相关参数设定
参数 中文名称 描述
γ 折扣因子 累计回报计算参数 0.9
ΔT 仿真时
间步长
决策周期,每个时间步所占时间 0.1
Batch-Size 批样本数 每次从经验池取出用于批学习的样本数目 64
MaxEpisode 训练回合数 训练回合数目 12 000
MaxStep 单回合最大
时间步
每回合最多仿真的时间步数 3 000 000
αμ R-Actor
网络学习率
R-Actor网络参数更新的相关参数 0.001
αQ R-Critic
网络学习率
R-Critic网络参数更新的相关参数 0.002
4)实验方法。为验证设计方法可以在带宽有限条件下保持无人机的协同能力,对训练中Agent在每个决策周期内获取其他Agent位置信息的数量进行限制,来模拟带宽受限环境,分别在不同带宽条件下(改变最多支持发送消息的无人机数量)各自重复了12 000次实验,对算法的奖励曲线和Agent的实际表现进行对比分析。

3.3 仿真结果及分析

为验证设计方法在有限带宽条件下保持多Agent任务协同能力,用单位时间(每个仿真时间步长内)可发送位置信息的无人机数量n来代表可用带宽的大小,在不同带宽大小下重复了实验。
图8描述了不同带宽条件下己方无人机平均奖励值曲线,结果表明,带宽越小,无人机策略学习的速度越慢,同时训练前期的奖励值越小。但经过一定时间的训练后,都能学习到有效的行为策略,具体表现为整个集群能获得正向奖励值,且可用带宽较小(n=2)场景下的策略收益(奖励值)与可用带宽较大(n=4)场景下的策略收益相近。
图8 不同带宽条件下己方无人机平均奖励值曲线
图9是不同带宽条件下己方无人机通信行为的奖励曲线,结果表明无人机通过训练能自主调整通信动作适应带宽条件,表现为因违反带宽约束发送消息而得到的奖励值,数值随训练而增加。
图9 不同带宽条件下无人机通信行为的奖励曲线
表5图10是在不同带宽限制条件下随机抽取20轮训练中己方无人机的任务表现,研究人员注意到,随着可用带宽的减少,无人机的任务表现(平均协同攻击次数)会下降,但仍然会学习如何实现任务目标(协同攻击)。通信资源平均利用率的计算方式如下:
η= 1 20 E p i s o d e = 1 20 s t e p = 1 M a x S e p n m ( s t e p ) M a x S t e p · n m a x
表5 己方无人机的平均协同攻击次数、平均被攻击次数和通信资源平均利用率
通信带
宽条件
平均协同
攻击次数
平均被攻
击次数
通信资源
平均利用率
n=4 65 430 18 531 98.4%
n=3 56 983 16 822 99.2%
n=2 39 216 19 352 96.3%
图10 不同带宽条件下无人机任务表现
为进一步验证方法的稳定性,对随机选取的20轮实验中己方无人机集群的任务表现进行分析。图10中黑线表示20次训练以均值为中心的置信区间,即20次实验结果的误差,在式(3)所示的通信行为奖励机制下,Agent表现出的协同攻击次数不稳定。将代表己方4架无人机的Agent在每轮实验中发送消息的总次数绘制成图11所示的散点图,来观察每个无人机的通信行为。研究发现,尽管整个多Agent系统在通信行为上基本满足带宽的限制条件(见图9),但单个Agent的通信行为表现并不可靠(存在个别无人机频繁发送信息占用信道带宽和长时间静默),无人机应该在满足带宽限制条件的基础上,尽可能地进行信息的交互来保证决策的精度。
图11 20轮训练中的无人机通信次数
对于上述问题的分析:式(3)给出了无人机i通信行为的奖励机制,一定程度上避免了频繁通信的问题。但在训练过程中,无人机策略网络更新受全局Q(s,a)指导,变量nm作为全局变量,奖励机制对整个集群每个时刻的通信行为有指导作用,对单架无人机的通信行为影响较小,每架无人机不清楚自身通信行为对全局Q(s,a)的影响,导致个别“惰性”无人机长时间保持静默,造成其他无人机因长时间缺少“惰性”无人机的位置信息而降低决策精度。

3.4 基于资源分配优化的奖励机制

战场上的带宽资源是有限的,如果组成集群的无人机在同一时刻发送自身感知信息,必然会导致信道的拥塞。为改善训练表现,本文参照Holmes-Parker等人研究的Gaussian Squeeze问题[20],将带宽资源B作为通信资源2Blog2K/(n-1)LNb,从高效的资源分配角度来设计无人机通信行为的奖励机制。无人机i的通信资源分配量表示为acomm,i∈{0,1},总的通信资源分配量为acomm= i nacomm,i=nm。该问题中无人机应相互协调,学习有效地分配系统资源,避免通信资源过度使用或使用不足,同时鼓励每个无人机主动去争取资源。关于无人机i通信动作的奖励计算方式进一步改写为
Rcomm,i=kcomm a c o m m , i e - ( a c o m m - n m a x ) 2 σ 2 - ( a c o m m - n m a x ) 2
其中,nmax表示大小为B的带宽最多支持发送消息的无人机数量,σ为系统方差。无人机i可以通过信道监听获得acomm的值。图12是改进奖励计算方式后,不同带宽条件下己方无人机通信行为的平均奖励值曲线。
图12 改进后己方无人机通信行为的平均奖励曲线
区别于式(3)的奖励计算方式,改进后的奖励机制中既包含了对整个集群通信的全局指导,又包含对每个无人机通信行为的指导。无人机i在每个时刻通过对信道监听,判断当前占用带宽的无人机个数nm。当带宽资源充足时,nm<nmax,鼓励无人机i发送信息获得更大的奖励值;相反,带宽资源不足时,nm>nmax,无人机i发送信息会得到较小的奖励值。表6图13图14是改进奖励机制后的己方无人机在训练中任务表现和通信次数,与改进前相比,无人机的通信行为表现更加稳定,伴随而来的是决策精度的提高(协同攻击次数的提升)。
表6 改进后的平均协同攻击次数、平均被攻击次数和通信资源平均利用率
通信带
宽条件
平均协同
攻击次数
平均被攻
击次数
通信资源
平均利用率
n=4 69 037 15 924 98.5%
n=3 59 192 16 837 99.1%
n=2 39 939 18 961 97.7%
图13 改进后不同带宽条件下无人机任务表现
图14 改进后不同带宽条件下无人机任务表现
在训练后期,选取任意3个时刻的战场态势进行可视化。图15截取了3个时刻的空战态势,可以看出蓝方(己方)无人机学会了围攻和支援等智能化行为,在训练收敛后的策略指导下,会主动采取合作攻击的方式,避免独自作战。
图15 空中对抗仿真结果

4 结束语

在复杂多变的战场环境下,带宽通常无法满足信息交互的需求。目前以MADDPG为代表的MDRL方法能在一定程度上实现无人机之间的自主协同决策,但其低效的信息获取方式和通信资源利用方式不利于其在战场环境下的应用。 本文在Dec-MOMDPs基础上提出基于通信的无人机自主行为决策模型。基于问题研究假设和信息论基本知识,将通信资源分配问题作为无人机通信行为决策问题的优化目标,并在R-MADDPG基础上完成训练。仿真实验结果表明,本文的方法能在一定程度上提高无人机在行为决策过程中的通信效率,较好地适应不同带宽条件下的任务场景,在带宽有限条件下,为无人机集群自主作战提供技术参考和方法借鉴。
[1]
陈宗基, 魏金钟, 王英勋, 等. 无人机自主控制等级及其系统结构研究[J]. 航空学报, 2011, 32(6):1075-1083.

[2]
张耀, 武富春, 王明, 等. 基于深度强化学习的无人战车自主行为决策[J]. 火力与指挥控制, 2021, 46(4):72-77.

[3]
蓝艇. 群体机器人的行为决策和群体智能[D]. 上海: 华东理工大学, 2009.

[4]
王泊涵, 吴婷钰, 李文浩, 等. 基于多智能体强化学习的大规模无人机集群对抗[J]. 系统仿真学报, 2021, 33(8):1739-1753.

DOI

[5]
赵林, 张宇飞, 姚明旿, 等. 无人机集群协同技术发展与展望[J]. 无线电工程, 2021, 51(8):823-828.

[6]
张婷婷, 蓝羽石, 宋爱国. 无人集群系统自主协同技术综述[J]. 指挥与控制学报, 2021, 7(2):127-136.

[7]
孙佳琛, 王金龙, 陈瑾, 等. 群体智能协同通信:愿景、模型和关键技术[J]. 中国科学:信息科学, 2020, 50(3):307-317.

[8]
Zhu Y, Zhao D, He H, et al. Event-triggered Optimal Control for Partially Unknown Constrained-input Systems via Adaptive Dynamic Programming[J]. IEEE Transactions on Industrial Electronics, 2016, 64(5): 4101-4109.

DOI

[9]
Oliehoek F A, Amato C, et al. A Concise Introduction to Decentralized POMDPs[M]. Berlin:Springer, 2016.

[10]
Amato C, Chowdhary G, Geramifard A, et al. Decentralized Control of Partially Observable Markov Decision Processes[C]. The 52nd IEEE Conference on Decision and Control, Firenze, Italy, 2013: 2398-2405.

[11]
Shannon CE. A Mathematical Theory of Communication[J]. The Bell System Technical Journal, 1948, 27(3): 379-423.

DOI

[12]
邱静怡, 许骏, 许德兴, 等. 移动自组网的单向链路优化路由算法AODVUD[J]. 小型微型计算机系统, 2010, 31(2):206-210.

[13]
He G. Destination-sequenced Distance Vector (DSDV) Protocol[J]. Networking Laboratory, Helsinki University of Technology, 2002(135): 1-9.

[14]
Lowe R, Wu Y I, Tamar A, et al. Multi-agent Actor-critic for Mixed Cooperative-Competitive Environments[J]. Advances in Neural Information Processing Systems, 2017(30): 6379-6390.

[15]
黄思宇. 深度强化学习在围捕逃逸问题中的应用研究[D]. 武汉: 华中科技大学, 2019.

[16]
Freeman R L. Telecommunication System Engineering[M]. New York: John Wiley & Sons, 2004.

[17]
Wei X, Yang L, Cao G, et al. Recurrent Maddpg for Object Detection and Assignment in Combat Tasks[J]. IEEE Access, 2020(8): 163334-163343.

[18]
Ryan Lowe. Multi-Agent Particle Environment[EB/OL]. [2017-08-13]. https:∥github.com/openai/multiagent-particle-envs.

[19]
Yang Y, Luo R, Li M, et al. Mean Field Multi-agent Reinforcement Learning[C]. International Conference on Machine Learning, Sanya, China, 2018: 5571-5580.

[20]
Holmes Parker C, Taylor M, Zhan Y, et al. Exploiting Structure and Agent-centric Rewards to Promote Coordination in Large Multiagent Systems[C]. Adaptive and Learning Agents Workshop, Istanbul, Turkey, 2014.

文章导航

/