中国科技核心期刊      中国指挥与控制学会会刊     军事装备类重点期刊
Task Planning & Firepower Allocation

Mission planning for joint operations based on machine learning

  • WANG Xuhan ,
  • TAO Jiuyang ,
  • WU Lin
Expand
  • Joint Operations College, Beijing 100091, China

Received date: 2022-10-22

  Revised date: 2022-12-07

  Online published: 2023-10-13

Abstract

The complexity of modern war is increasing, and the rapid operational mission planning is of great importance to improve the efficiency of command and control. This paper presents a joint operational Task Matrix (TM) model, which is a theoretical method for mission planning. A belief network model is put forward to describe the relationship among the elements in TM model. A naive bayesian learning method for belief network is designed. A mechanism of imagination is put forward to speed up the learning process. A search algorithm named Deep Minimum Threat Generation Tree(DMTGT) is proposed, which can efficiently calculate task priority by balancing search error and search speed. Finally, the validity of above models and algorithms is verified by simulation experiments.

Cite this article

WANG Xuhan , TAO Jiuyang , WU Lin . Mission planning for joint operations based on machine learning[J]. Command Control and Simulation, 2023 , 45(5) : 92 -98 . DOI: 10.3969/j.issn.1673-3819.2023.05.012

作战任务筹划(Mission Planning)是指挥员和指挥机关以战场态势为依据,针对作战任务进行的一系列有序运筹设计,是最重要的作战活动之一。作战任务筹划有两个基本问题:第一,针对一个特定作战任务,如何分配有限的作战资源;第二,针对一系列作战任务,如何确定任务执行的先后顺序[1]
用于任务筹划的理论方法不断涌现,传统的方法主要有数学规划方法,包括整数规划、线性规划、动态规划以及多目标规划等;基于多Agent的仿真;启发式方法,包括遗传算法、粒子群算法、蚁群算法等,分布式马尔科夫决策方法等[2-3]。上述方法多用于特定作战领域或战术行动,如无人机任务航迹规划[4-5]、传感器资源的任务规划等[6-7]。针对规模较大的联合作战任务筹划问题,目前主要以定性描述为主,如美军和北约的基于重心的联合筹划概念模型,定量计算方法公开文献鲜有报道。传统方法主要用战场侦察数据、规则来进行推理和求解,不具备自学习应对战场不确定性的能力。
近年来,机器学习技术的快速发展,涌现出一批解决复杂筹划问题的新技术和新方法,为解决上述问题提供了新思路。2020年,DeepMind发布的Muzero[8]通过基于融合表征网络的自博弈方法在围棋、将棋和国际象棋等30多款雅达利游戏中“无师自通”,展现了超越人类的规划与可塑性。DeepStack采用递归推理和深度学习[9],“冷扑大师”(Libratus)采用了蒙特卡洛嵌套子博弈求解方法[10],在德州扑克不完美信息博弈中独领风骚,而且能够有效应对“咋呼”等欺骗策略;空战飞行员ALPHA AI[11]采用了遗传模糊树技术,成为最接近实际战争的人工智能;OpenAI Five[12]、AlphaStar[13]、JueWu在环境复杂、不完美信息的RTS游戏中战胜了大部分人类玩家。虽然上述人工智能都在特定领域击败了人类,展示了机器学习技术在筹划和推理方面的强大能力,但依然难以直接用于联合作战任务筹划建模。
上述人工智能技术虽然迥异,但也具备共同点:一是基于对战平台的自博弈,二是多种智能技术集成学习。借鉴上述人工智能技术成功经验,本文面向作战任务筹划的两个基本问题,首先提出了任务矩阵概念模型,为联合作战任务筹划提供了框架;以此为基础,建立了“作战任务-作战要素”关联关系的信念网络模型,提出了一种基于想象力加速的贝叶斯学习算法,通过自博弈来学习信念网络模型的参数,解决联合作战任务筹划中的资源分配问题;以学习得到的参数为基础,提出了深度最小威胁生成树搜索算法,解决任务执行的先后顺序。本文的研究旨在为指挥员和筹划人员提供理论方法和技术手段,同时也可为联合作战智能对抗仿真建模提供任务规划算法。

1 基于想象力机制的作战资源分配贝叶斯学习模型

本节构建任务矩阵模型对战场态势进行建模,使用信念网络模型刻画任务矩阵中各要素间的复杂关系,并将想象力机制融入贝叶斯方法对参数进行学习,基于参数给出任务执行中关键的支撑要素与威胁要素。

1.1 任务矩阵模型

联合作战指挥员在确定或受领作战任务后,首先需要明确任务目标和限制条件。指挥员进行作战筹划需要关注的战场态势要素通常有三种:第一种是能够提供任务完成所需资源和能力的己方要素,称为支撑要素,解决指挥员“什么可以用”的问题;第二种是能够威胁任务完成的敌方作战力量或环境要素,称为威胁要素,表明了执行任务“面临哪些威胁或阻力”;第三种,与任务执行相关的重要事件,通常是任务分析和筹划过程中需要预先设想的事件,或任务执行过程中已经发生的事件,称为任务事件,充当指挥员的“任务监视器”。任务事件的发生,往往标志任务需要调整、取消、终止、结束等。将作战任务-支撑要素-威胁要素-任务事件按照矩阵的方式组织起来,就得到了如表1所示的作战任务矩阵模型,其可以为指挥员和筹划人员提供一种分析工具。
表1 作战任务矩阵模型

Tab.1 Joint operational task matrix

作战任务:
任务目标
任务限制(时间、资源等)
支撑要素:
能够支撑任务完成的作战力量、资源等要素,如打击敌方舰船部队的支撑要素,有战斗机中队、舰队和岸舰导弹部队等。
威胁要素:
能够威胁任务达成的敌方关键作战力量或关键环境因素,如战斗机执行空对地突击的威胁,有敌方爱国者防空阵地和驱逐舰编队。
任务事件:
任务分析过程中预设或任务执行过程中发生的与任务有关的事件,通常表明任务已完成、无法继续执行或任务失败等,起到一种指示器的作用,引导指挥员进入新的任务筹划点。
在高度动态联合作战背景下,海量支撑要素与威胁要素分布于陆、海、空、天、电、网等各个作战域。指挥员或筹划人员如果对每一个要素都进行深入分析,必然无法跟上战争的节奏。因此,需要一种自动化的处理方法,从海量的作战要素中确定关键的支撑要素与威胁要素,作为下一步作战资源分配的依据。为此,本文建立一种信念网络模型(也称为有向概率图),实现对所有的支撑要素和威胁要素进行重要度排序。

1.2 作战任务矩阵的信念网络模型

假设,在一次联合作战筹划过程中,共有l个作战任务,支撑要素(可用作战资源)总数为m,已经侦察到或明确的威胁要素共有n个。为了计算方便,将所有侦察到的目标都作为威胁要素,后续计算时可以将没有威胁的目标威胁值设置为0。所有作战任务组成的集合用M={mi|i=1,2,…l}表示,所有支撑要素集合为S={sj|j=1,2,…m},所有威胁要素集合为D={dk|k=1,2,…n}。用Ti表示任务mi完成与否的随机变量,Ti为二项分布,取值为1表示任务mi能够完成,取值为0表示任务mi不能完成。所有作战任务能否完成的随机变量集合用T={T1,T2,…TiTl}表示。用 a j i 表示支撑要素sj能否支撑作战任务mi的随机变量, a j i 也为二项分布,其取值为1表示能够支撑任务mi,取值为0表示不能支撑任务mi,用Ai={ a 1 i, a 2 i a j i a m i}表示所有支撑要素能否支撑任务mi的随机变量集合。用 b j , k i 表示支撑要素sj在执行作战任务mi时,威胁要素dk是否对sj产生威胁, b j , k i 为二项分布,取1时表示存在威胁,取0时表示不存在威胁。 B j i={ b j , 1 i, b j , 2 i b j , k i b j , n i}为所有随机变量 b j , k i 的集合。
对于任务mi,将随机变量Ti、集合Ai B j i中的随机变量作为顶点,将任务矩阵模型中作战任务-支撑要素-威胁要素概率依存关系作为边,可以构建如图1所示的信念网络模型。
图1 作战任务-作战支撑-作战威胁的信念网络模型

Fig.1 The element in TM model

定义支撑要素sj执行任务mi的收益为随机变量 R j i,根据支撑要素sj的性质计算完成任务mi的收益 r j i,其期望为
E( R j i)= r j i·P(Ti=1)= r j i·P(Ti=1| a j i=1)·P( a j i=1)
式(1)中,P(Ti=1| a j i=1)表示要素sj在能够为任务mi提供支撑情况下,完成任务mi的概率,实际计算中可以用归一化的支撑能力近似表示。P( a j i=1)表示要素sj能够支撑任务mi的概率。如果sj本身不具备支撑任务mi的能力(如步兵无法支撑空战任务),则P( a j i=1)=0,可以直接过滤掉。此外,支撑要素sj可能因受到敌方作战要素的威胁而无法完成任务,假设威胁是独立存在的,此时P( a j i=1)需要通过公式(2)中的威胁关系来计算:
P( a j i=1)= k = 1 n(P( a j i=1| b j , k i=1)P( b j , k i=1)+P( a j i=1| b j , k i=0)P( b j , k i=0))= k = 1 n(1-P( a j i=0| b j , k i=1)P( b j , k i=1))
P( a j i=0| b j , k i=1)为支撑要素sj在执行任务mi时,受威胁要素dk作用无法完成任务的概率,P( b j , k i=1)为威胁要素dk在支撑要素sj执行任务mi时对其产生威胁的概率(即威胁存在的概率)。为了表示方便,令 ρ j i=P(Ti=1| a j i=1), θ j , k i=P( a j i=0| b j , k i=1), φ j , k i=P( b j , k i=1),并将公式(2)代入公式(1)可得
E( R j i)= r j i ρ j i k = 1 n(1- θ j , k i φ j , k i)
在公式(3)中,由于我方要素支撑能力已知(可通过我方作战要素的参数计算), ρ j i 可以通过支撑能力近似表示,可看成已知量。由于战场存在高度不确定性,参数 φ j , k i θ j , k i通常需要根据历史数据和不断获取的新数据进行学习。本文针对战争研究或战前方案推演的应用场景,采用贝叶斯在线学习的方法,设计参数估计算法,对战场态势进行分析。实际使用中,可针对某一个想定演练多次,通过仿真推演或者自博弈得到的数据对上述参数进行学习更新。

1.3 基于想象力机制的贝叶斯学习参数估计模型

所有的 θ j , k i φ j , k i 都需要在自博弈推演过程中学习,而当战场态势要素的规模庞大时,使用传统的贝叶斯方法进行学习,存在后验知识稀疏的问题,本小节采用想象力机制对其进行解决[14-15]
θ j , k i φ j , k i 的先验分布服从Beta分布: θ j , k i ~Beta( ω j , k , 0 i, υ j , k , 0 i), φ j , k i ~Beta( γ j , k , 0 i, η j , k , 0 i)。随机变量 a j i b j , k i 符合二项分布,Beta分布为二项分布的共轭分布,以其为先验的后验分布也为Beta分布。参数 θ j , k i φ j , k i 的先验均值分别为 θ j , k i ¯= ω j , k , 0 i ω j , k , 0 i + υ j , k , 0 i φ j , k i ¯= γ j , k , 0 i γ j , k , 0 i + η j , k , 0 i。其中, ω j , k , 0 i υ j , k , 0 i γ j , k , 0 i η j , k , 0 i 可以根据指挥员的经验和历史统计数据,在t=0初始时刻确定,即通过已知样本得到, θ j , k i φ j , k i 后验均值在先验基础上进行学习更新。
在一次推演中,当支撑要素sj在执行任务mi时遭遇了威胁dk,sj会将遭遇威胁dk影响其执行任务mi的情况通知所有支撑要素。其他支撑要素sj'根据sj的描述进行想象,更新遭遇威胁dk的可能性 φ j ' , k i 与受dk影响无法完成任务的概率 θ j ' , k i。显然,如果支撑要素sj'sj越相似,sj'想象自身遇到的情况和sj就越类似,两者的相似程度由其属性确定,可以结合领域知识对sjsj'所有的属性进行编码,编码值都取正数,得到sj的属性向量为sj=[sj1,sj2,…sjx],sj'的属性向量为sj'=[sj'1,sj'2,…sj'x]。引入夹角余弦距离公式来计算sjsj'的相似情况,在公式(4)中用λj,j'表示:
λj,j'= s j · s j ' | s j | | s j ' |= i = 1 x s j i s j ' i i = 1 x s j i i = 1 x s j ' i
由于任意sjisj'i的编码值都为正数,λj',j∈[0,1]。通过λj,j'加速 θ j , k i φ j , k i 学习的算法如表2所示。
表2 算法1:基于想象力加速的参数学习算法

Tab.2 Algorithm1: parameter learning algorithm based on imagination acceleration

输入:初始化参数 ω j , k , 0 i, υ j , k , 0 i, γ j , k , 0 i, η j , k , 0 i
输出:学习后的参数 θ j , k i, φ j , k i
1)如果学习过程没有结束,启动一次仿真推演,否则输出 θ j , k i, φ j , k i
2)持续推演,若在时刻t,支撑要素sj执行任务mi,遭遇威胁要素dk:
① 更新参数 φ j , k i: γ j , k , t i γ j , k , t - 1 i+1, η j , k , t i η j , k , t - 1 i+1
② 对所有的j'∈J且j'≠j,更新参数 φ j ' , k i: γ j ' , k , t i γ j ' , k , t - 1 ij,j', η j ' , k , t i η j ' , k , t - 1 ij,j'
③ 更新参数 θ j , k i,对所有的j'∈J且j'≠j,更新参数 θ j ' , k i:
若支撑要素sj在威胁要素dk作用下没有完成任务mi, ω j , k , t i ω j , k , t - 1 i+1,
若支撑要素sj在威胁要素dk作用下完成任务mi, υ j , k , t i υ j , k , t - 1 i+1, υ j ' , k , t i υ j ' , k , t - 1 ij,j'
3)判断是否推演结束,是:转到1);否:转到2)
区别于DeepMind想象力模型解决纵向想象(想象同一个对象的后续动作),本文中使用的想象力机制是横向想象,即想象其他不同对象在遇到相同情况会怎样,更适合求解样本稀疏的广度学习问题。
将更新后的参数代到公式(3)中,就可以得到用支撑要素sj完成任务mi的期望E( R j i)。将E( R j i)从大到小排序,可得到执行任务mi的支撑要素优先顺序 S * i:
S * i=< a 1 * i, a 2 * i,… a m * i>
c j , k i= θ j , k i φ j , k i,则 c j , k i 表示支撑要素sj完成任务mi时,威胁要素dk对支撑要素sj的威胁程度的大小,将 c j , k i 从大到小排序,可得到支撑要素sj完成任务mi时威胁要素的威胁度排序 D j * i:
D j * i=< d j , 1 * i, d j , 2 * i,… d j , n * i>
基于以上排序,可以得出执行任务mi时的关键支撑要素与si执行任务mi时的关键威胁要素。

2 基于深度最小威胁生成树搜索的任务优先级模型

作战筹划人员在面临多个任务时,需要确定任务的优先执行顺序。在任务执行的过程中,先执行的任务会对后续的战场态势要素产生影响,因此任务执行的顺序不同,完成所有任务的战损和代价往往也不同。假设完成所有任务获得的总收益相同(如果没有该假设,将变为一个更复杂的多目标动态决策问题。实际作战中该假设通常成立)。任务排序问题可以描述为以下动态规划模型:
Min C= i = 1 lcis.t. T i = 1 , i = 1,2 , l t T i m e c k 0 , k = 1,2 , n
公式(7)所示动态规划模型的优化目标是通过优化任务执行顺序,使完成所有任务的总损耗和代价最小。约束条件为每一个任务Ti都完成,总任务时间不能超时,并且每一个任务面临的威胁ci非负。
对于任务mi,不同的支撑要素其支撑能力可能不同。由此可以求出支撑要素sj的支撑能力占总支撑能力的权重 w j i:
w j i= E ( R j i ) h = 1 m E ( R h i )
由信念网络模型可以得到威胁要素dk对任务mi的威胁程度 c k i
c k i= j = 1 n w j i c j , k i= j = 1 n E ( R j i ) h = 1 m E ( R h i )· θ j , k i φ j , k i
根据任务矩阵,将通过执行任务mi可以摧毁的敌方目标集合设为{ d u i '|u=1,2,…n},将任务mi的威胁要素集合设为{ d k i|k=1,2,…n}。可以定义任务mi的威胁树,如图2所示。
图2 单任务威胁树

Fig.2 Threat tree of single task

图2中,威胁要素对作战任务的威胁程度 c k i由公式(9)给出,其中参数 θ j , k i φ j , k i 由算法1学习得到。作战任务与任务目标之间的权重 o u i 表示任务mi完成后对敌方目标 d u i ' 的毁伤程度,其值与总支撑能力成正比, o u i '=τ j ρ j i,其中τ为比例系数。实际计算中为了降低复杂度, o u i ' 通常可以取一个常数值。因为任务mi的目标要素 b k i ' 可能是另一个任务的威胁要素 b k i,所以可以通过其关联关系,将每一个任务的威胁树连接起来,构成全体任务集合的威胁树,如图3所示。
图3 总任务威胁树

Fig.3 Threat tree of general task

图3中任务与任务之间的权重 c j , j ' i , i '为内部权重,其含义是,通过执行任务mi对目标 d j i ' 毁伤后,以被毁伤目标 d j i ' 作为威胁要素的 d j i 对另一个任务i'的残余威胁值,则 c j , j ' i , i '=(1- o j i) c j ' i '。显然,如果任务是该目标被完全毁伤,即 o j i=1,则残余威胁为0。因此,总任务威胁树的威胁值就等于所有残余威胁值与未消除威胁值的和,即等于图3所示的威胁树实线部分的权值之和。
由此,可以将公式(7)所示的动态规划模型等价于求解一个最小威胁树。一种最为直接的方法就是将所有的树全部排列一遍,时间复杂度为O(n!),在有较多的任务需要排列时,时间耗费巨大,无法满足作战时效性要求。因此,本文设计一种深度优先最小威胁生成树搜索算法,通过均衡搜索误差和速度实现任务优先级排序,如表3所示。
表3 算法2:深度优先最小威胁生成树搜索算法

Tab.3 Algorithm2: depth first minimum threat spanning tree search algorithm

输入:威胁值 c k i,毁伤程度 o u i,i=1,2,…,l,k,u=1,2,…,n
输出:最小威胁生成树M*,最小威胁值Min_Threat
初始化:随机生成一棵威胁树Mpre,计算Mpre的威胁值Th{Mpre},置M*←Mpre,Min_Threat←Th{Mpre},Min_Threat_before←0;定义最小搜索误差min_e,搜索误差e,搜索次数cout←0,搜索到最优值时的次数cout_best←0;将Gen_tree和Tail_tree置为空树。
算法过程:
1)从威胁树Mpre中按照深度优先顺序向下遍历,取出当前遍历到的元素mi,将mi加入Gen_tree,将Mpre剩余的子树加入Tail_tree。cout←cout+1;
2)If e≤min_e 输出M*,搜索结束;Else继续执行3);
3)计算Gen_tree的威胁值Th{Gen_tree}:
If Th{Gen_tree}>Min_Threat,跳转到1); Else 继续执行4);
4)从Tail_tree中按照深度优先搜索的顺序遍历,取出当前遍历的元素加入到Gen_tree中生成新的子树;Tail_tree剩余的子树构成新的Tail_tree;
5)判断Gen_tree树的大小与总任务数的关系:
If Size(Gen_tree)=l,继续执行6);Else跳转到4);
6)计算Gen_tree的威胁值Th{Gen_tree}:
If Th{Gen_tree}<Min_Threat;跳转到1);Else继续执行7)
7)更新搜索误差e← M i n _ T h r e a t - M i n _ T h r e a t _ b e f o r e M i n _ T h r e a t _ b e f o r e * ( c o u t - c o u t _ b e s t ),
Min_Threat_before←Min_Threat,cout_best←cout,转到1)继续执行。
上述算法中,最小搜索误差min_e可以根据任务的数量和时效的要求来设置,误差越小,搜索的次数越多,也越耗时。由于该算法是在动态环境下工作的,输入值 c k i o u i 会根据作战或推演的推进不断变化,其最小威胁值Min_Threat也随之不断变化。而且,敌方威胁要素事先可能没有被侦察到,随着新的威胁要素被侦察到并加入威胁树,Min_Threat甚至可能变大。此外,Min_Threat根据公式(7)所示的动态规划模型求得,其约束条件是所有任务都要完成。如果事先需完成的任务因资源限制被终止,此时Min_Threat可能会下降,但这种威胁的下降是通过少做任务带来的,而不是通过执行任务来消除威胁。

3 仿真实验验证

本文以一次火力打击与防御作战为仿真案例,检验上述模型和算法的有效性。首先设置初始仿真实验条件,对模型中需要的参数进行初始设定;然后通过多次推演来分析上述模型的学习能力和计算结果。

3.1 实验环境的设置

基本想定:红方火力打击蓝方目标,蓝方对红方的攻击进行防御性还击(即不主动出击)。红方火力打击任务数共10个,每个任务只针对蓝方一个目标,任务支撑要素共30个,分为6个同类组,对应于算法1中的同类型集合J。蓝方的威胁要素有20个,而且红方打击的目标全部包含在威胁要素中,即红方目标为蓝方的威胁要素的子集(实际作战过程中,目标不一定是威胁要素,需要根据目标性质确定。例如轰炸一座桥梁,桥梁本身不会产生威胁。限定上述条件是为了降低问题复杂度,对算法验证不会产生影响)。每个支撑要素对每个打击任务的支撑能力在[0,1]区间随机生成。完成任务的收益,即公式(1)中 r j i 都设为1,即每个任务同等重要。算法1和算法2的参数初始化设置如表4所示。参数对任意ijk都相同,即对所有的待学习参数都不加入人的经验。
表4 算法初始化参数

Tab.4 Initial parameters of the algorithm

参数名 ω j , k , 0 i υ j , k , 0 i γ j , k , 0 i η j , k , 0 i λ min_e e o u i
参数值 30 10 20 20 0.9 0.01 1 0.95
在执行任务过程中,红方每个支撑要素被蓝方要素的毁伤概率在[0,1]区间随机生成。生成的毁伤概率表只为仿真实验提供交互结果计算,毁伤概率表对红方不可见。

3.2 仿真结果分析

以上述初始参数为基础,在仿真推演过程中,算法1和算法2的计算结果可以通过图4所示的示意图表示。
图4 算法计算过程示意图

Fig.4 Diagram of the calculation process

在任意时刻,由算法1的计算结果可以确定红方任务线和蓝方的威胁线,任务线是指从某个支撑要素到某个任务目标之间的连线,威胁线是指从威胁要素到任务线某点的连线。算法1同时确定了关键支撑要素和关键威胁要素,分别为任务线的起点和威胁线的起点。算法2确定了任务的优先顺序,如图4所示,四个任务的执行顺序从上到下排列为4-2-1-3。
参数学习算法和深度优先最小威胁生成树搜索算法的有效性,可以通过红方完成所有任务后支撑要素的损失数目来检验。由于作战过程具有随机性,例如,一枚导弹可能击中目标也可能没有击中目标,这种不确定性对于战争结果的影响可能非常大,对应到本文的仿真实验就是会导致仿真实验结果具有较大波动性。因此,为了尽可能地消除这种不利影响,我们对每一个学习出来的参数运行10次,并对结果取平均值。得到如图5所示的结果。
图5 红方执行任务损失支撑要素数目情况

Fig.5 Number of supporting elements for red party’s loss in task execution

共进行了1 000次仿真实验,纵坐标表示红方支撑要素的损失数目。蓝色曲线和黄色曲线分别表示采用和未采用上文提出的想象力机制模型的学习情况。通过对比可以发现,采用想象力机制能够使模型收敛速度大大加快。当需要学习的参数随着态势要素数目一起增多,先验知识将会变得更加稀疏,带有想象力机制的学习模型收敛速度优势会更加明显。但也要看到,蓝色曲线在收敛过程中震荡较大,原因可能是很多参数的更新建立在想象而非真实体验之上。
以带有想象力机制的学习过程为例讨论模型收敛情况。开始时,红方通过算法1得到对敌方的威胁情况,以 θ j , k i φ j , k i 等相关参数估计值为初始设定随机值,而算法2依赖的关键参数 c k i 可根据 θ j , k i φ j , k i 计算得到,因此,在初始时, c k i 的准确性很差。通过 c k i计算得到的任务执行顺序不是最优顺序,此时红方支撑要素有一半以上的损失。随着执行次数的增加,学习算法对敌方的威胁情况估计越来越准确,通过算法2排序的实际威胁值不断降低,最终算法收敛于8左右,支撑要素的损失数目降低了50%。结果表明,通过机器学习算法1和算法2的协同工作,能够比较好地解决作战资源的分配和任务优先级排序问题。

4 结束语

本文提出了一种基于机器学习的任务资源分配和任务优先级排序方法,通过想象力机制加速了学习模型的收敛速度,仿真实验表明了该方法的有效性。该方法不仅能够为指挥员和联合筹划人员提供有益的分析工具,同时也可以为作战博弈系统提供智能学习算法。由于战争问题的极端复杂性,为了建模方便,本文提出的方法对很多问题进行了简化,所用方法也比较简洁,旨在探索理论方法和技术路线。本文下一步的工作是更为深入地讨论并行任务的搜索、任务协同等问题。
[1]
LENZEN C, GÖTTFERT T, MROWKA F, et al. Mission planning[M]//Spacecraft Operations. Vienna: Springer Vienna, 2014: 167-211.

[2]
彭鹏菲, 于钱, 李启元. 基于改进粒子群优化的多目标装备保障任务规划方法[J]. 系统工程与电子技术, 2017, 39(3): 562-568.

PENG P F, YU Q, LI Q Y. Method of multi-object equipment support task planning based on improved particle swarm optimization[J]. Systems Engineering and Electronics, 2017, 39(3): 562-568.

DOI

[3]
邢立宁, 陈英武. 任务规划系统研究综述[J]. 火力与指挥控制, 2006, 31(4): 1-4.

XING L N, CHEN Y W. Overviews on mission planning system research[J]. Fire Control and Command Control, 2006, 31(4): 1-4.

[4]
PERSIANI F, DE CRESCENZIO F, MIRANDA G, et al. Three-dimensional obstacle avoidance strategies for uninhabited aerial systems mission planning and replanning[J]. Journal of Aircraft, 2009, 46(3): 832-846.

DOI

[5]
钱宇, 祝祯祎. 基于改进动态规划的无人机搜寻航迹规划研究[J]. 计算机仿真, 2021, 38(1): 32-36, 75.

QIAN Y, ZHU Z Y. Research on UAV searching path planning based on improved dynamic programming algorithm[J]. Computer Simulation, 2021, 38(1): 32-36, 75.

[6]
FERRI G, COCOCCIONI M, ALVAREZ A. Mission planning and decision support for underwater glider networks: a sampling on-demand approach[J]. Sensors (Basel, Switzerland), 2015, 16(1): 28.

DOI

[7]
DOBSLAW F, ZHANG T T, GIDLUND M. End-to-end reliability-aware scheduling for wireless sensor networks[J]. IEEE Transactions on Industrial Informatics, 2016, 12(2): 758-767.

DOI

[8]
SCHRITTWIESER J, ANTONOGLOU I, HUBERT T, et al. Mastering Atari, Go, chess and shogi by planning with a learned model[J]. Nature, 2020, 588(7839): 604-609.

DOI

[9]
MORAVČÍK M, SCHMID M, BURCH N, et al. DeepStack: Expert-level artificial intelligence in heads-up no-limit poker[J]. Science, 2017, 356(6337): 508-513.

DOI PMID

[10]
BROWN N, SANDHOLM T. Safe and nested subgame solving for imperfect-information games[C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach 2017: 689-699.

[11]
ERNEST N, CARROLL D. Genetic fuzzy based artificial intelligence for unmanned combat aerial vehicle control in simulated air combat missions[J]. Journal of Defense Management, 2016, 6(1): 1-7.

[12]
Berner C, Brockman G, Chan B, et al. Dota 2 with Large Scale Deep Reinforcement Learning: 10.48550/arXiv.1912.06680[P]. 2019-12-13.

[13]
VINYALS O, BABUSCHKIN I, CZARNECKI W M, et al. Grandmaster level in StarCraft II using multi-agent reinforcement learning[J]. Nature, 2019, 575(7782): 350-354.

DOI

[14]
Pascanu R, Li Y, Vinyals O, et al. Learning Model-Based Planning from Scratch: 10.48550/arXiv.1707.06170[P]. 2017-07-19.

[15]
Weber T, S Racanière, Reichert D P, et al. Imagination-Augmented Agents for Deep Reinforcement Learning: 10.48550/arXiv.1707.06203[P]. 2017-07-19.

Outlines

/