中国科技核心期刊      中国指挥与控制学会会刊     军事装备类重点期刊
研究论文

基于深度强化学习的作战概念能力需求分析关键技术*

  • 安靖 1, 2, 3 ,
  • 刘伟 4 ,
  • 周杰 2
展开
  • 1 国防大学研究生院, 北京 100091
  • 2 国防大学联合勤务学院, 北京 100858
  • 3 国防大学联合作战学院, 北京 100091
  • 4 中国人民解放军60660部队, 北京 100081

安 靖(1981—),女,博士研究生,副教授,研究方向为军事运筹学、战争设计系统工程。

刘 伟(1982—),男,博士,高级工程师。

Copy editor: 李楠

收稿日期: 2023-02-20

  修回日期: 2023-03-22

  网络出版日期: 2024-05-29

基金资助

* 全军军事类研究生资助课题(JY2020B031)

Key technologies of operational concept capability requirement analysis based on deep reinforcement learning

  • AN Jing 1, 2, 3 ,
  • LIU Wei 4 ,
  • ZHOU Jie 2
Expand
  • 1 Graduate School, National Defense University, Beijing 100091, China
  • 2 Joint Logistics College, National Defense University, Beijing 100858, China
  • 3 Joint Operations College, National Defense University, Beijing 100091, China
  • 4 Unit 60660 of PLA, Beijing 100081, China

Received date: 2023-02-20

  Revised date: 2023-03-22

  Online published: 2024-05-29

摘要

在形式化描述作战概念能力需求分析问题的基础上,设计了一种基于深度强化学习的作战概念能力需求分析方法,重点对该方法的仿真实验、代理模型、强化学习等关键技术进行了分析和研究。通过关键技术的实现,该方法能够获取高可信度的仿真小样本数据集;基于经验数据构建作战概念的代理模型,并输入高可信度仿真数据集,应用多目标优化算法对代理模型进行优化训练;最后,将训练得到的代理模型与深度强化学习框架进行交互寻优,实现作战概念能力需求的反向探索。

本文引用格式

安靖 , 刘伟 , 周杰 . 基于深度强化学习的作战概念能力需求分析关键技术*[J]. 指挥控制与仿真, 2024 , 46(3) : 18 -24 . DOI: 10.3969/j.issn.1673-3819.2024.03.003

Abstract

Based on the formal description of the operational concept capability requirement analysis, a method of operational concept capability requirement analysis based on DRL(deep reinforcement learning) is designed. The key technologies of this method, such as simulation experiment, surrogate model, reinforcement learning, are analyzed and studied. Through the implementation of key technologies,small sample data sets with high reliability can be obtained through simulation experiments; Based on the experience data, the surrogate model of operation concept is constructed, and the model is optimized and trained by using multi-objective optimization algorithm with the high credibility simulation data set as the input; Finally, the surrogate model obtained from the training and the DRL framework are interactively optimized to achieve the reverse exploration of the operational concept capability requirements.

作战概念能力需求分析与作战方案评估、作战行动分析等相比[1-3],具有以下特点。一是在分析目标上具有反向性。在作战概念开发过程中,进行能力需求分析的目标不同于传统评估分析,不仅是要通过数据分析得出优劣、可否的分析结论,更重要的是基于分析结果,反向挖掘出关键能力指标,探索能力生成的机理、规律,并结合现实情况和未来发展趋势的预判和分析,确定能力指标的最优组合。因此,对分析方法提出了反向探索的目标需求。二是在分析条件上更具不确定性和开放性。作战概念的提出是面向未来的探索,不仅包括各类新质、新域的作战力量、武器装备和作战样式,还包括部分基于未来发展趋势的预判。因此,有别于作战方案评估或行动分析,作战概念能力需求分析的输入条件更加不确定,变化更加多样,取值范围更加开放。这种不确定和开放性对分析方法提出了快速适应不确定高维特征[4]变化的条件需求。三是在分析过程中更具对抗性。作战概念的提出是为了解决某一作战问题,对作战能力需求进行分析必须考虑对抗的方式和强度、己方部队的相互作用情况,以及敌方部队做出的相应行动调整等对抗性因素,甚至极限条件下对抗性的变化。因此,对分析方法提出了要满足不同程度威胁环境和对抗情况的分析需求[5]
综上,亟须紧盯能力需求分析的特殊要求,即反向性、不确定性、开放性和对抗性需求,基于复杂系统科学中的还原论、整体论,采用工程化、体系化、现代化的理念,依托模拟仿真、兵棋推演、机器学习等先进技术手段,研究定性分析与定量计算相结合的作战概念能力需求分析方法及其关键技术,提升作战概念开发的科学性、系统性。

1 作战概念能力需求分析问题描述

完整的作战概念应包括对作战问题的描述和分析,以及包含力量组成、战法、行动等在内的作战问题解决方案。除此之外,为了确保作战概念的转化应用,还应当对其进行作战能力需求分析。本文将作战概念要素分解为下述三类:
第一类要素是作战问题描述,是在未来特定时空条件下,对作战概念的作战背景、作战目的、作战任务、作战环境、作战对手等的描述。
第二类要素是作战问题解决方案,即针对第一类作战问题,提出解决问题的作战力量、作战活动、行动设想等。
第三类要素是作战能力需求。本文采用胡晓峰团队在文献[6]中所提出的对于作战能力的认识,即作战能力是在特定标准和条件下,通过使用各种资源(Means)和方式手段(Ways)达成作战目的的本领。对于作战概念,应充分考虑当前不具备的作战能力,例如新技术、新装备的运用带来的新质能力。
作战概念能力需求分析是在作战概念开发的研究设计阶段,围绕第三类要素,分析并确定支撑作战目的达成的作战能力需求的过程。形式化描述如下:
设作战目的为 G = g 1 , g 2 , . . . , g n,gi,i∈(1,...,n)表示分解的子目的;
作战能力需求为$\overrightarrow{C R C}=\left\{\overrightarrow{C R C_1}, \quad \overrightarrow{C R C_2}, \quad \cdots, \overrightarrow{C R C_m}\right\} $;
作战背景、作战对手、战场环境,以及科技装备发展现状和趋势等其他要素(Operating Environment)为OE
令作战目的与作战能力需求之间的映射关系为$F(\overrightarrow{C R C} \mid O E) \rightarrow \vec{G}$,则面向作战概念开发的能力需求分析就是遵循一定的OE,根据作战目的 G 不断寻找$\overrightarrow{C R C}$最优解,即$\overrightarrow{C R C}$的能力寻优过程,如下所示:
$\min \Delta=|F(\overrightarrow{C R C} \mid O E)-\vec{G}| $
$\text { s.t. } \overrightarrow{C R C}=\left\{\overrightarrow{C R C_1}, \overrightarrow{C R C_2}, \ldots \ldots, \overrightarrow{C R C_m}\right\}$

2 基于深度强化学习的作战概念能力需求分析方法设计

根据上述描述,把能力需求的分析问题转化为作战能力的寻优问题。鉴于当前代理模型、强化学习等技术在解决寻优问题中的表现,规范性分析在提高数据分析成熟度和优化决策中的表现[7],以及探索性仿真实验方法在作战能力分析中的表现。本文遵循规范性分析的基本逻辑,引入机器学习的通用范式,设计新的分析方法,如图1所示。
图1 机器学习算法的引入

Fig.1 Introduction of machine learning algorithm

基于该方法进行能力需求分析的基本流程如图2所示,主要包括2个阶段10个步骤,通过逐步细化与量化模型,实现从定性到定量再到定性的能力需求展示、分析和追溯。
图2 能力分析方法流程

Fig.2 Process of capability analysis method

阶段一:从定性分析到定量近似
为确保分析结果具有军事价值和军事意义,能力需求分析需要利用人的经验和洞察力来提出假设。因此第一个阶段以作战概念的定性分析为起点,在研究定性关系的基础上,从定性到定量近似,将定性转为定量关系模型,支撑后续分析。
Step1~3:首先,基于定性分析对结构化低、抽象性强、复杂度高的作战概念进行统一的标准化体系结构建模和描述。该模型是对作战概念体系结构和各要素的第一次抽象,不仅包含作战概念的人员、装备和行动等要素,还能够通过一定的作战行动和实体交互,体现其与作战环境、作战对手之间的影响和对抗,是后续能力分析指标构建、仿真模型构建、仿真推演实验方案设计,以及能力的定性定量分析等方法步骤的指导和牵引。
Step4:基于结构化、形式化的作战概念模型,构建作战概念能力需求分析指标体系,重点描述能力及能力间相互关系、能力需求的表征以及能力大小的度量,为后续构建能力代理模型和能力的逆向分析奠定基础。
Step5:基于作战概念体系结构模型,围绕定量分析需要,从想定、手段、探索空间等方面设计探索性仿真实验方案。包括开发仿真实验想定,构建或选择仿真系统、仿真模型,形成聚焦实验目标的实验想定样本空间等。
Step6:在该阶段,依托人在回路和人不在回路的模拟仿真系统运行仿真实验,通过运行仿真想定脚本驱动仿真推演,采集实验产生的过程数据和仿真结果。实验实施过程中,根据实验样本空间的规模,采用“预实验+特征选择”的方法,筛选关键因素,压缩想定样本空间,确保实验规模可行。
阶段二:从定量计算到定性分析
Step7:按照能力指标体系,解析仿真实验阶段采集到的各类数据,建立指标体系与仿真数据的映射关系,并辅以数据生成、数据融合等方法,形成可供分析研究、模型训练的高可信度且具有一定规模的训练数据集。
Step8:基于定性关系的指标体系和定量关系的训练数据集,采用模型与数据混合驱动策略,构建能力代理模型,并采用多目标优化算法对模型进行优化。
Step9:构建深度强化学习模型,将训练得到的能力代理模型与强化学习模型进行交互,完成作战能力策略的寻优。
Step10:通过对最优策略的推演,完成需求分析和解释,正向、逆向输出分析作战概念能力需求和能力生成机理。

3 需求分析方法设计和实现的关键技术研究

上述方法设计和实现的重难点在于确保分析过程和结果的数据可得、双向可行、结果可信、逻辑可辨、建议可用。数据可得重点要兼顾探索性仿真实验的结果可信和规模可行;双向可行重点要解决基于强化学习的作战能力寻优的计算量大、可解释性差等问题,以及支撑能力需求的逆向分析;结果可信重点要解决作战概念分析的样本数据不足问题,以及采用强化学习交互训练过程中,高维动作空间问题、奖励函数设计问题、反馈延时、奖励稀疏问题;逻辑可辨重点要保留需求分析指标体系的军事意义,并牵引服务于能力需求分析的全过程;建议可用重点要兼顾军事与技术,现在与未来,确保作战概念能力需求分析结论的军事价值和现实意义。聚焦上述问题,重点设计并实现如下关键技术。

3.1 基于仿真实验的高可信度训练数据集生成

对抗环境下作战数据的生成和采集是支撑能力需求分析方法的关键技术之一,是后续训练代理模型以及进行强化学习交互分析的基础,数据集可信度越高,训练的代理模型越贴近真实作战体系。由于作战概念的研究面向未来,缺乏真实的作战数据支撑。因此,需要依托探索性仿真实验,将新力量编组、新战法运用、新技术应用纳入仿真实验设计,充分探索作战概念的各类实验因素,获取足量、有效、可信的实验数据,形成高可信度的数据集。
为实现这一目标,关键问题包括:一是对于新质、新域力量和新战法,缺乏仿真平台和模型支撑;二是实验的仿真精度和探索规模之间的矛盾,仿真实验的实施既要快速、可行,又要完备、充分。
聚焦关键问题,引入知识图谱、机器学习等关键技术,从提升仿真平台和模型匹配度等方面提高仿真可信度,从想定生成、实验空间设计等方面提高实验的可行性、完备性。该方法包括以下三大关键步骤。
Step1:优选平台工具、仿真模型,生成支撑推演的基准仿真想定。由于针对作战概念的推演,存在新的作战力量、作战装备、作战行动,同时还要充分考虑对体系作战能力产生影响的各种不确定性因素,仿真推演平台的支撑度往往受限。面对这种情况,新建平台模型,精准支撑推演是最优方案,但考虑时间成本以及作战概念研究动态性、不确定性、探索性强等因素,同时基于前述仿真可信度的结论,本方法根据实验目的、实验模式、军事想定,通过优选支持度较高的仿真平台、匹配度较高的仿真模型,最大程度地确保基于已有平台和模型实施仿真推演的快速、可行和可信。
Step2:根据仿真实验的目的,设计并生成规模可行的仿真想定样本空间。聚焦作战能力需求分析的实验目的,兼顾探索性仿真实验的可行性和完备性,采用科学合理的实验设计方法,综合运用作战要素显著性分析、特征选择、定性分析等多种方法,充分考察想定背景下的关键实验因素和因素水平,生成规模可行且具有典型代表性的想定样本空间[8],确保实验过程的完备、充分和结果数据的足量、有效、可信。
Step3:实施探索性仿真实验,采集实验数据,生成训练数据集。输入仿真想定样本空间,驱动模拟仿真系统按照预定的仿真脚本运行,实施仿真实验。实验过程中,利用仿真实验的运行控制策略不断筛选、调整和修正实验方案,提高仿真实验效率。通过调用定制化的指标聚合功能模块和数据观测接口,获取仿真推演中的战场态势和目标状态数据,并进行数据清洗、映射等预处理,形成训练样本数据集。
训练数据集生成的实验验证参见文献[9]。该论文的实验结果表明,生成的仿真想定脚本能够按照预定行动驱动仿真推演,筛选的关键特征客观,且与现实较为吻合,生成的样本数据集可信且规模可行。

3.2 模型与数据混合驱动的变可信度能力代理模型构建

代理模型(Surrogate Model,SM)也称为“近似模型”(Approximation Model),是指对样本空间进行数学抽样后,建立的一种近似数学模型。该模型计算量小,且计算精度与高可信度仿真模型(仿真系统)相差不大。
目前,代理模型在工业、军事等多个领域得到了普遍应用。本文能力需求分析方法的关键是建立作战概念代理模型,以近实时的方法与强化学习框架进行交互学习,实现能力寻优。因此,提出科学适用的建模方法,确保构建代理模型的可信度及其与原仿真(系统)模型的关联是本文需解决的核心技术之一。
模型分为参数模型和非参数模型,参数模型可解释性强,但构建比较困难,非参数模型泛化性好,但可解释性差。本文着眼构建兼顾参数模型与非参数模型优点的代理模型,提出了一种模型与数据混合驱动的变可信度能力代理模型构建方法。该方法结合传统军事理论的解析模型和高可信度仿真模拟训练数据集的优势,利用解析模型满足最低建模需求,利用高可信度仿真数据集训练优化模型参数,使代理模型逐步逼近精确可信。
采用代理模型与强化学习框架进行交互实现能力寻优的方法,如图3所示,即引入代理模型,替代传统能力寻优方法中的可信度较高的仿真系统(模型)推演。虽然该方法可以较好地解决能力寻优过程中,直接调用仿真模型带来的计算量大、计算时间暴增、可解释性差等问题,但也给代理模型的构建提出了可信度、可行性上的要求。
图3 基于代理模型能力寻优方法

Fig.3 A method of capability optimization based on surrogate model

代理模型根据可信度,分为高可信度、低可信度、变可信度。高可信度可以理解为由精度较高的样本点数据构建的,精度高,成本高。反之,低可信度模型,虽然成本低,但精度不高。变可信度模型结合了高、低可信度的优点,由更多的低可信度样本点以及少量的高可信度样本点融合而成,可根据应用需要逐步提升可信度。
代理模型的建模方法很多且相对成熟,根据方法的基点进行区分,分为两种:模型驱动方法和数据驱动方法。区别在于:模型驱动方法是根据数据特征或先验知识选择已有模型;数据驱动方法则事先不对模型进行限定,只给出粗略的无意义的数学模型组,然后通过某种机制让模型从不断的数据拟合中去学习,利用学习的结果修正最初给出的模型组。现有的代理模型构建多基于第二种数据驱动的方法。
针对本文代理模型的作用,即支撑作战能力的寻优,现有建模方法主要存在下列问题亟待解决:
一是作战能力需求分析要聚焦作战概念的具体场景,具有军事意义,但基于数据驱动的代理模型构建方法,无法较好地反映输入变量和输出变量之间定性的内在的因果关系,构建的代理模型军事意义不足,可解释性较差。
二是为更好地拟合高可信度仿真实验,代理模型的构建过程离不开原始高可信度模型给出的规模化的高可信度数据的支持。尤其是作战概念复杂度高,不确定性强,作战能力代理模型的构建需考虑的变量总数较多(n≫10),完全基于数据驱动构建精准代理模型难度较大,若样本训练数据集不足,将导致代理模型精度快速下降,优化效果不佳;若样本训练数据集较大,一方面数据集的生成耗时长,效率低,另一方面覆盖整个样本空间的可行性不佳。
三是由于基于数据驱动的代理模型的建立,忽略了原始高可信度模型中的部分信息,因此在一些情况下,代理模型获得的优化结果仅为局部最优,不能收敛至全局最优。
针对上述问题,本文聚焦建模需求,基于变可信度的策略,采用模型与数据混合驱动的思路,提出了一种结合基于传统军事理论的解析模型和少量高可信度仿真模型数据的代理模型构建方法,实现代理模型可信度由低到高的平滑过渡。该过程是变可信度代理模型构建过程,也被称为黑箱建模或曲线拟合建模,核心思想如图4所示,即从军事经验值出发,通过分阶段逐步满足建模需求,形成满足应用需求的高可信度代理模型。
图4 变可信度代理模型建模

Fig.4 Modeling of surrogate model

首先,采用模型驱动的思路,基于能力需求分析指标体系,依托军事经验,选取或构建低可信度的解析基础模型组[6],并利用经验数据进行参数估计,形成代理模型的基本框架,确保代理模型的简洁、可信、可解释。
然后,采用数据驱动的思路,依托模拟仿真实验获取的分布广泛且可信度高的训练数据集,映射输入变量和输出变量之间关系,并采用多目标优化算法优化修正代理模型参数,通过数据的不断拟合修正,实现从低可信度的解析模型向高可信度代理模型的逐步过渡,最终得出较为可信的代理模型,并确保其与高可信度仿真模型的关联。

3.3 基于深度强化学习的作战能力协同寻优和需求解析方法

作战概念能力需求分析是遵循一定的OE,例如,结合现实装备情况,面向未来科技发展等,根据作战目的 G 不断寻找$\overrightarrow{C R C}$最优解,即$\overrightarrow{C R C}$的能力寻优过程,被视为典型的面向不完美信息博弈的策略分析与优化问题。由于战争复杂系统的不确定性、对抗性、涌现性日趋显著,不少研究人员采用适合处理马尔科夫决策过程的深度强化学习算法对此问题展开研究。
采用该方法的基本依据是:在不完美信息博弈中,每个智能体仅能观察到自身状态和有限的对手状态,每个智能体选择的行为策略将以可见状态映射到可选行动集合的概率分布上,最终体现为达成既定作战目的而对作战行动的选择上(合适的力量完成合适的任务)。这一过程可视为马尔科夫决策过程。
采用该方法的基本思路是:在博弈对抗[10]过程中,基于深度强化学习算法的智能体在与战场环境的持续交互中不断学习经验,不断更新深度神经网络,从而指导其连续行为选择。训练得到的深度神经网络,可理解为指挥员经验知识的非线性表达,是指挥决策思维过程的表征。
现阶段,该领域的研究主要包括:姚桐等人对深度强化学习框架应用在作战任务规划上的可能性进行了探讨[11]。吴昭欣等人研究了基于深度强化学习技术的智能仿真平台[12]。于博文等人研究了分层强化学习在联合作战仿真作战决策中的应用[13]。石鼎等人研究了海战环境下利用强化学习技术协作作战的方法[14]。刘忠团队研究了深度强化学习技术在智能博弈的应用[15]。但是,上述研究有的是从某一具体作战装备出发,仅研究具体装备运用,未能较好地考虑全局性和复杂性;有的是概念算法上的研究,未能有效地结合典型作战场景,模型可解释性弱,缺乏军事现实意义;更重要的是,在我军训练和作战数据有限的情况下,样本往往难以覆盖决策空间,学得的策略模型泛化能力和适用性不强。
综上,在基于深度强化学习的作战能力寻优方法中,亟须研究解决如下问题:
一是决策过程的高维状态—动作空间爆炸问题;二是作战任务目标难以转化为合理奖励函数的问题;三是无法提供即时和准确的反馈,导致作战行为面临奖励稀疏、反馈延迟和不准确等问题。
本文提出了一种深度强化学习框架与能力代理模型协同的策略优化方法,着力解决上述关键问题。
一是针对高维空间爆炸问题,采用深度神经网络重构高维输入向量,自适应地实现从高维数据到低维数据的转换,缩小搜索空间;利用分层强化学习,将宏观决策选择和微观具体动作选择相结合,缩小决策空间;采用异步分布式训练模式,加快策略搜索速度。
二是针对奖励函数设计问题,引入军事经验指导函数设计和最优策略搜索。将军事经验转化为一种评价指标,基于军事经验指标的奖励和惩罚进行学习型演进,对奖励函数结构进行优化演进。同时,由于军事经验数据的引入,还可以缓解训练起始阶段策略模型的冷启动问题,提升策略模型的学习效率和决策水平,如图5所示。
图5 奖励函数设计思路

Fig.5 Design idea of reward function

三是针对强化学习反馈稀疏、延迟和不准确等问题,发挥代理模型可推演、可控、计算量小、速度快等优势,采用代理模型与强化学习策略模型的交互学习机制,通过代理模型提供及时精确的反馈结果,最终将交互经验体现在策略模型中。
策略优化方法的详细介绍和实验验证分析参见文献[16]。其实验结果表明,该方法一是确保了军事经验的引入,二是将强化学习模型与对抗条件下的决策直接关联,三是确保通过学习策略达成回报最大化或实现特定目标,四是契合了作战人员的经验学习和决策思维方式。因此,分析结果具有更强说服力,学习结果具有更高置信度。

4 结束语

本文提出了一种基于深度强化学习的作战概念能力需求分析方法,并设计实现了方法中的关键技术。文献[17]采用该方法,对作战概念进行了能力需求分析实验,根据实验结果,采用文中关键技术对作战概念的能力需求进行分析,满足反向性、开放性、对抗性要求,同时通过构建代理模型破解了能力需求分析计算量大和仿真推演实施周期长的难题。
[1]
孙磊, 潘寒尽. 陆军航空兵作战概念设计与推演验证方法研究[J]. 陆军航空兵学院学报, 2019, 18(8):6-9.

SUN L, PAN H J. Research on the method of operational concept design and deduction verification of the army aviation[J]. Journal of the Army Aviation Academy, 2019, 18 (8): 6-9.

[2]
吴航海. 两栖登陆作战方案的规划与评估分析[D]. 南京: 南京理工大学, 2017.

WU H H. Planning and evaluation analysis of amphibious landing operation plan[D]. Nanjing: Nanjing University of Science and Technology, 2017.

[3]
罗鹏程, 周经伦, 金光. 武器装备体系作战效能与作战能力评估分析方法[M]. 北京: 国防工业出版社, 2014.

LUO P C, ZHOU J L, JIN G. Evaluation and analysis method of combat effectiveness and combat capability of weapon equipment system[M]. Beijing: National Defense Industry Press, 2014.

[4]
何喜军, 马珊, 武玉英, 等. 小样本下多维指标融合的电商产品销量预测[J]. 计算机工程与应用, 2019, 55(15):177-184.

DOI

HE X J, MA S, WU Y Y, et al. E-commerce product sales for cast with multi-dimensional index integration under small sample[J]. Computer Engineering and Applications, 2019, 55(15):177-184.

[5]
安靖, 刘伟, 顾泽宇, 等. 面向作战概念开发的能力需求分析方法综述[J]. 军事运筹与评估, 2022, 36(4): 75-80.

AN J, LIU W, GU Z Y, et al. An overview on capability requirement analysis methods oriented operational concept development[J]. Military Operations Research and Systems Engineering, 2022, 36(4): 75-80.

[6]
胡晓峰, 杨镜宇, 张明智. 战争复杂体系能力分析与评估研究[M]. 北京: 科学出版社, 2019.

HU X F, YANG J Y, ZHANG M Z. Research on capability analysis and evaluation of war complex system[M]. Beijing: Science Press, 2019.

[7]
KOCHENDERFER M J, WHEELER T A, WRAY K H. Algorithms for decision making[M]. Cambridge: The MIT Press,2022:5-6.

[8]
李斌, 刘苏洋, 李春洪, 等. 探索性仿真实验仿真想定空间筛选[J]. 火力与指挥控制, 2012, 37(S1):142-145,148.

LI B, LIU S Y, LI C H, et al. Screening the simulation scenario space in exploratory simulationexperiment[J]. Fire Control & Command Control, 2012, 37(S1):142-145,148.

[9]
An J, Zhang XC. Design and implementation of an intelligent generation method of simulation scenario based on knowledge graph[C]. Oxford, UK: Applied and Computational Engineering, 2023.ISSN:2755-2721.

[10]
田尧, 陈庆印. 基于博弈论的海外战略投送决策分析方法[J]. 军事交通学院学报, 2021, 23(4): 19-23.

TIAN Y, CHEN Q Y. Analysis method of overseas strategic projection decision based on game theory[J]. Journal of Academy of Military Transportation, 2021, 23(4): 19-23.

[11]
姚桐, 王越, 董岩, 等. 深度强化学习在作战任务规划中的应用[J]. 飞航导弹, 2020(4): 16-21.

YAO T, WANG Y, DONG Y, et al. Application of deep reinforcement learning in operational mission planning[J]. Aerodynamic Missile Journal, 2020(4): 16-21.

[12]
吴昭欣, 李辉, 王壮, 等. 基于深度强化学习的智能仿真平台设计[J]. 战术导弹技术, 2020(4): 193-200.

WU Z X, LI H, WANG Z, et al. The design of intelligence simulation platform based on DRL[J]. Tactical Missile Technology, 2020(4): 193-200.

[13]
于博文, 吕明, 张捷. 基于分层强化学习的联合作战仿真作战决策算法[J]. 火力与指挥控制, 2021, 46(10): 140-146.

YU B W, LYU M, ZHANG J. Joint operation simulation decision-making algorithm based on hierarchical reinforcement learning[J]. Fire Control & Command Control, 2021, 46(10): 140-146.

[14]
石鼎, 燕雪峰, 宫丽娜, 等. 强化学习驱动的海战场多智能体协作战仿真算法[J]. 系统仿真学报, 2023, 35(4): 786-796.

DOI

SHI D, YAN X F, GONG L N, et al. Multi-intelligent cooperative combat simulation algorithm for sea battlefield driven by enhanced learning[J]. Journal of System Simulation, 2023, 35(4): 786-796.

[15]
梁星星, 冯旸赫, 马扬, 等. 多Agent深度强化学习综述[J]. 自动化学报, 2020, 46(12): 2537-2557.

LIANG X X, FENG Y H, MA Y, et al. Deep multi-agent reinforcement learning: a survey[J]. Acta Automatica Sinica, 2020, 46(12): 2537-2557.

[16]
安靖, 司光亚, 张雷. 基于深度强化学习的立体投送策略优化方法研究[J]. 系统仿真学报, 2024, 36(1): 39-49.

DOI

An J, Si GY, Zhang L. Research on optimization method of stereoscopic delivery strategy based on deep reinforcement learning[J]. Journal of System Simulation, 2024, 36(1): 39-49.

[17]
安靖, 司光亚, 严江. 基于深度强化学习的作战概念能力需求分析[J]. 指挥控制与仿真, 2023, 45(5): 1-9.

DOI

An J, Si GY, Zhang L. Analysis of operational concept capability requirements based on deep reinforcement learning[J]. Command, control and simulation, 2023, 45(5): 1-9.

文章导航

/