中国科技核心期刊      中国指挥与控制学会会刊     军事装备类重点期刊
Equipment Technology

Capability requirement analysis for operational concept based on deep reinforcement learning

  • AN Jing 1, 2, 3 ,
  • SI Guangya 3 ,
  • YAN Jiang 2
Expand
  • 1 Graduate School, National Defense University, Beijing 100091, China
  • 2 Joint Logistics College, National Defense University,Beijing 100858, China
  • 3 Joint Operations College, National Defense University, Beijing 100091, China

Received date: 2022-11-11

  Revised date: 2022-11-28

  Online published: 2023-10-13

Abstract

Capability requirement analysis is the key stage of operational concept development. Based on the formal description of the operational concept capability requirement analysis, a method of operational concept capability requirement analysis based on DRL(deep reinforcement learning) is designed from the perspective of qualitative and quantitative combination. In this method, small sample data sets with high reliability can be obtained through simulation experiments. Based on the experience data, the surrogate model of operation concept is constructed, and the model is optimized and trained by using multi-objective optimization algorithm with the high credibility simulation data set as the input. Finally, the agent model obtained from the training and the DRL framework are interactively optimized to achieve the reverse exploration of the operational concept capability requirements. The experiment results show that the method is feasible.

Cite this article

AN Jing , SI Guangya , YAN Jiang . Capability requirement analysis for operational concept based on deep reinforcement learning[J]. Command Control and Simulation, 2023 , 45(5) : 1 -9 . DOI: 10.3969/j.issn.1673-3819.2023.05.001

作为作战概念开发的核心环节,科学合理分析并确定作战概念的能力需求不是一个简单的逻辑思辨过程,而是一项开创性的复杂系统工程[1]。作战概念的能力需求分析与作战方案、作战行动等能力分析相比,其分析方法应满足以下要求:1)在分析目标上应具有反向性,即不仅要通过数据分析得出优劣可否的分析结论,更要基于结果,探索能力生成的机理、规律和趋势,反向挖掘关键能力指标,确定其最优组合;2)在分析条件上应更具开放性,作战概念的提出往往面向未来,分析的输入条件更加开放,变化更加多样,取值范围更加不确定;3)在分析过程中应更具对抗性,作战概念的提出是为解决某一作战问题,对作战能力需求进行分析必须考虑对抗的方式和强度、己方部队的相互作用情况以及敌方部队适应性的行动调整等大量具有对抗性的不确定性因素影响。
而现有的分析方法难以满足上述反向性、开放性和对抗性要求,很难全面完整分析描述作战概念的能力需求。文献[2-3]分别以某航母编队反舰作战为例分析了作战能力需求,但研究对象是随机选取的,因此该方法并不具有普适性。陈英武等[4]基于多视图分析方法,对作战活动进行分解,进而通过元活动实现从使命任务到能力需求的映射,但只是针对装备体系的能力需求,并未对体系作战能力需求进行描述。于同刚等[5]构建了较完整的任务体系、能力体系、装备体系的作战能力需求,但没有给出各体系之间的映射关系。胥秀峰等[6]提出了一种基于指挥员视角的作战能力需求建模方法,该方法易于理解,但具有较强的主观性。综上,在作战概念开发过程中,亟需一种科学合理、广泛适用、体系完整的能力需求分析方法。

1 面向作战概念开发的能力需求分析问题描述

1.1 作战概念定义

“作战概念”一词源自美军“CONCEPT”。在美2007版《军语》中,将作战概念定义为“战略指导与未来联合部队能力运用之间的纽带,是转型的发动机,并最终在条令、组织编制、训练、装备、领导和教育、人员、设施和政策等一系列武装力量建设领域带来变革”。
目前,我《军语》中尚无“作战概念”词条,对作战概念缺乏统一权威的定义。常被引用的定义包括:1)从装备建设发展的角度出发进行的定义,陈士涛在其专著[7]中将作战概念定义为“指挥人员对概念装备执行典型作战任务时,对其作战对抗使用细节构想及典型能力指标期望的一种描述”;2)基于战争设计进行的定义,韩恩权等在文献[8]中将作战概念定义为“研判未来战争之变和探索制胜机理,分层次、分类别提出并验证未来作战图景、对抗内容、形式、任务、作战能力和特征的理想描述过程”。
随着核心作战概念的确立以及军事理论体系的不断完善,我们从解决作战问题,提升作战能力的角度对作战概念进行定义。
定义1 作战概念。其是在未来特定时空条件下,针对某一作战问题,通过判断既定的作战构想和意图,研究作战条件、作战对手等作战要素的本质规律,抽象概括提出的作战问题解决方案。
依据上述定义,作战概念包含下列三类要素。
1)作战问题描述,即在未来特定时空条件下,对作战概念的作战背景、作战目的、作战任务、作战环境、作战对手、时间设定、冲突想定等的描述。
2)作战问题解决,即针对某一具体作战问题的解决方案,包括作战概念的指导思想、作战原则、作战力量、作战活动、行动构想等。
3)作战能力需求,即解决特定作战问题需要的能力要求。作战能力需求多样,通常可以从侦察情报、指挥控制、联合打击、综合防护、机动投送、信息保障、综合保障等多角度进行分析[9],每个角度又可以包含具体的能力。

1.2 作战能力需求

作战能力需求作为作战概念的三大要素之一,定义如下。
定义2 作战能力需求。它是面向未来,支持作战概念落地应用需要的各种作战能力。将其描述为如下形式:
A R = A R 1 , A R 2 , , A R n
其中, A R n = a n 1 , , a n m 代表侦察情报、指挥控制、联合打击、综合防护、机动投送、信息保障、综合保障等能力, a n m = i n d e x n m , v a l u e n m , c o n n n m , g a p n m表示该类能力下的子能力,每个能力由四个关键要素组成:1)能力指标indexnm,即支撑作战概念所需的关键能力;2)能力指标阈值valuenm,即关键能力指标需达到的要求;3)能力依赖关系connnm,即各能力之间的相互关系;4)能力差距gapnm,即当前能力和需求能力的差距分析。

1.3 面向作战概念开发的能力需求分析

在作战概念开发过程中,需要“提出作战问题,设计解决方案,确定作战能力需求”。因此,本文给出“面向作战概念开发的能力需求分析”的定义如下。
定义3 面向作战概念开发的能力需求分析。它是在作战概念开发的研究设计阶段,分析明确支撑作战目的达成的作战能力需求的过程。该过程可描述为:
设作战目的为 G = g 1 , g 2 , , g n (gi|in代表分解的目的),作战能力需求为 A R ={ A R 1 , A R 2 ,…, A R m }。
令作战目的与作战能力需求之间的映射关系为 G =F A R ,则面向作战概念开发的能力需求分析就是根据作战目的 G 不断寻找 A R 最优解,即 A R 的能力寻优过程。

2 基于深度强化学习的作战概念能力需求分析方法

本文通过引入体系建模、数据生成、机器学习等关键技术,设计面向作战概念开发的能力需求分析方法框架,支撑面向作战概念开发的能力需求分析。

2.1 分析框架

框架如图1所示,主要包含以下几个部分:
图1 能力需求分析方法框架

Fig.1 The method framework of operational concept capability requirement analysis

1)想定准备环
其为仿真实验提供战场环境、作战实体、实体关系等想定数据支撑。
2)作战概念模型环
其通过构建以能力需求为核心的作战概念体系结构模型并进行形式化描述,把作战问题框架化、结构化、清晰化,再以其为牵引,指导“想定提炼环”和“仿真实验环”。
3)想定提炼环
在“想定准备环”的支撑下,在“作战概念模型环”的指导下,针对研究的具体问题,对想定数据做进一步分析、裁剪、调整和优化,使想定空间更为贴切实验目标,更加聚焦实验问题。
4)仿真实验环
其基于“想定提炼环”生成的想定空间实施仿真实验,生成相应的仿真结果和过程数据,供后续分析使用。
5)多源作战数据提取环
它衔接了“仿真实验环”与“学习训练和能力需求分析环”。在“仿真实验环”获得的实验过程和结果数据基础上,进行数据映射和增强,形成具有高维特征的高可信度的训练数据集。
6)学习训练和能力需求分析环
作为本方法的核心,该环基于经典的解析模型和高可信度训练数据集,训练出简洁准确的能力代理模型,并将代理模型与深度强化学习框架进行交互学习、策略寻优,挖掘与战争整体目标相关且影响作战能力发挥的关键能力需求和有助于决策的知识,实现能力需求的分析和优化。
7)聚焦实验环
其控制整体运行,按需调整实验过程,实现逐步聚焦,螺旋逼近。

2.2 分析流程

基于上述方法框架进行能力需求分析的基本流程如图2所示,主要包括两个阶段10个步骤,通过逐步细化与量化模型,实现从定性到定量再到定性的能力需求展示、分析和追溯。
图2 能力分析方法流程

Fig.2 Process of capability analysis method

1)阶段一:从定性分析到定量近似
数据分析需要利用人的经验和洞察力来提出假设,因此,该阶段以作战概念的定性分析为起点,在研究定性关系的基础上,从定性到定量近似,将定性转为定量关系模型,支撑后续分析。
首先,依托“作战概念模型环”,基于定性分析对作战概念进行体系建模及形式化描述。该模型不仅包含作战概念体系的人员、装备和行动,还能够通过一定的行动、交互体现其与作战环境、作战对手等的影响和对抗。
第二,基于结构化、形式化的作战概念模型,构建作战概念的能力指标体系,重点描述能力指标的交互关系,为后续构建能力需求分析的解析模型奠定基础。
第三,依托“想定准备环”和“想定提炼环”,基于作战概念体系模型,围绕定量分析需要,从想定、手段、探索空间等方面设计探索性仿真实验方案。包括开发仿真实验想定,构建或选择仿真模型、仿真系统,形成聚焦实验目标的实验想定空间,即一定数目的具有代表性的想定参数取值组合样本。
2)阶段二:从定量计算到定性分析
在该阶段,首先依托人在回路或人不在回路的仿真实验系统运行“仿真实验环”,根据仿真实验方案,人工或自动更改实验想定空间中的实体性能、数量以及体系结构、对抗行动等多种变量参数,分别运行仿真,采集实验产生的过程数据和仿真结果。
第二,依托“多源作战数据提取环”,按照能力分析的指标体系,解析仿真实验阶段采集到的各类原始数据,建立指标体系与仿真数据的映射关系,并辅以数据生成、数据融合等方法,形成可用于分析研究、模型训练的高可信度且具有一定规模的训练数据集。
第三,依托“学习训练和能力需求分析环”,基于定性关系的指标体系和定量关系的训练数据集,构建解析与仿真相结合的能力需求分析代理模型,并对模型进行训练优化。
最后,将训练得到的能力需求分析代理模型与深度强化学习寻优模型进行交互,完成能力需求的分析和解释,正向、逆向输出分析作战概念能力需求和能力生成机理,同时根据分析情况判断是否需要启动聚焦实验环,调整想定空间或更新修正模型。

2.3 关键技术分析

依据上述方法框架,设计并实现如下关键技术。

2.3.1 基于仿真实验的高可信度训练数据集生成

在“作战概念模型环”的指导下,基于“想定提炼环”生成的想定空间,依托“仿真实验环”实施实验,并通过“多源作战数据提取环”形成具有高可信度和一定规模的训练数据集,支撑代理模型的构建和训练。该部分的难点在于,确保实验实施的可行性和实验结果的可信度,数据集生成流程如图3所示。
图3 高可信度训练数据集生成方法流程图

Fig.3 Flowchart of the high-confidence training data set generation method

关键步骤包括:1)仿真想定的生成,充分考虑对体系作战能力产生影响的各种不确定性因素,尤其要准确描述对抗空间,包括对抗双方的属性特征、动态交互以及对抗特性,同时,还要考虑仿真想定的迁移重用。2)实验想定数据的准备,实现仿真想定到实验想定数据的映射,更好地适应不同的仿真平台。3)想定样本空间的生成,聚焦作战能力需求分析这一仿真实验目的,兼顾仿真实验的可行和高效,选择合理科学的实验设计方法,充分考察多种想定背景下的实验因素和因素水平,确保实验结果数据的有效和规模。4)仿真实验实施的控制,利用仿真实验的运行控制策略不断筛选、调整和修正实验方案,提高仿真实验效率,保证仿真结果。

2.3.2 解析与仿真相结合的能力需求分析代理模型构建

机器学习模型可以分为参数模型和非参数模型。参数模型可解释性强,但构建比较困难,非参数模型泛化性好,但可信度低。本方法聚焦作战概念能力需求分析的需要,兼顾参数模型和非参数模型的优点,基于传统军事理论的解析模型和高可信度仿真模拟训练数据集构建能力代理模型。基本思路如图4所示。
图4 代理模型构建的基本思路

Fig.4 Basic idea of surrogate model construction

首先,依托军事经验提出假设,构建粗略的解析基础模型组,并利用经验数据进行参数估计,形成代理模型的基本框架,确保代理模型简洁、可信、可解释。
然后,依托模拟仿真实验获取的高可信度训练数据集,映射输入变量和输出变量之间关系,并采用多目标优化算法优化修正代理模型参数,确保代理模型的精准以及其与高精度模型的关联。

2.3.3 基于深度强化学习的能力需求寻优

采用博弈策略的评价机制和学习型策略演进机制,构建基于Asynchronous Advantage Actor-Critic(A3C)算法的深度强化学习[10]框架,依托分布式计算环境进行训练,通过深度强化学习模型与代理模型的分布式交互,实现能力需求的自主进化与提升,最终得出全局近似最优的能力组合策略。模型训练的仿真实验环境如图5所示,主要包括三部分。
图5 能力需求寻优的基本思路

Fig.5 Basic idea of capability requirement optimization

1)可视化的代理模型仿真推演环境。它主要依托代理模型的可视化推演环境,采用“人不在回路”的模式,仿真实体按照预设好的作战条令和想定运行脚本实施推演。
2)深度强化学习环境。它基于PyTorch框架实现,用于智能体决策的学习和实施。
3)进行交互的数据接口。仿真实验环境和深度强化学习环境,在每一个时间步中通过该数据接口,以离线方式进行交互。

3 实例:“超越式登陆”作战概念能力需求分析

本文以“超越式登陆”作战概念为例,基于上述方法展开能力需求分析。由于篇幅受限,重点描述代理模型的构建,以及代理模型与强化学习框架进行交互的能力寻优过程。

3.1 作战行动构想

3.1.1 作战目的

作战行动中,红方的作战目的是尽快利用火力压制蓝方,并综合利用平面、空中、超越等多种投送方式将兵力投送至蓝方陆地。整个过程中追求战损尽可能小,投送成功率尽可能高,同时上陆兵力能够在一定时间内完成固守任务。

3.1.2 红方兵力

红方兵力可大致分为作战平台、支援平台、投送平台以及投送兵力四大类。作战平台主要负责直接毁伤对方有生力量。支援平台主要包括陆基电磁、空基电磁和海基清障三大类。投送平台主要包括多种可执行登陆作战的装备平台,如两栖登陆舰、气垫艇、运输直升机、固定翼运输机等,可以用于投送上陆力量。投送兵力主要包括重装、轻装等被投送上陆部队。

3.1.3 蓝方兵力

蓝方兵力与红方大致相同,但由于其主要任务为拒止和反登陆作战,因此作战力量中,一是没有舰艇部队,但是在重点港口处部署了大量的海基障碍,如水雷和其他登陆障碍物。二是没有投送力量,但是在陆地上部署了大量机动部队,如步兵、自行火炮、坦克、机动防空阵地等,主要负责对抗红方上陆部队。

3.2 训练数据集的生成

本实例重点聚焦投送方式、投送时序、投送能力等投送策略研究,通过仿真预实验进行敏感性分析,筛选关键实验因素,生成仿真想定状态空间,再展开批量仿真实验,获取训练数据集。
预实验共设计基准想定1个,实验想定17个,基于仿真推演系统CMO,采用“人不在回路”的推演模式,运行540次仿真推演,获取23 400条数据样本。
基于Pythorch深度学习环境构建三层全连接神经网络,以仿真预实验的数据样本为训练数据集,采用SDG(随机梯度下降)优化器、MSELoss(均方误差)损失函数,按照学习率lr=0.01,Epochs=500,Batchsize=8训练元模型,训练过程收敛曲线如图6所示。
图6 模型收敛曲线

Fig.6 Convergence curves

通过模型特征的输出,选取关键实验因素,并对实验因素水平进行离散化设置,形成仿真想定空间,实施仿真推演,对数据集进行采集和预处理,得到高可信度的仿真训练数据集(实验过程及结果略)。

3.3 代理模型的构建

3.3.1 待优化模型参数的选定和设置

依据作战行动构想,按照作战平台、投送平台、投送兵力、支援平台分别建立解析模型(模型略),选定76个待优化模型参数如表1所示。
表1 代理模型的待优化参数

Tab.1 parameters to be optimized

平台名称 待定参数 序号 初始参
数值(略)
…… …… …… ……
某型运输
直升机
对地导弹基础命中率,基础闪避率对地导弹伤害值 5-7 ……
某型两栖
登陆舰
舰炮伤害值,舰炮基础命中率,对空导弹基础命中率,生命值基础闪避率 8-12 ……
…… …… …… ……
总计 76
依托自主研发的“代理模型可视化平台”,实现解析模型的可视化和参数设置。平台基本架构和参数设置界面如图7图8所示。
图7 代理模型可视化平台基本架构

Fig.7 The basic structure of system

图8 平台参数设置界面

Fig.8 Parameters setting

3.3.2 基于NSGA-Ⅱ算法的模型参数优化

基于NSGA-Ⅱ算法(带精英策略的非支配排序遗传算法)进行参数优化,如表2所示,算法资料可参阅文献[11-12]。
表2 优化算法参数设置

Tab.2 parameters setting

序号 参数
1 仿真时间序列T 6 h
2 离散时间步n 6,12,24,36,48,60
3 初始种群规模 200
4 最大进化代数 1000
5 交叉概率 0.9
6 变异概率 0.03
按照表2设置优化算法的参数,分别构建不同离散时间步的目标函数,调用优化算法,完成参数优化。其中,高可信度仿真实验数据集接入3.2节生成的实验数据集,误差计算采用红蓝对抗双方的战损误差,计算方法如下:
k时刻红方战损误差记为
ErrL_r_k= i = 1 xαi*(Lr_o_k_i-Lr_s_k_i)2
k时刻蓝方战损误差记为
ErrL_b_k= i = 1 xαi*(Lb_o_k_i-Lb_s_k_i)2
红方战损误差总和为
ErrL_r= k = 1 nErrL_r_k
蓝方战损误差总和为
ErrL_b= k = 1 nErrL_b_k

3.3.3 模型参数的确定

优化得到Pareto前沿解集如图9所示,横轴代表红方平均每离散步的累计误差值,纵轴代表蓝方平均每离散步的累计误差值,不同颜色的线代表不同的离散时间步。由于n≥36以后获得的Pareto前沿已经相差较小,因此,选择n=36的Pareto最优解集作为后续优化的基准。
图9 Pareto最优解集

Fig.9 Optimal solution set

n=36的Pareto前沿上选择ABC三个有代表性的点,如图10所示。其中,A点倾向于减少红方误差,C点倾向于减少蓝方误差,B点兼顾红蓝双方误差。三个点对应的Pareto最优解如表3所示。
图10 n=36的Pareto前沿解集上的选点

Fig.10 Point selection on n=36

表3 待定参数的3组Pareto最优解

Tab.3 Optimal solution

编号 (1-76)取值
A [0.542 0.272 0.715 0.328 0.051 0.677 0.611……0.323 0.806 0.601 0.796 0.908]
B [0.542 0.312 0.678 0.329 0.054 0.716 0.631……0.84 0.601 0.797 0.908]
C [0.543 0.272 0.716 0.308 0.051 0.714 0.651……0.773 0.601 0.816 0.942]
再将表3中3组参数值代入代理模型,进行基准想定的推演。代理模型和仿真实验数据集在每个时间步上获得的战损值如图11所示(图中结果数据取自50次结果的平均值)。
图11 推演结果对比图

Fig.11 Contrast of simulation results

图11中可以看出,基于3组待优化参数值的代理模型推演,与高可信度仿真实验结果数据的吻合度均较高。考虑参数B能够兼顾红蓝双方的战损误差,因此后续的代理模型中将全部采用B组作为代理模型参数值,即 P a v a l u e ={0.542,0.312,0.678,0.329,…,0.84,0.601,0.797,0.908} 。

3.4 能力寻优与分析

将上节构建的代理模型和深度强化学习框架[13-14]进行交互学习,实现作战能力寻优。

3.4.1 深度强化学习框架

采用无模型off-policy、Multi-step Learning的A3C方法构建深度强化学习框架,利用两组神经网络Critic网络和Actor网络来评估价值函数和策略函数,两组神经网络分别进行离线训练。如图12所示。
图12 Critical-Actor网络结构

Fig.12 Critical-Actor network structure

3.4.2 交互学习的模型训练流程

采用A3C算法进行异步分布式训练,可以提高训练速度。每一个运行于张量进程中的学习模型实例对应10个Critic-Actor网络,每个Critic-Actor网络都驱动一个独立的代理模型,总共并行运行了100个仿真模型,每个仿真模型均使用30倍模拟加速,运行完整的6 h模拟作战时间大约需要0.2 h的现实时间。
在每一个时间步上,强化学习框架给出的指令加载至代理模型上,通过代理模型给出计算结果。学习过程在72个时间步上重复进行,学习率设为0.001,折扣率设为0.95. batch size设为256。

3.4.3 训练结果分析

按照上述方法进行交互学习训练,学习次数和所获奖励值的变化趋势如图13所示。
图13 平均奖励值随训练轮数的变化

Fig.13 Average reward value

可以看出,在800轮训练(运行仿真模型80 000个,现实时间约40 h)后,模型逐渐收敛。分析可知,在初始学习阶段,即前200轮训练时,是按照预定的初始化策略去探索策略空间,采取的策略较为低效[15],例如投送平台可能会直接冲入敌方防空火力网中被击毁,因此,获取的奖励分数也较低。但很快模型就会寻找到较为高效的策略,平均奖励也逐渐走高,至800轮训练后逐渐收敛。

3.4.4 优化策略对比分析

利用最终优化后的策略再次运行仿真推演,获得每个时间步内累计奖励值的曲线如图14所示。
图14 每个时间步内累计奖励值变化

Fig.14 Cumulative reward value in one time step

对优化得到的模型进行分析,可以得到作战概念中装备类型、数量、作战应用策略组合等,通过定性描述,得到作战概念的能力需求(略)。

4 结束语

本文提出了一种基于深度强化学习的作战概念能力需求分析方法,并选取实例进行验证。实验结果表明,该方法能够支持作战概念的能力寻优,满足反向性、开放性、对抗性要求,同时通过构建代理模型破解了能力需求分析计算量大和仿真推演实施周期长的难题。
[1]
刘德胜, 王吉星, 马宝林. 美军联合作战实验回顾性分析[J]. 火力与指挥控制, 2021, 46(7): 1-5.

LIU D S, WANG J X, MA B L. Retrospective analysis of US joint warfighting experiment of US army[J]. Fire Control & Command Control, 2021, 46(7): 1-5.

[2]
齐小刚, 刘学星, 张博孜, 等. 基于结构方程模型的武器装备体系涌现性度量模型[J]. 兵工学报, 2020, 41(2): 406-416.

DOI

QI X G, LIU X X, ZHANG B Z, et al. Emergence measurement model of armament systems based on SEM[J]. Acta Armamentarii, 2020, 41(2): 406-416.

DOI

[3]
刚建勋, 袁红斌, 于鸿源. 航母编队基于作战任务的能力需求分析研究[J]. 指挥与控制学报, 2019, 5(2):121-127.

GANG J X, YUAN H B, YU H Y. Capability requirement analysis of aircraft formation based on operational mission[J]. Journal of Command and Control, 2019, 5(2): 121-127.

[4]
陈英武, 豆亚杰, 程贲, 等. 基于作战活动分解的武器装备体系能力需求生成研究[J]. 系统工程理论与实践, 2011, 31(S1): 154-163.

CHEN Y W, DOU Y J, CHENG B, et al. Research on capability requirement generation of weapon system-of-systems based on operational activity decomposition[J]. Systems Engineering-Theory & Practice, 2011, 31(S1): 154-163.

[5]
于同刚, 孙志明, 张晓康, 等. 基于联合作战能力的装备体系需求生成过程研究[J]. 军械工程学院学报, 2009, 21(3):10-13.

YU T G, SUN Z M, ZHANG X K, et al. Process of requirements generation of equipment SoS based on ability of joint warfare[J]. Journal of Ordnance Engineering College, 2009, 21(3): 10-13.

[6]
胥秀峰, 司光亚, 王艳正. 基于OPM的军事行动概念模型框架[J]. 指挥控制与仿真, 2020, 42(6): 1-8.

DOI

XU X F, SI G Y, WANG Y Z. Conceptual model framework of military operation based on OPM[J]. Command Control & Simulation, 2020, 42(6): 1-8.

[7]
陈士涛, 孙鹏, 李大喜. 新型作战概念剖析[M]. 西安: 西安电子科技大学出版社, 2019.

CHEN S T, SUN P, LI D X. Analysis of new operational concept[M]. Xi’an: Xidian University Press, 2019.

[8]
韩恩权, 郭喻. 基于战争设计思想的海军作战概念创新[J]. 海军军事学术, 2018(3):30-33.

HAN E Q, GUO Y. Concept innovation of naval operations based on war design thought[J] Naval Military Academic, 2018(3):30-33.

[9]
张子伟, 李亮, 董志明, 等. 作战概念牵引的作战效能仿真评估指标构建方法研究[J]. 系统仿真学报, 2022, 34(3):603-613.

DOI

ZHANG Z W, LI L, DONG Z M, et al. Research on the construction method of simulation evaluation index of operation effectiveness operation concept traction[J]. Journal of System Simulation, 2022, 34(3): 603-613.

DOI

[10]
LILLICRAP T P, HUNT J J, PRITZEL A, et al. Continuous control with deep reinforcement learning[EB/OL]. 2015: arXiv: 1509. 02971. https://arxiv.org/abs/1509.02971.

[11]
SCHULMAN J, WOLSKI F, DHARIWAL P, et al. Proximal policy optimization algorithms[EB/OL]. 2017: arXiv: 1707. 06347. https://arxiv.org/abs/1707.06347.

[12]
MNIH V, BADIA A P, MIRZA M, et al. Asynchronous methods for deep reinforcement learning[C]// Proceedings of the 33rd International Conference on International Conference on Machine Learning - Volume 48. 2016: 1928-1937.

[13]
曹雷. 基于深度强化学习的智能博弈对抗关键技术[J]. 指挥信息系统与技术, 2019, 10(5): 1-7.

CAO L. Key technologies of intelligent game confrontation based on deep reinforcement learning[J]. Command Information System and Technology, 2019, 10(5): 1-7.

[14]
孙彧, 李清伟, 徐志雄, 等. 基于多智能体深度强化学习的空战博弈对抗策略训练模型[J]. 指挥信息系统与技术, 2021, 12(2): 16-20.

SUN Y, LI Q W, XU Z X, et al. Game confrontation strategy training model for air combat based on multi-agent deep reinforcement learning[J]. Command Information System and Technology, 2021, 12(2): 16-20.

[15]
何兆一, 刘海颖, 黄魁华, 等. 面向联合全域作战的海上无人集群协同防御行动策略设计[J]. 指挥与控制学报, 2022, 8(1): 44-49.

HE Z Y, LIU H Y, HUANG K H, et al. Strategy design of maritime unmanned cluster cooperative defense for joint all-domain operations[J]. Journal of Command and Control, 2022, 8(1): 44-49.

Outlines

/