1 任务分析
表1 勤务保障作业信息表 |
保障作业 | 需求的保障资源 | 标准保障时长/ min |
---|---|---|
mission_1 | Man | 6 |
mission_2 | Dev_1,Man | 10 |
mission_3 | Dev_2,Man | 20 |
mission_4 | Dev_3,Man | 8 |
mission_5 | Man | 18 |
mission_6 | Dev_4,Man | 18 |
mission_7 | Man | 10 |
mission_8 | Man | 5 |
mission_9 | Dev_5,Man | 25 |
mission_10 | Man | 20 |
mission_11 | Dev_6,Man | 15 |
mission_12 | Man | 16 |
mission_13 | Dev_7,Man | 5 |
mission_14 | Dev_8,Man | 9 |
mission_15 | Man | 8 |
2 基于MA-DDPG的勤务保障指挥调度算法
2.1 勤务保障指挥与调度MDP模型
2.2 指挥调度算法构建
面向多机并行勤务保障指挥调度的JMBZ-DDPG算法 |
---|
随机初始化JMBZ-DDPG算法的Actor网络参数、Actor target网络参数、Critic网络参数、Critic target网络参数 Num = 0 for episode =1 to M do 初始化配套仿真环境,新建决策调度任务 获取初始舰船甲板勤务保障态势x=(o1,···,oN) for t=1 to max-episode-length do 针对每架待保障飞机i绑定的Agent, 基于Actor网络选定目的地保障阵位 ai= |
执行联合决策动作a= ,利用仿真反馈生成当前决策步内的奖励r,并将 勤务仿真环境推进至新的勤务保障态势x' 存储 入经验回放池D 更新勤务保障态势x:x←x' for Agent i=1 to N do 随机采样S个 (xj,aj,rj,x'j) from D yj= +r 利用时间差分策略更新Critic网络参数: J≈ [( (xj, ,···,ai,···, )-yj)2] 利用确定性策略迭代策略更新Actor网络参数: J≈ μi Num = Num + 1 end for if Num ≥ 100 And Num % 20 = 0 利用Actor/Critic网络参数更新Actor/Critic target网络参数 θ'i←τθi+(1-τ)θ'i end if end for end for |
3 仿真实验
表2 阵位与资源的关联关系表 |
阵位 | 关联的保障资源列表 |
---|---|
阵位1 | 通用阵位,Man |
阵位2 | 通用阵位,Man |
阵位3 | 通用阵位,Man |
阵位4 | 通用阵位,Man |
阵位5 | 通用阵位,Man |
阵位6 | 通用阵位,Man |
阵位7 | Dev_3,Dev _4,Dev _5,Dev _6,Dev _7,Dev _8,Man |
阵位8 | Dev_3,Dev _4,Dev _5,Dev _6,Dev _7,Dev _8,Man |
阵位9 | Dev_1,Dev _2,Dev _3,Dev _4,Dev _5,Dev _6,Man |
阵位10 | Dev_1,Dev _2,Dev _3,Dev _4,Dev _5,Dev _6,Man |