1 知识-数据双驱动博弈决策框架
1.1 场景设计
1.1.1 场景概述
1.1.2 力量构成
1.1.3 胜负判定
1.2 知识-数据双驱动博弈决策框架
2 基于强化学习的智能博弈算法
2.1 马尔可夫决策过程
表1 智能体的动作空间统计表Tab.1 The agent’s action space statistics table |
| 智能体 | 动作空间 |
|---|---|
| 侦察搜寻 智能体 | 1.决策中型固定翼无人机的巡航时间和路径; 2.分析蓝方雷达开关机规律并计算雷达的方位; 3.决策小型旋翼无人机进行抵近侦察和撤退的时间及路径; 4.分析蓝方中枢周边地形、兵力分布情况和蓝方首脑可能的撤退路径。 |
| 隐蔽突防 智能体 | 1.决策武装直升机和侦察直升机的出动时机及飞行路线; 2.根据雷达开关机规律预判悬停时间; 3.决策突防目的地,即选择的攻击阵位。 |
| 阵位攻击 智能体 | 1.决策攻击直升机的目标和弹种,根据阵位上的实体类型和状态以及任务,灵活分配打击目标、先后顺序和弹种选择; 2.决策侦察直升机的机动路线,根据整个场景态势,预判蓝方首脑逃跑方式和路线,机动到合适的位置监视打击。 |
表2 智能体奖励函数统计表Tab.2 The agent’s reward function statistics table |
| 智能体 | 奖励函数 |
|---|---|
| 侦察搜寻 智能体 | 通过30分钟内中型无人机侦察到的蓝方雷达开关机规律、蓝方雷达车方位的准确度、小型无人机的自身损失数量、侦察到的蓝方部署信息量来衡量。 |
| 隐蔽突防 智能体 | 通过在任务过程中红方直升机被蓝方雷达侦察到的数量和时间来衡量,发现数量越少、发现时间越晚,奖励值越高。 |
| 阵位攻击 智能体 | 通过消灭蓝方力量的类型、数量、自身战损数以及夺占关键设施三个指标来衡量。 |
2.2 智能博弈算法损失函数
2.3 智能博弈算法网络结构
2.4 智能博弈算法训练机制
3 效能评估
表3 红蓝博弈红方裁决结果统计表Tab.3 Statistical table of the red and blue game and the red side of the ruling |
| 对抗情况 | 结果统计 | |||
|---|---|---|---|---|
| 优胜 | 次胜 | 微胜 | 失败 | |
| 红方规则蓝方规则 | 89 | 12 | 83 | 16 |
| 红方强化蓝方规则 | 107 | 19 | 56 | 18 |
表4 红蓝博弈战损统计结果表Tab.4 Red-blue game damage statistics table |
| 红方 | 蓝方 | 红方直升机单 局平均阵亡数 | 红方直升机单 局平均耗弹量 | 红方直升机单局 平均存活时长 | 蓝方单局平均 阵亡数 | 蓝方防空车单 局平均耗弹量 | 蓝方单局平 均存活时长 |
|---|---|---|---|---|---|---|---|
| 规则智能体 | 规则智能体 | 8.95 | 11.79 | 4 178 s | 6.255 | 20.112 | 4 989 s |
| 强化智能体 | 规则智能体 | 8.127 | 17.35 | 4 259 s | 6.84 | 25.84 | 4 921 s |
图5 红方直升机装备战损数量的平均结果Fig.5 The average result of the number of battle damages of the red side’s helicopters |
表5 不同规则下的智能红蓝博弈指标结果Tab.5 The results of intelligent red-blue game indicators under different rules |
| 效能指标 | 红方规则 蓝方规则 | 红方强化 蓝方规则 |
|---|---|---|
| 任务完成率 | 50.5% | 63% |
| 红方存活率 | 3.27% | 13.57% |
| 红方存活时长 | 4 279 s | 4 358 s |
| 红方耗弹量 | 11.21 | 18.73 |
| 蓝方装备存活率 | 43.59% | 40.57% |
| 蓝方装备存活时长 | 4 875 s | 4 802 s |
| 蓝方首脑存活时长 | 4 349 s | 4 289 s |
表6 效能指标权重Tab.6 Weight of performance indicators |
| 作战指标 | 指标权重 |
|---|---|
| 红方存活率 | 0.2 |
| 红方存活时长 | 0.2 |
| 红方耗弹量 | 0.15 |
| 蓝方存活率 | 0.1 |
| 蓝方存活时长 | 0.15 |
| 蓝方首脑存活时长 | 0.2 |
中国指挥与控制学会会刊 