1 问题定义与描述
1.1 基于通信的无人机自主行为决策模型
1.2 无人机行为空间
1.3 无人机集群通信方式
表1 Ad hoc网络中的主要路由协议 |
| 类型 | 延时 | 协议 | 连通性要求 |
|---|---|---|---|
| 先验式路 由协议 | 每个节点都进行周期性的路由分组广播,通过交换路由信息,维护一张到其他节点的路由信息表,网络延时相对较小 | 优化链路状态协议 (OLSR) 目的节点序列距离矢量协议 (DSDV) | 双向链路 单向链路/ 双向链路 |
| 反应式路 由协议 | 无须定期的路由分组广播,有通信业务时才查找路由,节省一定的通信开销的同时,机间通信延时较大 | 基于动态源路由协议 (DSR) 按需距离矢量路由协议 (AODV) | 双向链路 单向链路/ 双向链路 |
2 无人机策略模型训练方法
2.1 基于带宽约束的通信行为奖励机制
2.2 基于带宽约束和历史信息的模型训练方法
表2 无人机行为策略模型训练流程 |
| 基于带宽约束和历史信息的模型训练算法 | |
|---|---|
| 1 | For episode =1 to MaxEpisode do |
| 2 | 随机初始化无人机起始状态s=<s1,…,sn> |
| 3 | 隐藏层历史状态hμ、hQ初始化 |
| 4 | For t=1 to MaxStep do |
| 5 | 对于每个无人机i选择动作ai=μi(oi,m-i) |
| 6 | 无人机集群执行联合动作a=<a1,…,an> |
| 7 | 根据占用带宽的无人机数量计算Rcomm,i |
| 8 | 计算关于作战任务的奖励函数Rtask,i |
| 9 | R= Ri= (Rcomm,i+Rtask,i) |
| 10 | 得到奖励R和新的s'、h'μ、h'Q |
| 11 | s←s'、hμ←h'μ、hQ←h'Q |
| 12 | 将状态转移数据<s,a,s',R,h'μ,h'Q>存入经验池D |
| 13 | For无人机i=1 to n do |
| 14 | 从经验池随机抽取T个样本<sj,aj,sj',Rj> |
| 15 | yi= +γ (sj',a1,…,an) |
| 16 | 计算损失函数 |
| 17 | L( )= |
| 18 | 基于损失函数L( )梯度下降更新 |
| 19 | 基于策略梯度∇J(μi)更新 |
| 20 | End For |
| 21 | 更新Target网络参数 |
| 22 | End For |
| 23 | End For |
3 仿真实验
3.1 实验案例
表3 无人机行为奖励计算方式 |
| 行为 | 目的 | 描述 | 计算方式 |
|---|---|---|---|
| 通信 行为 | 无 | 单位时间步内发送自身感知信息oi | 见公式(2) |
| 运动 行为 | 向攻击 目标运动 | 减少航向角φi与最近敌机j的方位角εj差距 | kφ ,kφ<0 |
| 协同 攻击 | 以数量优势进行协同攻击 | ,ktask>0 |
3.2 实验设置
表4 实验相关参数设定 |
| 参数 | 中文名称 | 描述 | 值 |
|---|---|---|---|
| γ | 折扣因子 | 累计回报计算参数 | 0.9 |
| ΔT | 仿真时 间步长 | 决策周期,每个时间步所占时间 | 0.1 |
| Batch-Size | 批样本数 | 每次从经验池取出用于批学习的样本数目 | 64 |
| MaxEpisode | 训练回合数 | 训练回合数目 | 12 000 |
| MaxStep | 单回合最大 时间步 | 每回合最多仿真的时间步数 | 3 000 000 |
| αμ | R-Actor 网络学习率 | R-Actor网络参数更新的相关参数 | 0.001 |
| αQ | R-Critic 网络学习率 | R-Critic网络参数更新的相关参数 | 0.002 |
中国指挥与控制学会会刊 