在信息化高度发达的时代,空军的作战模式相较发生了有巨大变化
[1]。在无人飞行器领域,各国军方都高度重视无人机的发展,力图以最小的资源代价制造足够的军事威慑,降低作战成本,提升作战效果
[2]。同时,随着空军战机的不断发展和迭代,产生了诸多问题,需要对战机进行无人化改装。一方面,飞行员的训练成本不断提高,RAND的一项报告显示
[3],当前美国空军训练一名合格飞行员的成本在560万美元到超过一千万美元之间;另一方面,老旧机型的保养和处置需要更多开销。因此,战机的无人化智能化研究有重大现实价值。
在智能空战模型的算法研究方面,已有从基于博弈论的方法到基于优化理论的方法到机器学习方法的迭代与发展
[4]。
基于机器学习的方法包括神经网络和强化学习。其中,神经网络通过大量空战样本学习,鲁棒性高,但难以适用于经验知识作战场景,且精度较低。而强化学习算法可以实现实时决策和网络自主学习,可以适用于多智能体复杂对抗场景。
目前,针对智能空战模型训练的强化学习算法主要有DQN、DDPG等。DQN算法存在只适用于离散空间的问题,而DDPG算法复杂度高,难以收敛。本文采用Double DQN算法,创建自定义gym环境与DCS游戏交互,探索了与游戏交互的空战智能化模型训练途径,并产生了能够说明模型效果的案例;在奖励函数和动作空间的设置上,根据对现实空战的了解加以改进;在拓展性上,编写开发了针对DCS游戏的函数库,可支持进一步研究与开发。