中国科技核心期刊      中国指挥与控制学会会刊     军事装备类重点期刊
理论研究

基于强化学习的多目标点航关联方法

  • 丁国胜 ,
  • 蔡民杰
展开
  • 南京电子技术研究所, 江苏 南京 210039

作者简介: 丁国胜(1982—),男,硕士,研究方向为信息融合。

蔡民杰(1989—),男,硕士。

Copy editor: 张培培

收稿日期: 2021-11-18

  要求修回日期: 2021-12-29

  网络出版日期: 2022-04-28

版权

版权所有,未经授权,不得转载、摘编本刊文章,不得使用本刊的版式设计。

Multi-target Point-Track Association Method Based on Reinforcement Learning

  • DING Guo-sheng ,
  • CAI Min-jie
Expand
  • Nanjing Research Institute of Electronics Technology,Nanjing 210039,China

Received date: 2021-11-18

  Request revised date: 2021-12-29

  Online published: 2022-04-28

Copyright

Copyright reserved © 2022

摘要

针对密集杂波环境下的多目标点迹-航迹关联问题,以强化学习(Reinforcement Learning, RL)方法为基础,提出了一种基于Q学习的多目标点迹-航迹关联方法。首先,根据整个过程中目标的运动状态,建立马尔可夫决策过程(Markov Decision Process, MDP)模型。其次,利用各状态间的相关程度构成策略函数,选择准确的动作,并设定相应的奖励函数。最后,考虑杂波密集时虚假量测难以分辨,结合目标先验信息,增加了Q表再学习环节,进一步优化关联精度。仿真结果表明,在非机动和强机动两种环境下,该方法都能准确地关联到目标的量测,具有较好的点迹-航迹关联性能。

本文引用格式

丁国胜 , 蔡民杰 . 基于强化学习的多目标点航关联方法[J]. 指挥控制与仿真, 2022 , 44(2) : 43 -48 . DOI: 10.3969/j.issn.1673-3819.2022.02.009

Abstract

Aiminging at the problem of multi-target point-track association in dense clutter environment, based on the reinforcement learning(RL) method, a multi-target point-track association method based on Q-learning is proposed. First, according to the movement state of the target in the whole process, a Markov decision process(MDP) model is established. Secondly, the paper uses the degree of correlation between the states to form a strategy function, selects the correct action, and sets the corresponding reward function. Finally, considering that false measurements are difficult to distinguish when the clutter is dense, combined with the prior information of the target, the Q-meter re-learning link is added to further optimize the correlation accuracy. The simulation results show that in both non-maneuvering and strong maneuvering environments, the method in this paper can accurately correlate to the measurement of the target, and has a better point-track-track correlation performance.

点迹-航迹关联主要是完成航迹更新与航迹维持,也就是以确定航迹的预测值为中心,根据某种特定的准则筛选符合条件的点迹,并利用点迹进行滤波的过程。因此,点迹-航迹关联主要涉及目标跟踪中常用的滤波算法,如最近邻 (Nearest Neighbor, NN) 滤波、概率数据互联(Probability Data Association, PDA)滤波、联合概率数据互联(Joint Probability Data Association, JPDA)滤波、多假设跟踪(Multiple Hypothesis Tracking, MHT)滤波、交互多模型(Interacting Multiple Model, IMM)滤波及概率假设密度(Probabilistic Hypothesis Density, PHD) 滤波等[1,2,3]
多目标点迹-航迹关联技术一直都是研究热点,学者利用目标的运动特性和传感器特点进行分析,并取得了一定的成果[4,5,6]。但随着时代的发展,目标受到了强杂波、强干扰等自然和人类行为等因素影响,很难有效辨别真实数据和受污染的数据,尤其是目标真实数据丢失时,关联难度大大增加。不考虑虚警、漏警等传统数据关联问题,还可能因目标做出高机动、交互运动等动作出现数据混乱、交叉等更加复杂的问题,这也是多目标点迹-航迹关联领域亟待解决的问题。
机器学习[7]是当前流行的人工智能手段,利用机器学习理论分析大量数据已经较为普遍。RL技术是机器学习的一个分支,其主旨是在某一环境下作出能够获得最大预期收益的动作。RL起源于二十世纪六十年代,发展至今已取得很多成果,如Q学习、动态规划、Policy Gradients、Deep-Q-Network等[8,9,10,11,12,13,14]
结合数据关联和强化学习两大技术的共同特点,利用人工智能的方式实现数据的高速处理,完成多目标点迹-航迹关联,不仅有较高的工程实践意义,也对国家国防建设有重要意义,这将可能会成为未来发展的一种趋势。本文提出一种基于Q学习的多目标点迹-航迹关联算法,该方法在杂波环境下,以强化学习(RL)方法为基础,结合量测数据和目标运动状态信息,实现机动与非机动情况下多个目标的点迹-航迹关联,为跟踪滤波过程提供了较准确的点迹数据。

1 基于RL的多目标点迹-航迹关联算法

传感器提供的点迹数据中存在大量虚假信息,且传统点迹-航迹关联方法同时处理多个目标量测数据时容易出现关联混乱、目标丢失等问题,因此,本文提出了基于RL的多目标点迹-航迹关联算法,有效解决了机动与非机动情况下多个目标的点迹-航迹关联问题。该算法首先基于量测数据和目标状态信息的特性,设置了状态空间和行为空间;其次,利用目标状态预测值与量测数据的相关程度选择当前状态的动作,并按照行为空间的选择定义奖励函数;然后,对Q表进行训练学习,直到所有量测数据训练一遍后,停止迭代循环,重新训练学习;最后,由于杂波环境下目标点迹-航迹关联受杂波影响较大,尤其是当目标发生强机动时,机器对杂波的分辨能力减弱,训练学习后量测集合中仍然可能有杂波存在,大大影响了算法的关联精度,因此,利用目标运动的先验信息,对学习结束后选择的所有量测进行再学习,并更新Q表中对应Q值。

1.1 模型建立

建模是实现RL方法的首要步骤,模型实际是马尔可夫决策(Markov decision process, MDP)过程。但不同于常规Q学习算法的是,一般的MDP过程是一个机器对应一个过程,要处理多目标点迹-航迹关联问题,若将一个目标看作一个机器,则应该是多个MDP过程。然而,实际情况是目标数未知,则MDP过程的数量也是未知的。因此,该方法将整个多目标点迹-航迹关联过程视作一个大的MDP过程,单个时刻一个机器可以在多个不同的状态下选择不同的动作,也可以在一个状态下选择多个不同动作,且状态选择动作的过程互不相关。
模型确定后,需要设置MDP过程的状态集合和行为集合。由于多个目标运动的实际环境比较复杂,状态时刻受到环境影响,对机器训练学习的过程也造成了影响,因此,这里设置了两个状态集合。
第一个状态集合S是由每个时刻获得的量测数据构成:
St={Zt},t=0,1,2,…
式中,Zt是第t个时刻的量测集合,且Zt={ z t 1, z t 2,…, z t n}, z t nZt中第n个量测。
第二个状态集合C是由每个时刻的目标状态预测值构成:
Ct={mt,Pt},t=0,1,2,…
式中,mt是第t个时刻的状态预测值集合,Pt是第t个时刻的状态协方差预测值集合。
集合S为主状态集合,集合C为辅助状态集合,C的功能是辅助机器在S状态下选择合适的动作。一般的RL方法中机器是随机选择动作的,虽然这样会显得机器更加智能,但是,在处理多目标点迹-航迹关联时,实际环境中杂波较多,机器会同时处于很多不同的状态,同样面临的选择也会很多,这样大大增加了机器找到正确点迹的时间,算法复杂度太高。因此,本方法设置了双状态集合,利用C辅助机器选择正确的动作转移到下一个状态S
机器行为集合A包含机器选择的动作,在这里设置机器所能选择的动作只有两个,即YN。其中,Y指的是机器处于状态 s t n应该选择状态 s t + 1 m,即量测 z t n与量测 z t + 1 m相关;N则与Y相反。
模型的状态转移函数设为Q(st,ct,at),其计算方式与Q学习的状态转移函数相同。

1.2 动作选择与奖励函数

如上所述,动作选择是本方法的关键步骤,动作选择正确与否影响了算法的有效性。该步骤的基本原理是利用机器处于状态 s t n时,辅助状态 c t n中的状态预测值与下一个时刻状态 s t + 1 m中量测数据之间的相关性。若相关,则机器选择动作Y;若不相关,则机器选择动作N
动作选择过程的流程如下:
B= z t + 1 n-Htmt
E=Rt+HtPt H T t
Dist=[B]T[E]-1B
式中,mtPt分别为t时刻机器处于状态 s t n的预测状态值和预测协方差矩阵,Bt+1时刻量测 z t + 1 n的新息,Ht为量测矩阵,Rt为量测噪声的协方差矩阵,Et时刻新息协方差,Distt+1时刻量测 z t + 1 n与状态 s t n的偏离程度。
求出偏离程度Dist后,作如下判断:
Distε
式中,ε为相关参数,由正确量测在相关域内的概率P_G(0<P_G<1)确定(为了确保选择动作的准确性,P_G的值要尽可能大,因此本文设定P_G=0.999),满足概率分布函数P( χ o 2ε)=P_G, χ o 2为服从自由度o的卡方分布,o z t + 1 n的维度,已知P_Go后,ε的值可从卡方分布的临界值表中得到。如果Dist满足式(6)判断,则机器选择动作Y;反之,机器选择动作N
当前,RL方法中奖励函数R的定义方式大致分两种:终点(成功)奖励和瞬时奖励。多目标点迹-航迹关联过程没有明确的终点,也没有成功的标志,因此,本方法采用瞬时奖励的方式。奖励函数R的定义如下:
R( s t n, c t n, a t n, s t + 1 m, c t + 1 m)= 1 a t n = Y - 1 a t n = N
式(7)指机器处于状态 s t n时,选择动作 a t n=Y使状态转移到状态 s t + 1 m的瞬时奖励值R( s t n, c t n, a t n, s t + 1 m, c t + 1 m)为1;反之,机器处于状态 s t n时,选择动作 a t n=N使状态转移到状态 s t + 1 m的瞬时奖励值R( s t n, c t n, a t n, s t + 1 m, c t + 1 m)为-1。

1.3 学习与再学习

Q表的训练学习是Q学习算法的核心步骤,学习结果直接影响机器选择动作。本方法每个时刻的Q表学习方式与Q学习算法相同,即
Q(st,ct,at,st+1,ct+1)=(1-α)Q(st,ct,at,st+1,ct+1)+α(R(st,ct,at,st+1,ct+1)+γ max aQ(st+1,ct+1,at))
学习训练结束后,可得到机器找出的量测集合 Z ~。然而,由于杂波环境下目标点迹-航迹关联受杂波影响较大,尤其是当目标发生强机动时,这种虚假点迹很难分辨,机器会将这些杂波也视为正确量测,使得算法的关联精度受到影响。因此,本文提出了Q表再学习方法,该方法是利用目标运动的先验信息,对量测集合 Z ~进行再学习,并更新Q表中对应Q值。
Q表再学习方法的目标是去除 Z ~中可能存在的单点杂波,并修正对应Q值。
z t n Z ~ t, z t + 1 m Z ~ t + 1,求出 z t n z t + 1 m两点之间的欧氏距离d,即
d=D( z t n, z t + 1 m)
式中,函数D(·)表示求两点间欧氏距离的公式。若d满足
v_min≤ d Tv_max
则判定 z t n不是杂波。若不满足式(10),需要遍历 Z ~ t + 1中所有量测求d,若存在量测满足式(10),则判定 z t n不是杂波。如果所有量测都不满足式(10),需要遍历 Z ~ t + 2中所有量测求d,若存在量测满足
v_min≤ d 2 Tv_max
则判定 z t n不是杂波。 z t n可能是某一目标运动轨迹中最后时刻的真实量测, Z ~ t + 1 Z ~ t + 2中没有源自此目标的真实量测,如果按照上述方式判定,真实量测 z t n可能会被误认为是杂波,影响算法关联精度。因此,为了避免这种情况发生,如果 Z ~ t + 2中所有量测都不满足式(11),则继续按上述方式先后遍历 Z ~ t - 1 Z ~ t - 2中所有量测求d,并分别按照式(10)和式(11)判定,只要存在量测满足要求,就判定 z t n不是杂波;反之,如果所有量测都不满足要求,可判定 z t n是杂波。
按照这种方式顺序遍历 Z ~中所有量测,可筛选出正确量测集合和杂波集合。根据杂波集合中的数据在Q表中找到对应Q值,显然这些状态的Q值已不符合实际情况,所以需要对这些Q值进行修正。
Q( s t - 1 m, c t_ 1 m, a t_ 1 m, s ~ t n, c ~ t n)=(1-α)Q( s t_ 1 m, c t_ 1 m, a t_ 1 m, s ~ t n, c ~ t n)+α(1+γ max aQ( s ~ t n, c ~ t n, a t_ 1 m))
式中, s ~ t n c ~ t n分别表示t时刻杂波集合中量测数据对应的主状态和辅助状态, s t_ 1 m c t_ 1 m a t_ 1 m分别表示t-1时刻Q表中 s ~ t n对应的主状态、辅助状态和动作。由于原Q表中记录 a t_ 1 m=Y,而经第一阶段判定 s ~ t n中量测是杂波,当机器面对 s ~ t n的动作选择应该是 a t_ 1 m=N,所以设当机器处于 s t_ 1 m c t_ 1 m时选择动作 a t_ 1 m=N转移到 s ~ t n c ~ t n的奖励为1,以此强行增大Q值,使得当机器处于 s t_ 1 m c t_ 1 m时可以直接凭经验知识做出选择。需要注意的是, s ~ t n对应的 c ~ t n s t_ 1 m c t_ 1 m可能不止一组,因此,需要对Q表中所有对应Q值按照式(12)进行修正。

2 仿真实验与结果分析

本文方法分别在非机动和强机动情况下进行测试,在单一情况下与NN算法和JPDA算法进行对比,记本文方法为RL-MA算法。

2.1 非机动环境

2.1.1 仿真环境设置
假定探测区域内有5个目标在杂波环境下做匀速直线运动,这5个目标的运动情况是:目标1的初始位置为[600 m,-600 m],初始速度为[-12 m/s, 6 m/s];目标2的初始位置为[-800 m,-200 m],初始速度为[26 m/s, 6 m/s];目标3的初始位置为[600 m,-600 m],初始速度为[-25/3 m/s, 40/3 m/s];目标4的初始位置为[-200 m, 800 m],初始速度为[5 m/s,-25 m/s];目标5的初始位置为[-800 m,-200 m],初始速度为[20 m/s,-10 m/s]。目标最小速度v_min=10 m/s,最大速度v_max=100 m/s。采样周期T=1,目标的检测概率PD为0.98,杂波服从均值为λ的泊松分布。蒙特卡罗仿真次数为100,每个仿真时间为80 s,单次蒙特卡罗仿真中训练次数为100。训练数据和测试数据都是仿真雷达数据,学习率为0.01,衰减因子为0.98。图1是目标真实运动轨迹情况,也是点航关联结果的理论轨迹图,图中,红色航迹为真实数据,横轴与纵轴的单位均为m(图8与此图例相同)。
假设目标的运动过程满足状态转移方程
Xk=FXk-1+Γvk-1
式中,F是状态转移矩阵且F= 1 0 T 0 0 1 0 T 0 0 1 0 0 0 0 1,Γ是过程噪声分布矩阵且Γ= T 2 / 2 0 T 0 0 T 2 / 2 0 T;vk-1是加性白噪声,其协方差矩阵Qk-1=diag([52,52])。
量测数据满足方程
Zk=HXk+Wk
式中,H是量测矩阵且H= 1 0 0 0 0 1 0 0,Wk是高斯白噪声,其协方差矩阵Rk=diag 10 2 10 2
2.1.2 仿真结果与分析
图2是单次蒙特卡罗仿真中杂波个数均值λ=1时的量测图。图中,黑色点迹为量测数据,横轴与纵轴的单位均为m(下文图9与此图例相同)。
本文使用最优子模式分配(OSPA)计算三种算法的关联误差。图3表示λ=1时三种算法的关联误差比较图。图中,黑色线表示NN算法,绿色线表示JPDA算法,红色线表示RL-MA算法,横轴表示仿真时间,单位为s,纵轴表示关联误差距离,单位为m(下文中图5、6、7、10、11、12、13与此图例相同)。
图3 λ=1时三种算法的关联误差
图3可以看出,λ=1时NN算法的性能最差,而JPDA算法和RL-MA算法的性能都比较好,且关联精度相差不大。
图4~图6分别表示λ=10、λ=30和λ=50时三种算法的关联误差比较图。
图4 λ=10时三种算法的关联误差
图5 λ=30时三种算法的关联误差
图6 λ=50时三种算法的关联误差
对比图3~图6可以明显看出,随着杂波强度增大,NN算法的性能依然最差,JPDA算法和RL-MA算法的性能没有明显下滑,关联精度依然很高。
综上,JPDA算法和RL-MA算法都能够适应非机动环境,受杂波影响较小,而NN算法性能较差。

2.2 强机动环境

2.2.1 仿真环境设置
假定探测区域内有3个目标在杂波环境下机动,这3个目标的运动情况是:目标1的初始位置为[450 m,-500 m],初始速度为[-50 m/s, 0 m/s];目标2的初始位置为[800 m, 700 m],初始速度为[0 m/s,-50 m/s];目标3的初始位置为[-900 m,-300 m],初始速度为[50 m/s, 0 m/s]。目标最小速度v_min=10 m/s,最大速度v_max=100 m/s。采样周期T=1,目标的检测概率PD为0.98,杂波服从均值为λ的泊松分布。蒙特卡罗仿真次数为100,每个仿真时间为50 s,单次蒙特卡罗仿真中训练次数为100。训练数据和测试数据都是仿真雷达数据,学习率为0.01,衰减因子为0.98。图7是目标真实运动轨迹情况,也是点航关联结果的理论轨迹图。目标的运动过程满足状态转移方程(13),量测数据满足方程(14)。
2.2.2 仿真结果与分析
图8是单次蒙特卡罗仿真中杂波个数均值λ=1时的量测图。图9表示λ=1时三种算法的关联误差比较图。从图8、9可以看出,λ=1时NN算法的性能最差,JPDA算法次之,RL-MA算法的性能最好,关联误差较低。
图9 λ=1时三种算法的关联误差
图10~图12分别表示λ=10、λ=30和λ=50时三种算法的关联误差比较图。对比图9~图12可以明显看出,随着杂波强度增大,NN算法和JPDA算法的性能依然很差, RL-MA算法的性能虽然有所下滑,但关联精度仍然较高。综上,只有RL-MA算法能够适应密集杂波下的强机动环境,性能较好。
图10 λ=10时三种算法的关联误差
图11 λ=30时三种算法的关联误差
图12 λ=50时三种算法的关联误差
总的来说,相比NN算法和JPDA算法,RL-MA算法既能适应非机动环境,也能够适应强机动环境,受杂波影响较小,具有较高的关联精度。

3 结束语

本文针对密集杂波环境下的多目标点迹-航迹关联问题,提出了一种基于Q学习的多目标点迹-航迹关联算法。该算法的优点如下:
1)基于量测数据和目标状态信息的特性,建立了符合多目标点迹-航迹关联的MDP模型,设置了状态空间和行为空间,保证了算法的可靠性。
2)利用目标状态预测值与量测数据的相关程度选择当前状态的动作,并按照行为空间的选择定义奖励函数。以特定规则辅助智能体选择动作,避免了错误动作的重复选择,加快找到正确量测速度的同时,提高了关联结果的准确性。
3)针对杂波环境下目标点迹-航迹关联受杂波影响较大,尤其是当目标发生强机动时,机器对杂波的分辨能力减弱,训练学习后量测集合中仍然可能有杂波存在的问题,利用目标运动的先验信息,对学习结束后选择的所有量测进行再学习,并更新Q表中对应Q值,提升了算法的有效性。
4)从算法复杂度方面来看,与NN算法和JPDA算法相比,虽然RL-MA算法的复杂度较高,但是,仿真结果表明,在强机动与非机动两种情况下,RL-MA算法依然能够保证点迹-航迹关联过程的稳定性和关联结果的高精度性,其性能明显优于NN算法和JPDA算法,具有良好的工程应用前景。
[1]
黄小平, 王岩. 卡尔曼滤波原理及应用—MATLAB 仿真[M]. 北京: 电子工业出版社, 2015.

[2]
Mahler R P S. Multitarget Bayes filtering via first-order multitarget moments[J]. IEEE Transactions on Aerospace and Electronic Systems, 2003, 39(4): 1152-1178.

DOI

[3]
Li Q, Song L, Y Zhang. Multiple extended target tracking by truncated JPDA in a clutter environment[J]. IET Signal Processing, 2021, 15(7): 207-219.

DOI

[4]
Wang M, Li X, Liu P, et al. Multiple object tracking by multi-feature combination based on min-cost network flow [C]//IEEE 13th International Conference on Signal Processing. IEEE, 2016: 714-718.

[5]
孙启臣, 郭伟震, 闫倩倩, 等. 一种基于灰关联分析的多目标跟踪算法[J]. 鲁东大学学报(自然科学版), 2017, 33(1): 20-25,97.

[6]
He S, Shin H S, Tsourdos A. Joint Probabilistic Data Association Filter with Unknown Detection Probability and Clutter Rate:[J]. Sensors, 2018, 18(1): 269-274.

DOI

[7]
周志华. 机器学习[M]. 北京: 清华大学出版社, 2016.

[8]
Zhang X, Li P, Zhu Y, et al. Coherent beam combination based on Q-learning algorithm[J]. Optics Communications, 2021, 490(7): 126930.

DOI

[9]
Li H, Zhang X, Bai J, et al. Quadric Lyapunov Algorithm for Stochastic Networks Optimization with Q-learning Perspective[J]. Journal of Physics: Conference Series, 2021, 1885(4): 042070.

[10]
Zhang Y, Ma R, Zhao D, et al. A Novel Energy Management Strategy based on Dual Reward Function Q-learning for Fuel Cell Hybrid Electric Vehicle[J]. IEEE Transactions on Industrial Electronics, 2021, 69(2): 1537-1547.

DOI

[11]
Li M, Wang Z, Li K, et al. Task Allocation on Layered Multi-Agent Systems: When Evolutionary Many-Objective Optimization Meets Deep Q-Learning[J]. IEEE Transactions on Evolutionary Computation, 2021, 25(5): 842-855.

DOI

[12]
Zhao B, Ren G, Dong X, et al. Distributed Q-Learning Based Joint Relay Selection and Access Control Scheme for IoT-Oriented Satellite Terrestrial Relay Networks[J]. IEEE Communications Letters, 2021, 25(6): 1901-1905.

DOI

[13]
Zhang Q, Lin M, Yang L T, et al. Energy-Efficient Scheduling for Real-Time Systems Based on Deep Q-Learning Model[J]. IEEE Transactions on Sustainable Computing, 2017, 4(1): 132-141.

DOI

[14]
董豪, 丁子涵. Deep Reinforcement Learaing[M]. 北京: 电子工业出版社, 2021.

文章导航

/