中国科技核心期刊      中国指挥与控制学会会刊     军事装备类重点期刊
Original article

Long-short time association algorithm: a robust data association algorithm

  • WANG Rui ,
  • DING Chunshan
Expand
  • Jiangsu Automation Research Institute, Lianyungang 222061, China

Received date: 2023-10-23

  Revised date: 2023-12-07

  Online published: 2024-05-29

Abstract

The main challenge of multi-object tracking (MOT) is identity switch caused by severe occlusion. The solution to identity switching is video object association, which assigns an identity number to the same target in different frames. In this paper, a long-short time association algorithm is proposed for identity switching. In the short-time, that is, the motion features between adjacent frames are used to match, and in the long-time, that is, the non-adjacent frames are directly added to the appearance features for association to rematch the object detected after occlusion. Besides, the Kalman filter is improved and the frame width parameter is added to make the predicted frame more accurate; appearance features use average appearance features and increase detection confidence as update parameters to make appearance more robust and can still work in complex scenes. The new tracker, LSATrack, achieves 81.3MOTA and 81.3IDF1 in the MOT17 and achieves stable tracking in severe occlusion scenarios.

Cite this article

WANG Rui , DING Chunshan . Long-short time association algorithm: a robust data association algorithm[J]. Command Control and Simulation, 2024 , 46(3) : 116 -122 . DOI: 10.3969/j.issn.1673-3819.2024.03.017

视频多目标跟踪(multi-object tracking,MOT)技术广泛应用于智能交通、高级驾驶、行人预测与视频理解等领域,是当前计算机视觉领域的研究热点。
多目标跟踪的核心是视频目标关联,其对最终的跟踪效果具有重要的影响。目前国内外学者在视频目标关联方面开展了大量研究,根据研究思路可以分为两类:单信息视频目标关联和多信息视频目标关联。单信息视频目标关联仅利用位置或者外观信息进行视频目标关联,在简单场景下能较快完成视频目标关联,但在复杂场景下难以取得准确的关联结果,鲁棒性差。多信息视频目标关联可以充分利用获取到的信息,包括位置、运动和外观信息等,通过多因素综合关联,具有更强的鲁棒性,更能应对复杂情况。典型的单信息视频目标关联算法有SORT[1]、ByteTrack[2],SORT算法利用fast CNN[3]进行检测,使用卡尔曼滤波进行位置估计,使用匈牙利匹配进行视频目标关联,该算法在简单场景下取得较好结果,但在遮挡场景下身份切换问题严重。ByteTrack算法首先提出重视低分检测信息,将检测分为高分检测与低分检测,依次与轨迹进行关联,在MOT数据集上取得较好结果。典型的多信息视频目标关联算法有DeepSORT[4]、MOTR[5],DeepSORT在SORT基础上加入外观特征作为匹配依据,设计级联匹配模块,获得更优匹配结果,在部分遮挡场景下能准确关联,缓解了SORT算法的身份切换问题。MOTR算法参考Transformer[6]实现端到端的多目标跟踪,引入跟踪查询概念,将上一帧目标特征作为输入得到目标在当前帧的位置,检测器仅检测新目标,隐式完成视频目标关联,而不需要显式匹配,但其计算量大,难以满足实时化需求。
虽然在过去几年间,多目标跟踪领域产生了丰硕的成果,其中视频目标关联算法类型多样、成果丰富,在很多场景表现良好,部分算法如DeepSORT、JDE[7]通过引入外观重识别(reidentification,ReID)模块使用外观信息进行视频目标关联来缓解遮挡带来的身份切换,然而在面临严重遮挡时其带来的身份切换仍没有得到很好的解决,图1展示了一个典型的身份切换案例,编号为58的目标在经过编号为54的目标时被完全遮挡,以致身份标签发生改变,造成身份切换。针对上述问题,本文针对实际场景中存在大量遮挡的特点,考虑到遮挡带来的身份切换,设计关联算法LSA,为了兼顾速度与性能,其在相邻帧之间使用运动特征进行视频目标关联即短时关联实现对目标的连续跟踪,在不相邻帧之间用增加外观特征进行视频目标关联即长时关联实现对于二次出现的目标的接续跟踪,以解决遮挡造成的身份切换,保证算法的有效性。此外算法对卡尔曼滤波进行改进,提升预测框准确率,并且提出使用置信度更新平均外观特征,使算法更具鲁棒性。
图1 身份切换案例

Fig.1 Identityswitching case

1 长短时关联算法

1.1 算法整体流程

图2所示,长短时算法(long-short time association,LSA)主要包括短时关联与长时关联步骤,其中,轨迹有4种状态,分别为激活、丢失、未激活和死亡。激活表示轨迹在前一帧仍能关联上检测到的目标;丢失表示轨迹在前一帧没有关联上目标,但在设定的帧数区间内有检测到的目标被关联上;未激活表示未被关联的检测建立的新轨迹的状态;死亡表示轨迹在设定的帧数区间范围内均处于丢失状态或轨迹激活失败。
图2 LSA算法整体结构

Fig.2 Framework of LSA algorithm

算法主要包括以下4个步骤。
步骤1 检测:使用检测器检出视频帧中的目标。在开始阶段,即对第一帧进行检测时,直接把第一帧检测到的所有目标作为轨迹起始,并设置轨迹状态为激活,不进行后续关联。
步骤2 短时关联:首先使用运动模型得到活跃轨迹的运动预测框,然后将预测框与检测框进行交并比(IoU)计算得到代价函数,使用匈牙利匹配计算代价函数得到关联结果。
步骤3 长时关联:将未匹配的检测通过外观模型得到检测外观特征,检测框信息与外观特征按固定规则结合得到新的检测特征,丢失轨迹通过运动模型得到轨迹预测框,将轨迹预测信息与轨迹外观特征按照固定规则进行组合得到新的轨迹特征,计算检测与轨迹特征的余弦距离得到成本函数,最后使用匈牙利匹配得到关联结果。
步骤4 建立新轨迹:未匹配的检测作为新的轨迹起始,其状态为未激活。未激活的轨迹若在下一帧未能匹配上新检测,则直接丢弃,删除该轨迹。未匹配的轨迹保存在丢失轨迹集,若轨迹丢失时间超过门限则状态转为死亡,后续不再参与关联。

1.2 短期关联

对第kfk进行检测可以表示为
Dk=Det(fk)=[(x1,y1,w1,h1,τ1),…,(xi,yi,wi,hi,τi),…,(xn,yn,wn,hn,τn)]
其中,k表示第k帧,Dk表示第k帧检测结果,共有n个目标,Det()表示检测器,(xi,yi,wi,hi,τi)表示第i个目标,其中,各项分别为检测框中心点横坐标、纵坐标、宽、高和检测置信度,本文保留高于0.1置信度的检测参与关联。
在短期关联中,算法仅对相邻帧之间的视频目标关联,使用运动模型得到的目标预测框比较准确,且仅使用运动模型可以提升计算效率,此外外观模型会因为目标外观特征剧烈变化导致相邻帧之间出现身份切换,因此短期关联仅使用运动模型,而不使用外观模型。单个待关联的轨迹T可表示为[( f t 0,id, x t 0, y t 0, w t 0, h t 0, τ t 0),…,(fk-1,id,xk-1,yk-1,wk-1,hk-1,τk-1)],其中, f t 0表示轨迹起始帧,id表示轨迹编号。本文首先使用匀速模型得到轨迹运动参数,然后使用卡尔曼滤波预测轨迹预测框位置,卡尔曼滤波常用状态向量为(x,y,s,a, x ˙, y ˙, s ˙)或(x,y,a,h, x ˙, y ˙, a ˙, h ˙),其中,(x,y)表示检测框中心坐标,s表示归一化面积,a表示宽高比,h表示框高,考虑到常用的状态向量没有对宽度进行预测,本文使用(x,y,w,h, x ˙, y ˙, w ˙, h ˙),获得更准确的宽度位置估计,其中,w表示宽度,可以表示为
(x'k,y'k,w'k,h'k, x ˙'k-1, y ˙'k-1, w ˙'k-1, h ˙'k-1)=Kalman(xk-1,yk-1,wk-1,hk-1, x ˙ k - 1, y ˙ k - 1, w ˙ k - 1, h ˙ k - 1)
接着计算轨迹预测框与检测框的交并比计算代价函数,可表示为:
IoUij= b o x i b o x j w i h i + w j h j - b o x i b o x j
boxiboxj=|(min x i + w i 2 , x j + w j 2-max x i - w i 2 , x j - w j 2)(min y i + h i 2 , y j + h j 2-max y i - h i 2 , y j - h j 2)|
costij=1-IoUijC
ij分别表示预测框与检测框,IoUij表示交并比,boxiboxj表示预测框i与检测框j的重合区域面积,costij表示预测框与检测框的代价,C表示代价矩阵。
算法然后进行匈牙利匹配,得出关联结果,关联成功的轨迹将关联上的检测添加到轨迹中更新轨迹信息,轨迹状态为激活,其余未关联上的轨迹和检测进入下一模块。

1.3 长期关联

短期关联中未匹配的轨迹合并到丢失轨迹集合,如果短期关联后还存在未匹配的检测,那么进行长期关联。参考Transformer相关研究,使用位置编码,首先将检测通过外观模型得到外观特征,然后将位置特征编码结合外观特征得到检测特征,其过程可表示为
fdetection=fappearance+MLP(p)
其中,fdetection表示检测特征,fappearance表示检测外观特征,使用fastReID模型获取,特征维数可设为64、128和256,MLP表示多层感知机,用于实现位置编码,即将位置信息根据设置的维数映射到对应的空间,p表示检测位置信息。
对于丢失轨迹,为了使得算法更具有鲁棒性,本文使用平均外观特征代替常用的外观特征库或相邻外观特征,在轨迹丢失时间低于设定帧数时,选择将外观特征与位置特征结合得到丢失轨迹特征,在设置的帧数外,直接使用平均外观特征作为丢失轨迹特征,设定帧数为5,因为轨迹长期丢失后一直使用卡尔曼滤波进行轨迹预测会出现不准确或发散的情况,导致无法关联,因此仅在5帧内使用位置信息,过程可表示为
flost_track= f t r a c k + M L P ( p ) t l o s t 5 f t r a c k t l o s t > 5
其中,flost_track表示丢失轨迹特征,ftrack表示轨迹平均外观特征。
丢失轨迹平均外观特征使用关联上的检测外观特征更新,表示如下:
ftrack=(1-ατ)ftrack+ατfappearance
其中,α表示外观特征更新率,设置为0.1,τ表示检测置信度,由检测器给出,ftrack表示轨迹平均外观特征,fappearance表示关联上的检测外观特征。常见的平均外观特征一般不使用置信度更新特征,本文考虑到低置信度的检测提供的外观特征包含更多干扰和噪声,因此考虑加入置信度更新轨迹平均外观信息,使得外观特征更具有鲁棒性。
算法得到检测与轨迹特征后,计算代价函数,其过程可以表示为
cij= f d e t e c t i o n * f l o s t _ t r a c k f d e t e c t i o n f l o s t _ t r a c k∈C
其中,fdetectionflost_track分别表示检测特征和丢失轨迹特征,C表示代价矩阵。然后使用最优匹配计算C得到关联结果,其中,匹配门限θl设置为0.4。重新匹配上的轨迹状态变为激活,并更新轨迹平均外观特征。

2 实验与分析

本文使用LSA作为关联算法实现长短时跟踪算法(LSATrack)进行实验,LSATrack使用当前最流行的“先检测后跟踪”范式,其中,检测器使用YOLOX
为充分验证所提算法的有效性,分别在数据集MOT17和MOT20上进行验证。实验对比了当前流行的算法,包括FairMOTMOTRByteTrack等。
指标使用当前广为接受的CLEAR[8],包括多目标跟踪精度(MOTA)、身份的F1得分(IDF1)、假阴性(FN)、假阳性(FP)和身份跳变(IDs)等,其中,MOTA通过FNFP、真实标签数(GT)和IDs等计算得出,可表示为
MOTA=1- F N + F P + I D s G T
本文主要使用2个网络模型:检测模型YOLOX[9]、重识别模型fastReID[10],检测模型参考ByteTrack,重识别模型参考BoT-SORT[11]。超参数设置见表1
表1 超参数设置

Tab.1 Hyper-parameter setting

检测置信度门限 τ0 0.1
外观特征更新率 α 0.1
短期关联匹配门限 θs 0.5
长期关联匹配门限 θl 0.4
轨迹最大丢失帧数 30
外观特征维数 dim 256

2.1 数据集介绍

MOTChallenge是全球最热门的多目标跟踪挑战赛,其提供四个数据集:MOT15、MOT16、MOT17和MOT20,其中,MOT17和MOT20是最常使用的数据集[12]。数据集中仅包含行人目标,无须进行类别检测。其中,MOT17包含7个训练视频和7个测试视频,示例见图3a),没有验证集,视频大小均为1920*1080,帧率在14FPS—30FPS之间,平均每帧中有25人,较为密集,包含静态和动态摄像头拍摄的视频,具有多种场况,例如低光照等等,并提供3种检测器检测结果,包含DPM、Faster R-CNN和SDP。MOT20中包含4个训练视频和4个验证视频,见图3b),视频帧大小为1 920*1 080或1 173*880,但视频时长更长,最长为3 300帧,人群更为密集,平均每幅图包含160人,帧率均为25帧。
图3 数据集示例

Fig.3 Dataset example

2.2 消融实验

本节分别对算法各个部分进行消融实验,以说明改进的有效性。
算法首先对关联依据进行研究,选取不同关联依据在视频MOT17-02上进行相应实验验证。实验在短期关联和长期关联中分别使用IoU、ReID作为关联依据,实验结果见表2,可见短期关联使用IoU,长期关联使用ReID的方案取得最好结果;仅使用IoU的方法第二;仅使用ReID的方法效果最差。这是由于MOT17-02环境较恶劣,包含较多低置信度检测框,使用ReID得到的外观特征包含大量干扰,不够准确,因此仅使用ReID容易造成身份切换导致IDF1得分下降,IDs升高。而MOTA变化不大的原因是该指标过于偏重检测而忽视关联性能,因此关联算法的好坏对其影响较小。
表2 关联依据实验结果

Tab.2 The experimental result of associated evidence

LSA IDF1/% MOTA/% IDs/次
短期关联 长期关联
IoU IoU 71.5 81.5 112
IoU ReID 71.5 81.5 111
ReID IoU 66.9 81.1 121
ReID ReID 66.2 81.3 120
其次,对比卡尔曼滤波改进前后效果,在MOT17数据集测试集上进行相应验证。实验结果见表3,可见改进后MOTA提升、身份切换次减少,原因是增加宽度作为参数,使得预测框预测更为准确,进而提高IoU计算准确率,降低身份切换次数,从而提高关联准确率。
表3 卡尔曼滤波改进实验结果

Tab.3 The experimental result of improved Kalman Filter

IDF1/% MOTA/% IDs/次
原始卡尔曼滤波 85.3 90.8 338
改进后卡尔曼滤波 85.3 91.0 291
然后,分析轨迹平均外观特征更新参数α选择,选取MOT17-02进行实验。该视频具有较多低分检测,实验结果见图4,横坐标表示α不同取值,纵坐标分别对应IDF1、MOTA和IDs。α越大说明新检测占轨迹外观特征比例越大,外观稳定性越差,实验也验证了该观点,α越大算法性能也越差,可以看到α在0.1处取得最好的结果,但是MOTA变化不大,其原因正是该指标过于偏重检测而忽视关联的作用。作者对比是否使用置信度更新平均外观特征见图5,横坐标表示α,纵坐标表示IDF1,绿色柱条表示不使用置信度更新轨迹外观特征,红色柱条表示使用置信度更新外观特征。对比两者,可见使用置信度参与更新可以取得更好效果。高置信度的检测目标包含的干扰、噪声少,而低置信度的检测目标包含大量干扰、噪声,如果不加辨别的使用检测外观特征更新轨迹平均外观特征,会使得轨迹平均外观特征被大量低置信度检测带来的噪声污染,使得特征分辨能力变差,造成关联性能下降,最终影响跟踪结果。
图4 不同轨迹平均外观更新参数α对算法性能影响

Fig.4 Influence of the different average appearance update parameter α of track on the algorithm

图5 是否使用置信度更新平均外观特征实验对比图

Fig.5 Whether to use confidence to update the average appearance feature experimental comparison graph

本文还研究了不同检测置信度门限对后续关联跟踪的影响,选择MOT17进行实验。由于MOT17-02场景为低光照条件下的复杂街景,低分检测较多,因此选择该视频进行试验。实验结果见图6,可见随着检测置信度门限提高,跟踪各项指标逐步下降,在0.2处取得最少的ID切换次数,而在0.1处取得最高IDF1和MOTA,不完全符合ByteTrack论文实验结果。因为该视频场景复杂,包含大量低分检测,影响后续关联,因此造成并未在最低检测门限取得最好结果。作者通过实验可以看出,低置信度检测也有价值,并不能像DeepSORT等算法中选择直接丢弃,而是要充分利用。
图6 不同检测置信度门限τ0下的关联性能

Fig.6 Association performance under the different detection's confidence threshold τ0

本文对比使用相同检测模型的ByteTrackv2和BoT-SORT在MOT17和MOT20不同视频中的表现。实验结果见图7图8,LSATrack、BoT-SORT和ByteTrackv2 3种平均IDF1得分分别为86.4、85.2和82.3,可见LSATrack算法在复杂环境下也具有较好关联能力。
图7 ByteTrackv2、BoT-SORT与LSATrack在MOT17训练集上实验结果

Fig.7 The experience results of Bytetrack, BoT-SORT and LSATrack on the MOT17 train set

图8 ByteTrackv2、BoT-SORT与LSATrack在MOT20训练集上实验结果

Fig.8 The experience results of Bytetrack, BoT-SORT and LSATrack on the MOT20 train set

2.3 不同关联算法实验对比

在数据集MOT17与MOT20上进行实验,实验结果见表4表5,可见LSATrack有效降低遮挡带来的身份切换,关联错误率也有所下降。原因是短时关联、长时关联可以有效利用检测与轨迹信息,进而提升关联效果,并且平均外观特征鲁棒性更强,更好利用检测信息,此外增加宽度参数的卡尔曼滤波预测框更准确,提升IoU计算准确率。
表4 多种先进算法在MOT17数据集上对比试验

Table 4 Comparison of the state-of-the-art methods on MOT17 test set

跟踪器 IDF1 MOTA IDs FP FN
MOTR[5] 66.4 65.1 2 049 45 486 160 332
FairMOT[13] 72.3 73.7 3 303 27 507 117 477
TransTrack[14] 63.5 75.2 3 603 50 157 86 442
ByteTrack[2] 77.3 80.3 2 196 25 491 83 721
OCSORT[15] 77.5 78.0 1 950 15 129 107 055
StrongSORT[16] 79.5 79.6 1 194 27 876 86 205
BoT-SORT[11] 79.5 80.6 1 257 22 524 85 398
SMILETrack[17] 80.5 81.06 1 246 22 963 82 682
MotionTrack[18] 80.1 81.1 1 140 23 802 81 660
LSATrack 81.3 81.3 1 082 21 820 82 251
表5 多种先进算法在MOT20数据集上对比试验

Table 5 Comparison of the state-of-the-art methods on MOT20 test set

跟踪器 IDF1 MOTA IDs FP FN
MOTR[5]
FairMOT[13] 67.3 61.8 5 243 103 400 88 901
TransTrack[14] 69.1 65.0 3 608 27 197 150 197
ByteTrack[2] 75.2 77.8 1 223 26 249 87 594
OCSORT[15] 76.3 75.7 942 19 067 105 894
StrongSORT[16] 77.0 73.8 770 16 632 117 920
BoT-SORT[11] 77.5 77.8 1 257 22 521 88 863
SMILETrack[17] 77.5 78.2
MotionTrack[18] 76.5 78.0 1 165 28 629 84 152
LSATrack 79.2 78.3 1 147 26 593 84 453

3 结束语

本文提出了一种用于视频多目标跟踪的高效视频目标关联算法——长短时算法,该算法在短时即相邻帧之间使用运动特征进行目标匹配,在长时即不相邻帧之间增加外观特征进行目标匹配,实现对于遮挡后被检出目标的再匹配。本文对运动模型做出改进,增加宽度作为卡尔曼滤波状态量;还使用检测置信度更新轨迹平均外观特征,这些改进有效改善遮挡带来的身份切换问题。基于TBD范式的跟踪算法LSATrack对复杂环境具有适应性和鲁棒性,在MOT17取得81.3IDF1和81.3MOTA,相对于ByteTrack等流行算法有显著提升。
[1]
BEWLEY A, GE Z Y, OTT L, et al. Simple online and realtime tracking[C]// 2016 IEEE International Conference on Image Processing (ICIP). Phoenix 2016: 3 464-3 468.

[2]
ZHANG Y F, SUN P Z, JIANG Y, et al. ByteTrack: multi-object tracking by associating every detection box[C]// Computer Vision-ECCV 2022: 17th European Conference, Tel Aviv, Israel, October 23-27, 2022, Proceedings, Part XXII. 2022: 1-21.

[3]
GIRSHICK R. Fast R-CNN[C]// 2015 IEEE International Conference on Computer Vision (ICCV). Santiago 2015: 1 440-1 448.

[4]
WOJKE N, BEWLEY A, PAULUS D. Simple online and realtime tracking with a deep association metric[C]// 2017 IEEE International Conference on Image Processing (ICIP). 2017: 3 645-3 649.

[5]
ZENG F G, DONG B, ZHANG Y A, et al. MOTR: end-to-end multiple-object tracking with Transformer[M]// Lecture Notes in Computer Science. Cham: Springer Nature Switzerland, 2022: 659-675.

[6]
VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach 2017: 6 000-6 010.

[7]
WANG Y X, KITANI K, WENG X S. Joint object detection and multi-object tracking with graph neural networks[C]// 2021 IEEE International Conference on Robotics and Automation (ICRA). 2021: 13 708-13 715.

[8]
LUITEN J, OŠEP A, DENDORFER P, et al. HOTA: a higher order metric for evaluating multi-object tracking[J]. International Journal of Computer Vision, 2021, 129(2): 548-578.

DOI PMID

[9]
GE Z, LIU S T, WANG F, et al. YOLOX: exceeding YOLO series in 2021[EB/OL]. 2021: arXiv: 2107. 08430. https://arxiv.org/abs/2107.08430.pdf

[10]
HE L X, LIAO X Y, LIU W, et al. FastReID: a pytorch toolbox for general instance re-identification[C]// Proceedings of the 31st ACM International Conference on Multimedia. Ottawa ON Canada. 2023:125-128.

[11]
AHARON N, ORFAIG R, BOBROVSKY B. BoT-SORT: robust associations multi-pedestrian tracking[EB/OL]. 2022:arXiv: 2206. 14651. https://arxiv.org/2206.14651.pdf.

[12]
DENDORFER P, OS̆EP A, MILAN A, et al. MOT Challenge: a benchmark for single-camera multiple target tracking[J]. International Journal of Computer Vision, 2021, 129(4): 845-881.

[13]
ZHANG Y F, WANG C Y, WANG X G, et al. FairMOT: on the fairness of detection and re-identification in multiple object tracking[J]. International Journal of Computer Vision, 2021, 129(11): 3 069-3 087.

[14]
SUN P Z, CAO J K, JIANG Y, et al. TransTrack: multiple object tracking with transformer[EB/OL]. 2020: arXiv: 2012. 15460. https://arxiv.org/abs/2012.15460.pdf

[15]
CAO J K, PANG J M, WENG X S, et al. Observation-centric SORT: rethinking SORT for robust multi-object tracking[C]// 2023IEEE/CVF Conferenceon Computer Vision and Pattern Recognition (CVPR). Vancouver,2023:23-26.

[16]
DU Y H, ZHAO Z C, SONG Y, et al. Strong SORT: make Deep SORT great again[J]. IEEE Transactions on Multimedia, 2023(25): 8 725-8 737.

[17]
WANG Y H, HSIEH J W, CHEN P Y, et al. SMILEtrack: similarity learning for occlusion-aware multiple object tracking[C]// 2023IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Vancouver, 2023:5477-5 485.

[18]
XIAO C C, CAO Q, ZHONG Y J, et al. MotionTrack: learning motion predictor for multiple object tracking[C]// 2023IEEE/CVFConference on Computer Vision and Pattern Recognition (CVPR). Vancouver, 2023:17939-17 948.

Outlines

/