多目标跟踪的核心是视频目标关联,其对最终的跟踪效果具有重要的影响。目前国内外学者在视频目标关联方面开展了大量研究,根据研究思路可以分为两类:单信息视频目标关联和多信息视频目标关联。单信息视频目标关联仅利用位置或者外观信息进行视频目标关联,在简单场景下能较快完成视频目标关联,但在复杂场景下难以取得准确的关联结果,鲁棒性差。多信息视频目标关联可以充分利用获取到的信息,包括位置、运动和外观信息等,通过多因素综合关联,具有更强的鲁棒性,更能应对复杂情况。典型的单信息视频目标关联算法有SORT
[1]、ByteTrack
[2],SORT算法利用fast CNN
[3]进行检测,使用卡尔曼滤波进行位置估计,使用匈牙利匹配进行视频目标关联,该算法在简单场景下取得较好结果,但在遮挡场景下身份切换问题严重。ByteTrack算法首先提出重视低分检测信息,将检测分为高分检测与低分检测,依次与轨迹进行关联,在MOT数据集上取得较好结果。典型的多信息视频目标关联算法有DeepSORT
[4]、MOTR
[5],DeepSORT在SORT基础上加入外观特征作为匹配依据,设计级联匹配模块,获得更优匹配结果,在部分遮挡场景下能准确关联,缓解了SORT算法的身份切换问题。MOTR算法参考Transformer
[6]实现端到端的多目标跟踪,引入跟踪查询概念,将上一帧目标特征作为输入得到目标在当前帧的位置,检测器仅检测新目标,隐式完成视频目标关联,而不需要显式匹配,但其计算量大,难以满足实时化需求。
虽然在过去几年间,多目标跟踪领域产生了丰硕的成果,其中视频目标关联算法类型多样、成果丰富,在很多场景表现良好,部分算法如DeepSORT、JDE
[7]通过引入外观重识别(reidentification,ReID)模块使用外观信息进行视频目标关联来缓解遮挡带来的身份切换,然而在面临严重遮挡时其带来的身份切换仍没有得到很好的解决,
图1展示了一个典型的身份切换案例,编号为58的目标在经过编号为54的目标时被完全遮挡,以致身份标签发生改变,造成身份切换。针对上述问题,本文针对实际场景中存在大量遮挡的特点,考虑到遮挡带来的身份切换,设计关联算法LSA,为了兼顾速度与性能,其在相邻帧之间使用运动特征进行视频目标关联即短时关联实现对目标的连续跟踪,在不相邻帧之间用增加外观特征进行视频目标关联即长时关联实现对于二次出现的目标的接续跟踪,以解决遮挡造成的身份切换,保证算法的有效性。此外算法对卡尔曼滤波进行改进,提升预测框准确率,并且提出使用置信度更新平均外观特征,使算法更具鲁棒性。