中国科技核心期刊      中国指挥与控制学会会刊     军事装备类重点期刊
Multimodal Information Fusion

Target tracking based on adaptive scale transform and feature fusion

  • NIU Sijie ,
  • WANG Zhifeng ,
  • ZHU Jingjing
Expand
  • Shanghai Polytechnic University, Shanghai 201209, China

Received date: 2023-06-13

  Revised date: 2023-07-25

  Online published: 2024-07-29

Abstract

In order to achieve real-time stable tracking of moving targets and improve the accuracy and success rate of the tracking system, a kernel correlation filtering-based target tracking method with scale adaptation and feature fusion is proposed to address the situation that the traditional kernel correlation filtering algorithm does not track well when the target is obscured or motion blurred. Firstly, in the feature extraction process, color features are added after the original directional gradient histogram features to improve the recognition capability of target features, that is HOG features are fused with CN features, then a scale pyramid is constructed to perform scale estimation to achieve scale adaptation of the target, and finally the model is updated through a multi-peak detection mechanism. Through testing on the OTB2015 dataset, the accuracy and success rate of the algorithm has been further improved, and the algorithm is able to accurately identify targets and track them effectively.

Cite this article

NIU Sijie , WANG Zhifeng , ZHU Jingjing . Target tracking based on adaptive scale transform and feature fusion[J]. Command Control and Simulation, 2024 , 46(4) : 82 -87 . DOI: 10.3969/j.issn.1673-3819.2024.04.011

近年来,运动目标跟踪在多个领域有着越来越广泛的应用,例如在智能监控、人机交互、军事、安防和工业设备生产等领域[1-3]。目标跟踪也在机器人导航系统占据核心位置,但在实际的跟踪过程中,外界的环境变化会对跟踪效果产生许多影响[4-5],如外界光照变化、遮挡、目标尺度变化等,因此,如何在复杂场景下实现目标跟踪的尺度自适应与特征融合[6],提高目标跟踪的精度和准确度是行业的研究热点。常见的跟踪方法有背景差分法、光速流法、边缘检测算法[7-8]
最初BOLME等[9]教授利用模板图片上训练好的滤波器去对目标物体的外表建模,提出了最小输出平方误差和(MOSSE)跟踪算法,此算法是一种判别式跟踪算法,首次将灰度特征引入算法中,并利用卷积算子实现从频域到空域的转换,提高了跟踪的速度。之后,相关研究者引用了MOSSE方法提出了CSK跟踪算法[10],CSK把线性分类器运用到相关滤波中来求解相关问题,但此算法也仅仅用到了gray(灰度)特征,在跟踪精度的提升上有一定局限性。随后,HENRIQUES等[11]教授通过扩展CSK跟踪算法,提出核相关滤波跟踪算法,单通道的灰度特征有效扩展到了多通道的方向梯度直方图特征,跟踪的准确率得到提升。但当目标的尺度发生变化(例如形变)、外界的遮挡、相似目标干扰、超出目标框等因素影响时,用核相关滤波跟踪算法进行跟踪仍然会漏掉目标,一旦跟踪框偏离目标,之后就很难继续进行跟踪。YIN等人将平均峰值相关能量APCE引入模型更新阶段[12-13](average peak-to correlation energy),提高了对于单个目标的跟踪性能。

1 核相关滤波跟踪算法

KCF算法使用核方法将输入图像块映射到高维特征空间中进行处理,即使用高斯核函数来对特征进行映射。该算法的主要思路是通过循环矩阵在目标区域中采集正负样本,并采用岭回归算法对目标进行训练,然后再通过傅里叶空间中循环矩阵里的一种可对角化特性对矩阵进行变换运算成元素的点积,即将卷积操作转换为点乘操作,有效降低了运算量,提高了跟踪的速度,使算法满足了实时性要求。同时KCF算法在频域中进行特征匹配,使用矩阵傅里叶空间对角化来解决对偶问题和一些一般约束以简化计算,这种方法有助于将多通道数据纳入算法。
算法通过使用一个一维向量x=(x1,x2,…,xn)作为基本样本,利用循环矩阵的概念对样本进行采样
X= x 1 x 2 x 3 x n x n x 1 x 2 x n - 1 x n - 1 x n x 1 x n - 2 x 2 x 3 x 4 x 1
式中,每一行都是由第一行循环移位得到。该算法的岭回归表达式为
f(xi)=wTφ(xi)
w为滤波器系数,xi是输入样本。φ(xi)为原始输入样本到希尔伯特特征空间的映射。将w用样本的线性组合来表示为
w= i αiφ(xi)
αi代表向量系数,对于回归函数,此训练的目的是为了使用xi来使回归目标yi的误差最小,即
m i n w i (f(xi)-yi)2+λ‖w‖2
式中,λ是正则化系数,xi是输入样本,yi是回归目标,w为滤波器系数。

2 核相关滤波跟踪算法的改进

由于原有的核相关滤波算法只能对单一特征进行检测,并且当目标产生形变或者受到遮挡等的干扰时,滤波器容易错误更新目标模型导致跟踪失败,因此本文对传统的核相关滤波算法进行了相应的改进,改进的跟踪算法主要组成为:1) 在特征提取阶段,先分别计算方向梯度直方图特征与颜色特征,再将二者进行线性融合;2) 在目标定位阶段加入尺度估计策略,由尺度滤波器确定目标的位置和尺度;3) 在滤波器更新阶段采用APCE模型更新策略防止外界环境的干扰导致跟踪到错误信息。

2.1 特征提取融合

传统的KCF算法仅采用单一的HOG特征,即方向梯度直方图特征[14],此特征是一种手工特征,虽被广泛应用于目标检测和目标识别中,但无法将目标与背景进行较好的区分,当目标发生形变或遮挡时容易导致跟踪漂移。而颜色(CN)特征[15]是一种用来描述颜色的标签,已被较多应用于计算机视觉领域,能精确地提取目标的颜色。所以本文在HOG特征的基础上融合CN特征,利用特征的互补对称特性对滤波器和目标外观模型进行预测和更新,使之具有更强的自适应能力,在复杂场景中提高目标跟踪的稳定性与鲁棒性。

2.1.1 HOG特征提取

算法提取HOG特征的具体步骤如下所示。
1)首先对伽马空间和颜色空间进行标准化,将图像变换成灰度图像后再进行伽马校正。Gamma<1表示在图像灰度值高的区域,会减少动态范围,降低图像的对比度,图像的整体灰度值升高;Gamma>1表示在图像灰度值低的区域,会升高动态范围,增加图像的对比度,图像的整体灰度值降低;
2)图像预处理后,计算图中每一个像素点的梯度。在实际使用中,两个方向上的梯度分量可以用卷积的方式来快速计算;
3)通过统计各个单元的HOG特性,得到每个像素点的梯度大小和方向。
4)对每个block的HOG特征进行计算,将上一步得出的像素单元特征向量进行连接,就可以得出block的特征向量。
5)计算图像的HOG特征向量,提取图像中每个窗口块的HOG特征,然后将HOG特征串联起来,得到图像的HOG特征向量。

2.1.2 CN特征提取

CN算法把RGB内的色彩分成11个区域进行特征提取,但由于主要颜色只有2维,因此用PCA进行特征降维,降至2维,从而可以更好地区分目标和背景,算法的稳健性得以进一步提升。
算法在提取到了HOG特征和CN特征之后,能够得到更高维度的特征,并将其作为相关滤波的输入。

2.1.3 多特征融合

算法首先对差分的图像进行HOG特征提取,得到K1*L1*31的方向梯度直方图KD,再与原图像HOG提取到的K*L*31的方向梯度直方图KH进行线性融合得到特征M1,此特征即为最终的HOG特征。λ是正则化系数,取值为0.2。
M1=KD+KH
其次,算法再将HOG特征与先前CN算法降维后提取的两个维度的特征进行融合,由于HOG特征的通道数为31,CN特征的通道数为2,因此融合后的特征的通道数为33。特征融合公式如下:
M=(M1,MCN)
M1为方向梯度直方图特征,MCN为颜色特征,M为二者融合后得到的33个通道的特征。
最后,算法将得到的33个通道特征进行对应像素相加得到一个单一通道的融合特征。

2.2 尺度估计

传统的KCF目标跟踪算法是采用固定的窗口大小来训练滤波器,但是一旦目标的尺度发生变化,在目标继续运动的过程中,滤波器很容易出现漂移的现象,因此本文提出了一种用于目标尺度估计的尺度金字塔模型,建立了尺度估计策略,在被检测的目标附近采集一些图像块,用这些图像块对岭回归分类器进行训练,得到一维尺度滤波器来追踪检索出目标的位置,然后根据当前目标的位置,自适应地改变跟踪框的尺度大小,找到响应值最大的尺度,实现尺度缩放。
假设当前目标样本的大小为K*L,尺度为S,将目标中心大小为bnK*bnL的窗口标记为Qn,Qn的特征描述是尺度等级为n的训练样本。b表示尺度因子,n的取值范围如下:
n - S - 1 2 , - S - 3 2 , , 0 , , S - 3 2 , S - 1 2
算法以所选择的目标样本块为中心,提取h个尺度的样本,由此得到h个不同尺度的图像块,分别计算每一个图像块的响应值,其中响应值最大所对应的尺度即为当前目标的尺度因子,其中h=33。
在跟踪过程中为适应目标外观模型的变化,算法需要实时更新滤波器与目标外观模型,采用线性差值进行更新:
αm=βαm'+(1-β)αm-1xm=βxm'+(1-β)xm-1
式中,β为学习率,αmxm表示第m帧的参数和目标模板,αm-1xm-1表示第m-1帧的参数和目标模板。
在输入图像的下一帧中,算法通过获得与前一帧输入图像中目标大小相同的矩形区域,利用傅里叶变换可以完成对目标位置的估计,预测的目标位置为基本样本和训练样本之间的滤波最大响应值
f ^(z)= k ^ x z α ^
式中,☉为元素的点积,^表示傅里叶变换;基本样本为x,训练样本为z;基本样本与训练样本之间的核关系为kzx;α代表向量系数。

2.3 模型更新机制

目标跟踪过程中,由于目标与背景不断发生变化,应及时更新滤波器模型。本文提出了一种能够对跟踪器模型进行自适应更新的方法。该方法除了每次跟踪器更新前的初始帧外,还加入APCE多峰检测机制。如果没有外界的干扰,响应峰值中只会出现一个峰值,但是当有类似遮挡等干扰时,响应就会出现多峰。只有当响应值为单峰时才对跟踪器模型进行更新。
当处于多峰值模式的时候,该方法根据当前这一帧的APCE值和响应值的最大值来判断目标是否受到了一定的干扰,若APCE值小于响应值的最大值则不更新模型。APCE更新准则为
APCE= | F m a x - F m i n |   2 m e a n w , h ( F w , h - F m i n ) 2
式中,Fmax代表响应值的最大值,Fmin为响应值的最小值,Fw,h为目标在(w,h)处的响应值。
该方法加入多峰值检测机制在一定程度上能减少跟踪器的漂移现象,有效减少跟踪器的更新次数,起到一定的加速效果。

2.4 流程图

本文主要是对传统的核相关滤波算法进行改进。具体为特征提取与融合,目标自适应尺度估计与自适应模型更新。算法的整体流程如图1所示。
图1 改进后的KCF跟踪算法

Fig.1 Improved KCF tracking algorithm

3 实验结果和对比分析

为验证文中所提运动目标跟踪算法的准确率和成功率,本文选取跟踪领域权威公开的数据集OTB-2015[16]进行验证,并选取了3段复杂环境下的视频序列,所选视频序列面临的挑战有尺寸变化、抖动、遮挡、运动模糊,见表1
表1 所选视频序列的特征

Tab.1 Features of the selected video sequence

测试视频 woman suv dog1
尺寸变化
运动模糊
剧烈抖动
遮挡
总帧数 326 945 1 350
本文实验环境为Intel-i7,内存为16 GB,实验运行平台为MATLAB2021b,高斯核标准差σ是0.5,学习因子η是0.02,正则化系数λ是0.000 1。

3.1 实验数据集和评价指标

本研究使用的数据集为OTB02015,该数据集在OTB2013的基础上增加至100个视频序列,包括室内和室外的视频序列。数据集的每个视频序列都包含多种属性,这些属性分别为尺度变化、光照变化、目标形变、障碍物遮挡、运动模糊、平面内旋转、平面外旋转、快速移动等。本研究基于OTB2015数据集和相应的环境条件,测试了改进的算法以及当前热门的目标跟踪算法,并与之进行对比。实验选用一次通过率(OPE)作为标准,计算了成功率(success)和精确度(precision)。OPE表示为每个不同的图像序列只运行一次。本实验的评价指标包括距离精度的平均值和平均重叠率精度的平均值[17-18]。距离精度也即精确度,描述的是视频序列里中心误差低于某个阈值的帧数与视频序列总帧数的比值,能有效反映算法的鲁棒性。

3.1.1 成功率图

成功率图展示了算法在不同跟踪阈值下的成功率和重叠阈值之间的关系。成功率指的是算法成功跟踪目标的帧数占所有测试帧数的比例,而重叠率定义为 a r e a S G S T a r e a S G S T,SG代表跟踪目标的实际位置,ST代表跟踪目标框的中心位置,即两个边界框交集内的像素点个数/两个边界框并集内的像素点个数。如果在跟踪的过程中,视频序列每一帧的重叠率大于一定的阈值,表示跟踪成功。

3.1.2 精确度图

算法通过计算中心位置偏差(CLE)作为参数指标可以反映算法准确度。目标框与视频序列中每个帧的中心位置之间的距离就代表了中心位置偏差值。在精度图中,通常会绘制多条曲线,每条曲线代表一种不同的目标跟踪算法或参数设置。曲线上的每个点表示一个阈值,横坐标是该阈值下的位置误差率,纵坐标是该阈值下的准确率。曲线越靠近图像右上角,代表该算法在该阈值下的性能越好。

3.2 对比实验定量分析

为验证本文算法的精度与成功率,研究人员将本文的算法与当前热门的算法进行对比,它们分别为原KCF算法、SRDCF算法、STAPLE算法和DSST算法,对比的各序列成功率与精确度如图2所示。测试时选取了OTB2015中较为经典的序列,如图3 woman序列,图4 suv序列,图5 dog1序列。
图2 各算法运行精度和成功率对比

Fig.2 Comparison of running accuracy and success rate of various algorithms

图3 woman序列跟踪结果

Fig.3 Women sequence tracking results

图4 SUV序列跟踪结果

Fig.4 SUV sequence tracking results

图5 dog序列跟踪结果

Fig.5 Dog sequence tracking results

5种算法的跟踪性能如表2所示,可以得出,本文的改进算法OUR的精确度为81.4%,相较于其他几个算法分别提升了2.5%、3.1%、11.9%、12.8%,成功率为62.9%,相较于其他几个算法分别提升了3.1%、5.1%、11.2%、15.2%,也明显优于改进前的算法。
表2 五种算法跟踪性能比较

Tab.2 Comparison of tracking performance of five algorithms

算法 SRDCF STAPLE KCF DSST OUR
精确度/% 78.9 78.3 69.5 68.6 81.4
成功率/% 59.8 57.8 51.7 47.7 62.9
本文研究者通过分析woman序列中5种算法的跟踪过程发现,在woman序列中,从第250帧可看出,最初各个算法均能正常跟踪。在第260帧时当行人继续前进时,部分算法开始出现目标框漂移的现象。在第345帧时,行人的尺度渐渐发生变化,但本文改进后的跟踪器依然可以根据行人的尺度进行变化,其他跟踪器继续漂移。
本文研究者通过分析SUV序列中5种算法的跟踪过程发现,在SUV序列中,该视频序列全程窗口在晃动,在第89帧时,跟踪器还能进行正常跟踪,由于视频序列中目标的快速移动,在第160帧时各个跟踪器均出现目标框漂移的现象,在第240帧时,在一些算法中可能会出现跟踪失败的情况,而本文改进后的算法可以正常进行跟踪。
本文研究者通过分析dog1序列中5种算法的跟踪过程发现,在dog1序列第199帧时,各个跟踪算法都能进行稳定跟踪;在第316帧时,由于目标左右晃动,个别跟踪器跟踪失败,但本目标跟踪算法仍能稳定跟踪;在第906帧时,目标的尺度发生变化,但本跟踪算法的跟踪框能够根据目标的大小调整尺度,其他跟踪算法跟踪失败。

4 结束语

本文针对传统核相关滤波算法在目标出现遮挡、变形、尺度变化等干扰时跟踪精度不佳的情况,在核相关滤波的基础上,提出了一种融合HOG特征和CN特征的目标跟踪方法。同时采用尺度滤波器构建尺度金字塔,以实现目标跟踪框的尺度自适应,有效解决了跟踪过程中因目标尺度变化导致跟踪不准确的问题。
[1]
DANELLJAN M, BHAT G, KHAN F S, et al. ATOM: accurate tracking by overlap maximization[C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, 2020: 4 655-4 664.

[2]
SU Z Z, JI H B, TIAN C, et al. A robust Poisson multi-Bernoulli filter for multi-target tracking based on arithmetic average fusion[J]. Chinese Journal of Aeronautics, 2023, 36(2): 179-190.

[3]
XIE L, WANG P L, SONG S H, et al. Perceptive mobile network with distributed target monitoring terminals: leaking communication energy for sensing[J]. IEEE Transactions on Wireless Communications, 2022, 21(12): 10 193-10 207.

[4]
HENRIQUES J F, CASEIRO R, MARTINS P, et al. High-speed tracking with kernelized correlation filters[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(3): 583-596.

DOI PMID

[5]
胡昭华, 张倩. 自动全局上下文感知相关滤波器跟踪算法[J]. 南京信息工程大学学报(自然科学版), 2023, 15(1): 66-75.

HU Z H, ZHANG Q. Correlation filter tracking algorithm based on automatic global context awareness[J]. Journal of Nanjing University of Information Science & Technology(Natural Science Edition), 2023, 15(1): 66-75.

[6]
ZHANG Z P, PENG H W, FU J L, et al. Ocean: object-aware anchor-free tracking[M]// Computer Vision—ECCV 2020. Cham: Springer International Publishing, 2020: 771-787.

[7]
SUN M J, XIAO J M, LIM E G, et al. Fast template matching and update for video object tracking and segmentation[C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, 2020: 10 788-10 796.

[8]
张宇, 张焱, 石志广, 等. 基于图像衍生的红外无人机图像仿真方法研究[J]. 光学学报, 2022, 42(2): 99-112.

ZHANG Y, ZHANG Y, SHI Z G, et al. Image simulation method of infrared UAV based on image derivation[J]. Acta Optica Sinica, 2022, 42(2): 99-112.

[9]
DUBUISSON S, GONZALES C. A survey of datasets for visual tracking[J]. Machine Vision and Applications, 2016, 27(1): 23-52.

[10]
杨文焕, 翟雨, 殷亚萍, 等. 一种多目标检测跟踪算法研究[J]. 河北科技大学学报, 2022, 43(2): 127-136.

YANG W H, ZHAI Y, YIN Y P, et al. Research on a multi-target detection and tracking algorithm[J]. Journal of Hebei University of Science and Technology, 2022, 43(2): 127-136.

[11]
周正松, 陈虹君, 周红. 基于多特征融合的尺度自适应KCF目标跟踪算法[J]. 四川大学学报(自然科学版), 2020, 57(4): 697-703.

ZHOU Z S, CHEN H J, ZHOU H. Scale-adaptive kernel correlation filtering tracking algorithm based on multi-feature fusion[J]. Journal of Sichuan University(Natural Science Edition), 2020, 57(4): 697-703.

[12]
YIN J B, WANG W G, MENG Q H, et al. A unified object motion and affinity model for online multi-object tracking[C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, 2020: 6 767-6 776.

[13]
SAMDURKAR A S, KAMBLE S D, THAKUR N V, et al. Overview of object detection and tracking based on block matching techniques[C]// Proceedings of the Second International Conference on Research in Intelligent and Computing in Engineering", "Annals of Computer Science and Information Systems. 2017: 15-20.

[14]
SHI D M, CHEN X. Research on visual object tracking algorithm based on improved twin network[J]. Journal of Physics: Conference Series, 2021, 1966(1): 012006.

[15]
HENRIQUES J F, CASEIRO R, MARTINS P, et al. Exploiting the circulant structure of tracking-by-detection with kernels[M]//Computer Vision—ECCV 2012. Berlin, Heidelberg: Springer Berlin Heidelberg, 2012: 702-715.

[16]
WU Y, LIM J, YANG M H. Object tracking benchmark[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1 834-1 848.

[17]
张哲, 孙瑾, 杨刘涛. 融合相关滤波与关键点匹配的跟踪算法[J]. 光学学报, 2019, 39(2): 259-267.

ZHANG Z, SUN J, YANG L T. Tracking algorithm based on correlation filter fusing with keypoint matching[J]. Acta Optica Sinica, 2019, 39(2): 259-267.

[18]
陈志旺, 刘旺. 特征融合和自校正的多尺度改进KCF目标跟踪算法研究[J]. 高技术通讯, 2022, 32(4): 337-350.

CHEN Z W, LIU W. Research on improved multi-scale KCF target tracking algorithm based on features fusion and self-correction[J]. Chinese High Technology Letters, 2022, 32(4): 337-350.

Outlines

/