中国科技核心期刊      中国指挥与控制学会会刊     军事装备类重点期刊
理论研究

基于特征点的典型目标跟踪算法性能分析

  • 窦慧 ,
  • 赵书斌 ,
  • 王强
展开
  • 江苏自动化研究所, 江苏 连云港 222061

窦慧(1992-),女,硕士研究生,陕西榆林人,研究方向为目标跟踪。

赵书斌(1968-),男,博士,研究员。

王强(1986-),男,硕士,工程师。

收稿日期: 2016-11-02

  修回日期: 2016-12-04

  网络出版日期: 2022-05-20

Evaluation of Feature Points Based Object Tracking

  • DOU Hui ,
  • ZHAO Shu-bin ,
  • WANG Qiang
Expand
  • Jiangsu Automation Research Institute, Lianyungang 222061, China

Received date: 2016-11-02

  Revised date: 2016-12-04

  Online published: 2022-05-20

摘要

目标跟踪问题是当前计算机视觉领域中的热点问题之一。本文主要对基于特征点的目标跟踪进行介绍。首先,对目标跟踪的定义、过程和主要应用领域进行了概述;其次,阐述了运动目标跟踪算法的分类,并介绍了基于特征的跟踪算法的研究现状;随后介绍了典型的特征提取和描述方法,并从理论的角度分析各跟踪算法性能;针对基于特征点的典型跟踪算法,在目标尺度和形状的变化、跟踪过程中发生遮挡情况等方面的场景下进行实验,对算法性能进行分析比较。从理论和实验的角度相互验证了基于特征点的典型跟踪算法的性能并给出相关结论。

本文引用格式

窦慧 , 赵书斌 , 王强 . 基于特征点的典型目标跟踪算法性能分析[J]. 指挥控制与仿真, 2017 , 39(2) : 67 -75 . DOI: 10.3969/j.issn.1673-3819.2017.02.014

Abstract

Object tracking is an important task within the field of computer vision. This paper introduces the feature points based object tracking. First, we summarize the definition and process and application of object tracking. Second, the classifications and current situation of object tracking are shown. In addition,we give a brief introduction on the typical methods of feature extraction and description. The performance of tracking algorithms is compared in various video sequences on Matlab. Meanwhile, some future directions of visual tracking are addressed shortly.

目标跟踪是计算机视觉领域中的重要研究课题[1]。目标跟踪技术在人机交互[2]、智能交通[3]、无人驾驶[4]等方面有广泛应用。目标跟踪是指目标在某种场景中运动时,建立其在此期间的运动轨迹。换句话说,目标跟踪的目的是在序列图像中的每帧中实时地确定运动目标位置、速度等信息[5]
目标跟踪算法分为量测部分、更新策略、预测部分[6]。量测部分包括目标的表达和匹配过程;更新策略包括对模板、目标位置、速度等相关参数进行更新;预测部分是基于量测数据,利用滤波算法对目标状态进行预测。
运动目标跟踪算法根据目标的表达可分为基于区域的跟踪算法、基于轮廓的跟踪算法、基于模型的跟踪算法、基于特征的跟踪算法[7]
基于特征的跟踪算法使用目标的某个或某些局部特征表示目标。与基于区域的跟踪算法相比,基于特征的跟踪算法在目标发生部分遮挡时也可实现跟踪。与基于轮廓和基于模型的跟踪算法相比,基于特征的跟踪算法更具有普遍性,适用目标更广,计算复杂度更低[8]
基于特征的跟踪算法根据自身特性应用于不同情况。文献[9]采用基于Harris特征点的跟踪算法,提取目标上稳定性高的轮廓交叉点,不随目标姿态变化消失,从而确定目标模板进行跟踪,并通过实验证明跟踪具有极高的稳定性。文献[10]将简化SIFT算法应用于目标跟踪算法中,降低了算法复杂度和对内存空间的要求,并将算法应用到实际工程中。
基于特征的跟踪算法的跟踪流程包括:1)初始帧进行目标检测或直接选取目标;2)选取合适的模板并进行特征提取和表达;3)读取视频当前帧图像,根据滤波算法获得目标在当前帧的预测参数,确定搜索范围;4)在搜索范围内进行特征提取和表达,以一定的匹配算法对当前帧特征和模板特征进行匹配;5)验证匹配结果,若匹配成功则根据匹配特征对参数确定目标在当前帧的位置等信息,并按策略更新模板,若匹配失败则放弃该帧;重复过程2)~5)对目标进行跟踪。
由此可见,基于特征的跟踪算法最关键的问题之一是特征的选择、提取和描述,针对具体场景选取合适的目标特征,是目标跟踪成败的关键。本文主要讨论摄像机静止条件下采用不同特征点对目标跟踪算法的影响,故省略目标跟踪中的滤波过程。
影响目标跟踪技术的主要因素有:背景的光照变化;背景中存在与目标相似的区域;目标尺度和形状的变化;跟踪过程中发生遮挡情况等。故本文主要针对基于特征点的典型跟踪算法,在目标尺度和形状变化、跟踪过程中发生遮挡情况等方面的场景下进行实验,并对采用不同特征点的跟踪算法的性能进行分析比较。

1 图像特征点的提取和描述

特征点作为典型特征广泛应用于目标跟踪算法中。特征点主要分为角点和斑点。经典的角点检测方法如下:1980年,Moravec提出了利用灰度方差检测兴趣点的算法算子[11];1988年,Harris和Stephens在Moravec 算子基础上改进提出Harris算子[12];1997 年 Smith 等人提出的一种用最小核心值相似区域提取特征点的方法,即SUSAN算子[13];用图像滤波响应的局部极值点表示的特征点称为斑点;2004年, Lowe 结合尺度空间相关特性,提出了具有尺度不变性和旋转不变性的SIFT 算子[14];2008年,Bay在SIFT 算子基础上改进提出SURF算子[15],在速度上极大地优于SIFT算子性能。

1.1 Harris算子

w(x,y)是高斯平滑因子,像素点(x,y)的灰度f(x,y),fx,fy为图像灰度在xy方向梯度向量的分量,像素点(x,y)的灰度平均变化量E(u,v)利用泰勒级数沿xy方向展开,则表示为
E(u,v)= x , yW(x,y)(f(x+u,y+v)-f(x,y))2
= x , y w ( x , y ) ( u f x + v f y + O ( u 2 + v 2 ) ) 2
令对称矩阵M:
M= x , yw(x,y) f x 2 f x f y f x f y f y 2
E(u,v)≅[u,v]M u v
E(u,v)=const,求取矩阵M的特征值λ1λ2。当λ1λ2值较大且大小相差不大时,E(u,v)在各个方向变化大,认为像素点为角点;故角点响应函数定义为:
R=detM-k(trM)2
其中M与其特征值λ1λ2具有如下关系:
detM=λ1λ2
trM=λ12
计算各像素点的R值,当R大于设定的阈值时,则认为该点为角点。通常k=0.04~0.06。灰度图像中,常采用角点所在像素的灰度值u(x,y)对特征点进行描述。

1.2 SIFT算法

SIFT算法实现特征提取主要有以下几个步骤:
1) 检测尺度空间极值点
在DOG尺度空间中定义函数为D(x,y,σ),G(x,y,σ)为高斯函数,常数k为尺度空间比例系数。
D(x,y,σ)=(g(x,y,kσ)-g(x,y,σ))*I(x,y)=L(x,y,kσ)-L(x,y,σ)
SIFT算法通过 DOG 算子检测尺度不变特征点。在DOG金字塔空间中搜索函数在三维邻域取极值的点,确定为关键点。
2) 精确定位关键点
利用Hessian 矩阵去除边缘响应点。设λ1λ2为 Hessian 矩阵的特征值,比值为r,则
H= D x x D x y D x y D y y
det H=DxxDyy-(Dxy)21λ2
trH=Dxx+Dyy12
ratio= ( t r H ) 2 d e t H= ( λ 1 + λ 2 ) 2 λ 1 λ 2= ( r + 1 ) 2 r
r,若ratio ( r + 1 ) 2 r,保留关键点,反之去除。
3) 确定关键点方向
为特征点指定方向参数,使算子具有旋转不变性。
m(x,y)= ( L ( x + 1 , y ) - L ( x - 1 , y ) ) 2 + ( L ( x , y + 1 ) - L ( x , y - 1 ) ) 2
θ(x,y)=arctan2((L(x,y+1)-L(x,y-1))/(L(x+1,y)-L(x-1,y)))
当另一个峰值能量大于主峰值能量的80%,将这个方向认为是关键点的辅方向。至此,关键点检测完成,每个关键点具有3个信息:位置、尺度和方向。
4) 生成特征描述符
将坐标轴旋转为关键点的方向,以关键点为中心取8*8大小的窗口,在每4*4区域内计算8个方向的梯度方向直方图,生成一个2*2*8的32维的特征向量。实际计算时,采用4*4*8的128维的特征向量,形成特征描述子。

1.3 SURF算法

1) 构建Hessian矩阵
通过Hessian矩阵提取特征点。设像素I(x,y), Hessian矩阵的定义为:
H(x,σ)= L x x ( x , σ ) L x y ( x , σ ) L x y ( x , σ ) L y y ( x , σ )
利用高斯函数滤波:
L(x,t)=G(t)·I(x,t)
G(t)= 2 g ( x ) x 2
式中,g(x)为高斯函数,t为高斯方差。为简化运算提升速率,用D(x,t)代替L(x,t)。所以Hessian矩阵判别式定义:
det(Happrox)=DxxDyy-(0.9Dxy)2
权值0.9为经验值。根据判别式符号对像素点分类,确定是否为极值点。
2) 构建尺度空间
在SURF算法中,图片的尺寸是不变的,通过调整高斯模板的尺度处理图片,得到待处理图片。SURF算法可以并行处理不同多层图像,极大地提升运算速度。
3) 确定特征点
此步骤与SIFT算法相似,对经过Hessian矩阵处理过的像素点与其三维邻域内相邻的26个点比较,当其值为极值时保留为特征点,否则舍弃。
4) 确定特征点主方向
通过统计特征点邻域内的Harr小波特征确定方向。在特征点邻域内统计60°扇形区域内全部像素点的Haar小波特征。60°扇形区域以一定间隔旋转,将最大值的扇形方向作为特征点主方向。
5) 构造特征描述子
在特征点的周围取边长为20倍所在尺度的正方形框,方向为主方向,将其分为4*4的子块,每个子块取5*5的采样点,统计采样点的Haar小波特征dxdy。对每个子块dxdy、|dx|、|dy|分别求和。则每个特征点可以构成4*4*4=64维的特征描述子。

1.4 理论分析

各特征提取和表示算法的理论基础决定了基于特征的目标跟踪算法的根本性质。特征点是目标局部特征,目标部分遮挡情况下有机会利用其未遮挡的特征点实现跟踪,故基于特征点的跟踪算法均具有一定的抗遮挡能力。
Harris算法提取的角点特征,不受目标旋转变化影响,故基于Harris的跟踪算法可以一定程度上实现跟踪发生旋转变化的目标。Harris算法在不同尺度上提取的角点并不相同,故经典基于Harris的跟踪算法对尺度发生变化的目标无法实现跟踪。SIFT和SURF算子在尺度空间中构建,具有尺度不变性,故理论上基于SIFT和SURF的跟踪算法具有一定处理目标发生尺度变化的能力。SIFT和SURF的特征描述符分别为包含方向的128维和64维特征向量,算子具有旋转不变性,故理论上基于SIFT和SURF的跟踪算法具有一定处理目标发生旋转变化的能力。

2 实验及算法性能评估

基于上文的理论分析,对基于特征点的目标跟踪算法进行实验。本文主要讨论跟踪过程中目标出现各种变化时,各基于特征点的跟踪算法性能的优劣。
本文采用一段500帧的240*256的视频和一段482帧的360*240的视频作为测试序列,以Matlab2012a为仿真工具进行实验。下图图片为在不同跟踪算法实验中分别截取相同帧对跟踪结果进行观察。跟踪算法的评价主要考虑:①精确性,算法检测到的目标和真实的目标之间的符合程度;②距离误差,算法检测到的目标位置和实际目标位置间的距离。本文中均以矩形模板的中心点作为目标位置。本文主要用presicion和Err进行性能评价。
scoret= a r e a R O I T R O I G a r e a R O I T R O I G
presicion= tscoret/n
其中,scoret表示t时刻检测目标和真实目标面积的交集和并集的比。presicionscoret的平均值,其范围在0-1,值越靠近1,算法性能越好。
Err= t ( x t - x ^ t ) 2 + ( y t - y ^ t ) 2/n
其中,Err为目标的位置平均误差,xt,yt为目标t时刻的真实位置的质心位置, x ^ t, y ^ t为跟踪位置算法t时刻跟踪得到的质心位置。n为总帧数。Err表示以像素为单位的距离,值越小表示算法性能越好。
1) 目标遮挡情况下的性能评估
第一段实验视频的实验结果如图1-3所示。
图1 实验一遮挡情况下基于harris的目标跟踪算法
图2 实验一遮挡情况下基于SIFT的目标跟踪算法
图3 实验一遮挡情况下基于SURF的目标跟踪算法
第二段实验视频的实验结果如图4-6所示。
图4 实验二遮挡情况下基于harris的目标跟踪算法
图5 实验二遮挡情况下基于SIFT的目标跟踪算法
图6 实验二遮挡情况下基于SURF的目标跟踪算法
根据如上实验情况进行性能分析,结果如表1、2所示。
表1 精确性1 presicion
实验数据一 实验数据二
harris 0.8590 0.8797
SIFT 0.9146 0.9245
SURF 0.9156 0.9285
表2 距离误差1 Err
实验数据一 实验数据二
harris 2.0051 1.8548
SIFT 1.4055 1.2563
SURF 1.3112 1.3254
从上各图表可以看出,当目标正常移动时,三种算法提取到的目标的特征点的精确性较高,距离误差较低,均可以较好地完成目标跟踪。出现遮挡时,纵向比较,三种算法均出现准确性轻微下降,距离误差增加,但各性能保持良好。横向比较,基于Harris的跟踪算法各指标基于Harris的跟踪算法数据稍差于基于SIFT、SURF的跟踪算法。三种算法的均有一定抗遮挡性。两次实验中,基于Harris的跟踪算法数据较其他两种算法变化较大,对不同的实验情形稳定性较差。
2) 目标旋转情况下的性能评估
本文测试视频的目标每帧以某一角度旋转,旋转至回到原点。分为帧间目标旋转角度5°、帧间目标旋转10°两种情况。
第一段实验视频的实验结果如图7-12所示。
图7 帧间旋转5°基于harris的目标跟踪算法
图8 帧间旋转5°基于SIFT的目标跟踪算法
图9 帧间旋转5°基于SURF的目标跟踪算法
图10 帧间旋转10°基于harris的目标跟踪算法
图11 帧间旋转10°基于SIFT的目标跟踪算法
图12 帧间旋转10°基于SURF的目标跟踪算法
第二段实验视频的实验结果如图13-18所示。
图13 帧间旋转5°基于harris的目标跟踪算法
图14 帧间旋转5°基于SIFT的目标跟踪算法
图15 帧间旋转5°基于SURF的目标跟踪算法
图16 帧间旋转10°基于harris的目标跟踪算法
图17 帧间旋转10°基于SIFT的目标跟踪算法
图18 帧间旋转10°基于SURF的目标跟踪算法
根据如上实验情况进行性能分析,结果如表3、4所示。
表3 精确性2 presicion
实验数据一 实验数据二
帧间旋转5° 帧间旋转10° 帧间旋转5° 帧间旋转10°
harris 0.8791 0.8113 0.8574 0.7923
SIFT 0.8920 0.8275 0.8956 0.8859
SURF 0.8837 0.8163 0.8823 0.8646
表4 距离误差2 Err
实验数据一 实验数据二
帧间旋转5° 帧间旋转10° 帧间旋转5° 帧间旋转10°
harris 3.7808 4.5284 3.4815 4.0257
SIFT 1.6742 1.9138 1.7528 2.0548
SURF 1.6999 2.4618 1.8169 2.4875
从上各表可以看出,当目标发生旋转、目标帧间旋转角度变大时,纵向比较三种算法均出现精确性轻微下降,距离误差增加。其中基于SIFT和SURF的跟踪算法精确性下降幅度相对较小。横向比较,基于Harris的跟踪算法在旋转角度较小时的稳定性明显差于其他两种算法,其他性能稍差于基于SIFT、SURF的跟踪算法。三种算法均有一定的旋转不变性,且在目标帧间旋转角度较小时性能更优。相对比而言,基于SIFT和SURF的跟踪算法旋转不变性相对较好。两次实验中,基于Harris的跟踪算法数据变化较大,其旋转不变性较为不稳定。其中基于SIFT的跟踪算法的数据变化最小,算法旋转不变性的稳定性最高。
3) 目标尺度变换情况下的性能评估
本文测试视频中,目标进行尺度缩放至一定比例,帧间缩放的百分比一定。分为尺度缩放比例较小(0.7-1.6)、尺度缩放比例较大(0.5-1.8)两种情况。
第一段实验视频的实验结果如图19-24所示。
图19 缩放比例小时基于harris的目标跟踪算法
图20 缩放比例小时基于SIFT的目标跟踪算法
图21 缩放比例小时基于SURF的目标跟踪算法
图22 缩放比例大时基于harris的目标跟踪算法
图23 缩放比例大时基于SIFT的目标跟踪算法
图24 缩放比例大时基于SURF的目标跟踪算法
第二段实验视频的实验结果如图25-30所示。
图25 缩放比例小时基于harris的目标跟踪算法
图26 缩放比例小时基于SIFT的目标跟踪算法
图27 缩放比例小时基于SURF的目标跟踪算法
图28 缩放比例大时基于harris的目标跟踪算法
图29 缩放比例大时基于SIFT的目标跟踪算法
图30 缩放比例大时基于SURF的目标跟踪算法
根据如上实验情况进行性能分析,结果如表5、6所示。
表5 精确性3 presicion
实验数据一 实验数据二
缩放比例小 缩放比例大 缩放比例小 缩放比例大
harris 0.5485 0.4387 0.3884 0.3541
SIFT 0.9246 0.8308 0.9175 0.8429
SURF 0.9103 0.8952 0.9163 0.8759
表6 距离误差3 Err
实验数据一 实验数据二
缩放比例小 缩放比例大 缩放比例小 缩放比例大
harris 24.9816 32.2916 35.4156 38.7598
SIFT 2.2979 3.9652 1.9486 2.9478
SURF 1.3999 2.7347 1.9397 2.8471
由上各表可以得出,目标出现尺度缩放时,基于Harris的跟踪算法各性能指标远低于其他算法,不能完成目标跟踪,后面不做讨论。
当目标尺度缩放变大时,纵向比较,基于SIFT、SURF的跟踪算法各性能指标均出现下降,但仍能很好地完成目标跟踪。横向比较,基于SIFT、SURF的跟踪算法精确性相似。在缩放比例较大时,基于SIFT的跟踪算法距离误差更小。由此可知,基于Harris的跟踪算法不具有尺度不变性。基于SIFT和SURF的跟踪算法具有良好的尺度不变性。两次实验比较发现,基于SIFT的跟踪算法的尺度不变性的稳定性最好。

3 结束语

随着人工智能技术的快速发展,利用深度学习网络提取特征点被应用到运动目标跟踪中。深度学习提出了一种让计算机自动学习特征的方法,并将特征学习融入到了建模的过程中,与上文研究的特征提取算法相比,深度学习技术减少了人为设计特征造成的不完备性。目前以深度学习为核心的某些目标跟踪系统,可以实现在特定条件应用场景下良好的跟踪性能。但这些算法实现的前提是,使用者能够提供海量级的数据。在只能提供相对较少数据量的场景下,深度学习算法不能够对数据的规律进行无偏差的估计,因此在跟踪效果上可能不如一些已有的简单算法。同时,深度学习模型的复杂化导致了算法的时间复杂度急剧提升,需要GPU并行计算、云计算和大数据等相关领域技术的支持以及更多的硬件支持。未来,深度学习技术的发展将会大大促进目标跟踪技术性能的提升。
[1]
Yilmaz A, Shatique K, Shah M. Target tracing in airborne forward looking intrared imagery[J]. Image and Vision Computing, 2003, 21(7):623-635.

DOI

[2]
Clipolla R. Computer Vision for Human-Machine interaction[M]. Cambridge University UniversityPress, 1998.

[3]
Babu RV, Patrick P rez, et al. Robust tracking with motion estimation and local Kernel-based color modeling[J]. Image Vision Computing, 2007, 25(8):1205-1216.

DOI

[4]
Comaniciu D, Ramesh V, Meer P. Kerrel-based object tracking[J]. IEEE Transactions on pattern anacysis and Macnine inteccigence, 2003, 25(5):564-577.

[5]
Schmid C, Mohr R, Bauckhage C. Evacuation of interest point detectors[J]. International Journal of Computer vision, 2000, 37(2):151-172.

DOI

[6]
Yilmaz A, Javed O, Shah M. Object tracking: A survey[J]. Acm computing surveys(CSUR), 2006, 38(4):13.

[7]
戴家树, 邓廷权, 董天祯, 等. 基于核主元投影的视觉跟踪算法[J]. 计算机仿真, 2013, 30(9):406-409.

[8]
奚慧婷. 刚体运动目标的跟踪算法研究[D]. 上海: 华东师范大学, 2008.

[9]
Xia L, Sheng B, Wu W, et al. Accurate gaze tracking from single camera using gabor corner detector[J]. Muctimedia Tools and Appcictions, 2016, 75(1):221-239.

[10]
Joshi K A, Thakore D G. A survey on moving object deteetion and tracking in video sarveiuance system[J]. International Journal of soft computing and Engineering, 2012, 2(3):44-48.

[11]
Li J, Allinson NM. A comprenensive review of carrent local features for computer vision[J]. Neurocomputing, 2008, 71(10):1771-1787.

DOI

[12]
Hsiao PY, Lu CL, Fu LC. Multilayered image processing for muctiscale hamis corner detection in digital reacization[J]. IEEE Transactions on Industrial Electronics, 2010, 57(5):1799-1805.

DOI

[13]
Smith SM, Brady JM. SUSAN: A New Approach to Low Level Image Processing[J]. In Journal of Computer Vision, 1997, 23(1):45-78.

DOI

[14]
Lowe D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision, 2004, 2(60):91-110.

[15]
Bay H, Ess A, Tinne Tuytelaars, LucVan Gool. SURF: Speeded Up Robust Features[J]. Computer Vision and Image Understanding, 2008, 110(3):346-359.

DOI

文章导航

/