中国科技核心期刊      中国指挥与控制学会会刊     军事装备类重点期刊
信息融合

基于改进YOLOv8+DeepSORT的多行人追踪算法

  • 张杨 ,
  • 张丹丹
展开
  • 河南应用技术职业学院, 河南 郑州 450042

张 杨(1987—),男,本科,讲师,研究方向为计算机科学。

张丹丹(1988—),女,硕士,副教授。

Office editor: 许韦韦

收稿日期: 2025-02-06

  修回日期: 2025-03-05

  网络出版日期: 2026-03-25

Multi-pedestrian tracking algorithm based on enhanced YOLOv8 and DeepSORT

  • ZHANG Yang ,
  • ZHANG Dandan
Expand
  • Henan Vocational College of Applied Technology, Zhengzhou 450042, China

Received date: 2025-02-06

  Revised date: 2025-03-05

  Online published: 2026-03-25

摘要

针对复杂场景下多行人追踪中目标遮挡与外观相似性导致的轨迹中断问题,提出融合改进YOLOv8与DeepSORT的鲁棒跟踪算法。方法上,通过InceptionNext Block重构检测网络骨干增强特征表达能力,采用VoV-GSCSP模块优化多尺度特征融合;结合NSA Kalman滤波器改进运动预测模型,并引入AFLink算法实现跨帧轨迹关联。实验表明,改进模型在MOT20数据集上MOTP提升了0.9,HOTA提升了0.7,显著提升了遮挡场景下的定位精度与轨迹连续性,为密集人群追踪提供了有效的技术方案。

本文引用格式

张杨 , 张丹丹 . 基于改进YOLOv8+DeepSORT的多行人追踪算法[J]. 指挥控制与仿真, 2026 , 48(2) : 77 -82 . DOI: 10.3969/j.issn.1673-3819.2026.02.011

Abstract

To address the issue of trajectory interruptions caused by target occlusion and appearance similarity in multi-pedestrian tracking within complex scenes, this study proposes a robust tracking algorithm that integrates an improved YOLOv8 with DeepSORT. Methodologically, the detection network backbone is reconstructed using the InceptionNext Block to enhance feature representation capability, and the VoV-GSCSP module is employed to optimize multi-scale feature fusion. Additionally, the motion prediction model is improved by incorporating the NSA Kalman filter, and the AFLink algorithm is introduced to achieve cross-frame trajectory association. Experimental results demonstrate that the improved model achieves a 0.9 increase in MOTP and a 0.7 increase in HOTA on the MOT20 dataset, significantly enhancing localization accuracy and trajectory continuity in occlusion scenarios. This provides an effective technical solution for dense crowd tracking.

随着计算机视觉技术的发展,多行人追踪在智能监控等领域的重要性日益凸显,但目标遮挡、外观相似性等挑战仍制约其性能[1-4]。当前主流方法可分为三类:基于检测的跟踪(TBD,Tracking-By-Detection)如SORT[5](卡尔曼滤波+匈牙利算法)及其改进型DeepSORT[6](引入ReID特征)、ByteTrack[7](二阶段关联低置信度框);联合检测跟踪(JDT,Joint Detection and Tracking)如FairMOT[8-9](共享检测-ReID特征)和CenterTrack[10](中心点跟踪);基于注意力机制的TransTrack[11](Transformer时空建模)。上述方法在实时性、遮挡处理等方面各有限制[2-12]
本文采用TBD框架,基于改进的YOLOv8与DeepSORT,构建高效追踪系统。针对YOLOv8在密集场景的不足,重构骨干网络为InceptionNext Block并采用VoV-GSCSP模块增强多尺度特征融合[4,12]。针对DeepSORT轨迹中断问题,集成NSA Kalman(多帧相似度累积)和AFLink(时空轨迹关联)技术[12],显著提升遮挡场景下的跟踪连续性。实验表明,该方法在公开数据集上关键指标显著优化,为复杂场景多行人追踪提供了可靠解决方案。

1 改进YOLOv8+Deepsort多行人跟踪模型

1.1 网络架构

针对传统的“YOLOv8+Deepsort”追踪模型在低光、目标数量较多、目标较小场景下跟踪效果不佳,漏检率与误检率较高的问题,本文提出了一种改进YOLOv8+Deepsort模型来提高追踪性能。
图1所示,对于目标检测网络,本算法使用InceptionNext[13]网络作为主干网络,并使用GSConv+VoV-GSCSP[14]的bottleneck结构堆叠构成颈部网络;对于目标追踪网络,使用NSA Kalman代替传统卡尔曼滤波,并在级联匹配后加入AFLink,改进后的模型显著提高了模型追踪性能,有效降低了误检率与漏检率。
图1 改进YOLOv8+Deepsort模型结构图

Fig.1 Improved YOLOv8+DeepSort model structure

1.2 InceptionNext Block

InceptionNext Block是一种创新的卷积神经网络模块,旨在通过结合Inception和ConvNext的设计思想,优化大核深度卷积的计算效率,同时保持模型的高性能。近年来,大核深度卷积(如7×7卷积)被广泛应用于视觉任务中,以扩大感受野并提升模型性能。然而,尽管大核深度卷积在FLOPs上消耗较少,但其高内存访问成本导致在实际计算设备(如GPU)上的效率较低。为了解决这一问题,InceptionNext Block提出将大核深度卷积分解为多个并行分支,包括小方形核、正交带状核和恒等映射,从而在减少计算复杂度的同时,保留大核卷积的感受野优势。
图2所示,InceptionNext Block的核心结构包括输入特征图的分组、并行卷积分支以及特征融合三个关键组件。输入特征图首先沿通道维度被分为四组:第一组通过一个3×3卷积核;第二组通过一个1×11的水平带状核进行卷积;第三组通过一个11×1的垂直带状核进行卷积;第四组保持不变,直接作为恒等映射分支。这种分组策略允许模型仅对部分通道进行深度卷积操作,从而显著减少计算量。每个分支的卷积操作如下:3×3小方形核分支用于捕获局部特征;1×11水平带状核分支专注于水平方向的特征提取;11×1垂直带状核分支专注于垂直方向的特征提取;恒等映射分支直接传递输入特征,保留原始信息。各分支的输出在通道维度上进行拼接,形成最终的特征图。这种多分支结构不仅扩大了感受野,还增强了模型对不同尺度特征的表达能力。
图2 Inception Next Block结构图

Fig.2 Structure diagram of Inception Next Block

InceptionNext Block的设计具有显著的技术优势,首先,通过分解大核卷积为多个小核卷积,显著降低了内存访问成本和计算复杂度;其次,多分支结构能够同时捕获局部和全局特征,增强了模型的表达能力。

1.3 VoV-GSCSP

VoV-GSCSP是一种基于VoVNet和CSP设计的高效特征融合模块,旨在优化目标检测模型中的颈部网络(Neck)结构。目标检测任务中,颈部网络负责对骨干网络(Backbone)提取的多尺度特征进行融合和增强。传统的颈部网络(如FPN、PANet)虽然能够有效融合特征,但其计算复杂度和参数量较高,难以在资源受限的设备上高效运行。VoV-GSCSP的提出正是为了解决这一问题,通过引入VoVNet的一次性聚合机制和CSP的分阶段特征融合策略,实现了高效的特征融合和计算优化。
VoV-GSCSP的结构设计主要包括输入特征图的分割、GSConv模块、一次性聚合机制以及特征融合与输出四个部分。输入特征图被分为两部分,一部分直接传递到输出,另一部分进入后续的卷积操作,其结构如图3所示。
图3 VoV-GSCSP结构图

Fig.3 Structure diagram of VoV-GSCSP

其中,GSConv作为核心卷积操作,其结构如图4所示。GSConv通过结合标准卷积和深度可分离卷积,在降低计算复杂度的同时,保留了丰富的特征信息。VoV-GSCSP采用VoVNet的一次性聚合机制,将不同阶段的特征图直接聚合到最终输出中,避免了传统多阶段聚合带来的计算冗余。最终,经过GSConv和一次性聚合机制处理后的特征图与直接传递的特征图进行融合,生成输出特征图。
图4 GSConv结构图

Fig.4 Structure diagram of GSConv

VoV-GSCSP的核心思想结合了VoVNet的一次性聚合机制和CSP的分阶段特征融合策略。VoVNet通过一次性聚合机制,将不同阶段的特征图直接聚合到最终输出中,避免了传统多阶段聚合带来的计算冗余。CSP网络则通过将特征图分为两部分,一部分直接传递到下一阶段,另一部分经过卷积操作后再与传递部分融合。这种设计能够减少特征冗余,提高特征利用率。

1.4 NSA Kalman

NSA Kalman(Noise-Adaptive Kalman Filter)是一种改进的卡尔曼滤波算法,旨在解决传统卡尔曼滤波在低质量检测下表现不佳的问题。传统卡尔曼滤波通常假设测量噪声协方差矩阵Rk为固定值,然而在实际应用中,检测质量可能因目标遮挡、光照变化或低分辨率等因素而波动,导致固定的噪声协方差矩阵无法准确反映当前帧的检测噪声水平。NSA通过引入检测置信度分数ck,动态调整测量噪声协方差矩阵,从而在目标跟踪过程中更好地适应检测噪声的变化,提升状态估计的准确性。
NSA的核心思想是通过检测置信度分数ck自适应调整测量噪声协方差矩阵 R ˜ k,其计算公式为
R ˜ k=(1-ck)Rk
当检测置信度较高时, R ˜ k会减小,表明当前检测的噪声较低,卡尔曼滤波在状态更新时会赋予检测结果更高的权重;反之,当检测置信度较低时, R ˜ k会增大,表明当前检测的噪声较高,卡尔曼滤波在状态更新时会降低检测结果的权重。这种自适应机制使得NSA能够更好地处理检测质量的波动,从而提升状态估计的鲁棒性。
NSA的状态更新过程与传统卡尔曼滤波类似,但在计算卡尔曼增益时使用了自适应调整后的测量噪声协方差矩阵 R ˜ k。具体而言,状态预测步骤通过状态转移矩阵Fk和过程噪声协方差矩阵Qk计算当前帧的状态估计 x ^'k和协方差矩阵P'k:
x ^'k=Fk x ^ k - 1
P'k=FkPk-1+Qk
随后,卡尔曼增益K通过观测矩阵Hk和自适应测量噪声协方差矩阵 R ˜ k计算:
K=P'k H k T(HkP'k H k T+ R ˜ k)-1
最后,状态更新通过当前帧的测量值zk和卡尔曼增益K完成:
xk= x ̑'k+K(zk-Hk x ̑'k)
Pk=(I-KHk)P'k
其中,I是单位矩阵。通过引入检测置信度分数ck,NSA能够动态调整测量噪声协方差矩阵,从而在检测质量波动时保持状态估计的稳定性。

1.5 AFLink

AFLink(Appearance-Free Link Model)是一种用于多目标跟踪任务的全局关联模型,旨在解决多目标跟踪中的缺失关联(missing association)问题。与传统的依赖外观特征的关联方法不同,AFLink仅利用时空信息来预测两个轨迹片段是否属于同一个目标,从而在速度和准确性之间取得了良好的平衡。AFLink的设计动机在于减少对外观特征的依赖,避免因目标外观变化或遮挡导致的关联失败,同时降低计算复杂度。
AFLink的输入是两个轨迹片段TiTj,每个轨迹片段由最近30帧的帧ID和位置信息组成。具体而言,每个轨迹片段T*可以表示为
T*= { f k s, x k s, y k s } k = k * k * + N - 1
其中, f k s是第k帧的帧ID,( x k s, y k s)是目标在第k帧的位置坐标。对于长度不足30帧的轨迹片段,采用零填充(zero padding)进行处理。AFLink的框架采用双分支结构,分别处理两个输入轨迹片段。每个分支包含时间模块(Temporal Module)和融合模块(Fusion Module)。时间模块沿时间维度进行卷积操作提取特征,使用四个卷积层,核大小为7×1,输出通道数分别为32、64、128和256,每个卷积层后接批归一化层和ReLU激活层。融合模块则通过一个1×3的卷积层整合不同特征维度的信息(帧ID、x坐标和y坐标),同样后接BN和ReLU层。融合后的特征图经过池化和压缩操作后,拼接成一个特征向量,并输入一个多层感知机(MLP)中。MLP包含两个全连接层,中间插入一个ReLU层,最终输出一个关联置信度分数。
AFLink的训练过程被形式化为一个二分类任务,目标是预测两个轨迹片段是否属于同一个目标。训练时采用二元交叉熵损失函数(Binary Cross-Entropy Loss)进行优化,训练数据通过将标注轨迹随机切割成轨迹片段并添加随机时空噪声生成,正负样本比例为1:3。在推理阶段,AFLink首先通过时空约束过滤掉不合理的轨迹片段对,例如帧间隔超过30帧或空间距离超过75像素的片段对。随后,使用预测的关联置信度分数解决全局关联问题,将其形式化为线性分配任务,并通过匈牙利算法求解。

2 实验与分析

2.1 数据集选择

MOT20(Multi-Object Tracking 2020)是多目标跟踪领域的一个重要基准数据集,专注于高密度人群环境下的多目标跟踪任务。数据集由训练集和测试集组成,分别包含4个视频序列,共计8 931帧和4 479帧。每个视频序列的分辨率为1 920×1 080。

2.2 训练平台与训练参数

在Windows10系统上搭建基于Pytorch的模型训练平台,使用Nvidia GeForce GTX 3060(12G)显卡进行模型训练与验证,主要训练参数如表1所示。
表1 网络训练参数

Tab.1 Network training parameters

参数 数值
Epoch/训练轮数 500
BatchSize/批大小 16
Optimizer/优化器 Adam
lr/学习率 0.001
权重衰减率 0.001
匹配阈值 0.7
最大丢失帧数 30
最小命中次数 5
特征相似度阈值 0.5

2.3 评价指标

使用多目标追踪准确率(MOTA,Multi-object Tracking Accuracy)、多目标追踪定位准确率(MOTP,Multi-object Tracking Precision)和高阶跟踪精度(HOTA,Higher Order Tracking Accuracy)评估模型在多行人追踪任务上的效果。
MOTA设计目的是综合考虑误检率(FN,False Negative)、漏检率(FP,False Positive)和ID切换(IDs,Identity Switches)的影响,从而全面评估跟踪算法的整体精度。其计算公式为
MOTA=1- F N + F P + I D s G T
其中,GT表示真实目标的总数。MOTA的取值范围为(-¥,1],值越接近1表示跟踪性能越好。
MOTP则专注于目标定位的精度,用于衡量跟踪算法在目标位置估计上的准确性。MOTP通过计算预测边界框与真实边界框之间的IoU来评估定位精度,其计算公式为
MOTP= t , i ( b t , i , b ^ t , i ) t t
其中,bt,i b ^ t , i分别表示第t帧中第i个目标的真实边界框和预测边界框,TPt表示第t帧中的真正例数量。MOTP的取值范围为[-1,1],值越接近1表示定位精度越高。与MOTA不同,MOTP仅关注目标定位的准确性,不涉及目标关联或ID切换问题,因此其独立性使其能够单独反映算法在边界框估计上的性能。
HOTA通过结合检测、关联和定位三个子任务的性能,提供了一个更全面、更平衡的评估框架。HOTA的核心思想是将多目标跟踪任务分解为三个子任务:检测(Detection)、关联(Association)和定位(Localization),并通过交并比(IoU)公式为每个子任务计算得分,最终将这些得分组合成HOTA值。检测得分(DetA)通过计算TP、FP和FN的数量来衡量检测器的性能,公式为
DetA= T P T P + F P + F N
关联得分(AssA)通过计算真正例关联(TPA)、假正例关联(FPA)和假反例关联(FNA)的数量来衡量跟踪器的关联性能,公式为
AssA= 1 T P c { T P } T P A ( c ) T P A ( c ) + F N A ( c ) + F P A ( c )
定位得分(LocA)通过计算预测检测框与真实检测框之间的IoU来衡量空间对齐程度,公式为
LocA= 1 T P c { T P } IOUc
HOTA通过几何平均数的形式将DetAAssA结合起来,并在不同IoU阈值(α)下计算得分,公式为
HOTAα= D e t A α · A s s A α
最终HOTA得分为所有α阈值下HOTAα的平均值,公式为
HOTA= 1 19 α { 0.05,0.1 , , 0.95 } HOTAα

2.4 实验结果与分析

作者选取主流的深度学习多目标追踪模型SGT[15]、FCG[16]、SimpleTrack[17]、SFSort[18]与本文模型,在验证集上进行对比试验。其中,SGT是一种基于稀疏图的多目标跟踪算法,通过构建前后帧之间的稀疏图并利用图神经网络(GNN)更新节点和边的特征,实现轨迹的传播和恢复。FCG则采用全连接图模型,通过全局信息优化目标关联,减少ID切换和轨迹碎片化。SimpleTrack是一种模块化的3D多目标跟踪算法,通过改进检测预处理、运动模型、数据关联和轨迹管理四个模块,显著提升了跟踪性能。SFSort(Sparse Feature Sort)则是一种基于稀疏特征的多目标跟踪算法,专注于利用目标的稀疏特征进行高效关联。
表2所示的实验结果表明,YOLOv8+DeepSort架构的MOT算法优于其他架构的MOT算法,在上述指标中均有明显优势,同时改进YOLOv8+DeepSort相比于基准模型,虽然在MOTA指标发生下降,但MOTP指标提升了0.9,HOTA提升了0.7,这说明改进后的算法有着更高的定位精度与更优的轨迹预测,有效降低了模型的误检率,同时更优的定位精度将使得后续的下游任务(如测距、测速等)有着更好的表现。
表2 对比实验结果

Tab.2 Comparative experimental results

模型 MOTA MOTP HOTA
SGT 72.8 57.0
FCG 68.0 57.3
SimpleTrack 72.6 57.6
SFSort 75.0 60.9
YOLOv8+DeepSort 77.8 80.3 61.3
改进YOLOv8+DeepSort 73.8 81.2 62.6
此外,本研究还通过可视化对比实验评估了改进模型与YOLOv8+DeepSORT基准模型的性能差异。如图5所示,在复杂场景下的多目标追踪任务中,改进模型展现出显著优势:(1)对于存在运动轨迹交叉的行人id_15(黄色箭头),改进模型(图5b)实现了连续稳定的追踪,而基准模型(图5a)出现了追踪中断现象;(2)针对外观特征相似的id_152(红色箭头),改进模型通过增强的特征表征成功维持身份一致性,而基准模型则因特征判别力不足导致目标丢失。实验结果表明,改进模型在目标身份维持精度和轨迹完整性两个关键指标上均有显著提升。
图5 基准模型与改进模型对比实验效果

Fig.5 Comparison of experimental effects between the baseline model and the improved model

3 结束语

本文聚焦于多行人追踪任务中的关键挑战,提出了一种改进的基于YOLOv8和DeepSORT的多行人追踪算法。主要工作包括对YOLOv8的骨干网络和特征融合模块进行优化,引入InceptionNext Block和VoV-GSCSP结构,以增强模型对小目标和遮挡目标的检测能力。同时,针对DeepSORT在复杂场景中的轨迹中断问题,引入了NSA Kalman和AFLink技术,显著提升了跟踪的鲁棒性和连续性。
实验结果表明,改进后的模型在MOT20数据集上的表现优于基准模型YOLOv8+DeepSORT。具体而言,改进模型的MOTP指标提升了0.9,HOTA指标提升了0.7,表明改进后的算法在目标定位精度和轨迹预测方面具有明显优势。尽管MOTA指标略有下降,但改进模型在复杂场景下的目标身份维持精度和轨迹完整性方面表现出显著提升。
未来的研究方向将集中在进一步优化模型的计算效率和实时性,同时探索更高效的特征融合方法,以应对更加复杂和多样化的实际应用场景。
[1]
YE M, SHEN J B, LIN G J, et al. Deep learning for person re-identification: a survey and outlook[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44(6): 2 872-2 893.

[2]
LUO W H, XING J L, MILAN A, et al. Multiple object tracking: a literature review[J]. Artificial Intelligence, 2021(293): 103 448.

[3]
REN S, HE K, GIRSHICK R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 39(6): 1 137-1 149.

[4]
JIANG P Y, ERGU D J, LIU F Y, et al. A review of yolo algorithm developments[J]. Procedia Computer Science, 2022(199): 1 066-1 073.

[5]
BEWLEY A, GE Z, OTT L, et al. Simple online and realtime tracking[C]// 2016 IEEE International Conference on Image Processing (ICIP), Phoenix, Arizona, USA, September 25-28, 2016.

[6]
VEERAMANI B, RAYMOND J W, CHANDA P. DeepSort: deep convolutional networks for sorting haploid maize seeds[J]. BMC Bioinformatics, 2018, 19(9): 289.

DOI

[7]
ZHANG Y F, SUN P Z, JIANG Y, et al. ByteTrack: multi-object tracking by associating every detection box[C]// Computer Vision-ECCV 2022. Cham: Springer Nature Switzerland, 2022: 1-21.

[8]
ZHANG Y F, WANG C Y, WANG X G, et al. FairMOT: on the fairness of detection and re-identification in multiple object tracking[J]. International Journal of Computer Vision, 2021, 129(11): 3 069-3 087.

[9]
DENDORFER P, OS̆EP A, MILAN A, et al. MOTChallenge: a benchmark for single-camera multiple target tracking[J]. International Journal of Computer Vision, 2021, 129(4): 845-881.

DOI

[10]
ZHOU X, KOLTUN V, KRÄHENBÜHL P. Tracking objects as points[C]// European Conference on Computer Vision, Glasgow, UK, August 23-28, 2020.

[11]
SUN P Z, CAO J K, JIANG Y, et al. TransTrack: multiple object tracking with transformer[EB/OL]. 2020: 2012. 15460. https://arxiv.org/abs/2012.15460v2.

[12]
DU Y, ZHAO Z, SONG Y, et al. Strongsort: Make deepsort great again[J]. IEEE Transactions on Multimedia, 2023(25): 8 725-8 737.

[13]
YU W, ZHOU P, YAN S, et al. InceptionNext: When Inception meets ConvNeXt[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, Vancouver, Canada, June 16-19, 2024.

[14]
LI H, LI J, WEI H, et al. Slim-neck byGSConv: A better design paradigm of detector architectures for autonomous vehicles[J/OL]. arXiv preprint arXiv:2206.02424, 2022.

[15]
HYUN J, KANG M, WEE D, et al. Detection recovery in online multi-object tracking with sparse graph tracker[C]// Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision, Waikoloa, HI, USA, January 2-7, 2023.

[16]
GIRBAU A, MARQUÉS F, SATOH S. Multiple object tracking from appearance by hierarchically clustering tracklets[EB/OL]. 2022: 2210. 03355. https://arxiv.org/abs/2210.03355v1.

[17]
PANG Z Q, LI Z C, WANG N Y. SimpleTrack: understanding and rethinking 3D multi-object tracking[C]// Computer Vision-ECCV 2022 Workshops. Cham: Springer Nature Switzerland, 2023: 680-696.

[18]
MORSALI M M, SHARIFI Z, FALLAH F, et al. SFSORT: scene features-based simple online real-time tracker[EB/OL]. 2024: 2404.07553. https://arxiv.org/abs/2404.07553v1.

文章导航

/