中国科技核心期刊      中国指挥与控制学会会刊     军事装备类重点期刊
Unmanned Combat

The "Low Slow and Small" UAV target detection and tracking algorithm based on improved YOLOv7 and DeepSort

  • JIAN Yuhong ,
  • YANG Huiyue ,
  • WANG Xinggang ,
  • RONG Yisheng ,
  • ZHU Yukun
Expand
  • Army Logistics Academy of PLA, Chongqing 401311, China

Received date: 2023-09-11

  Revised date: 2024-06-02

  Online published: 2025-01-20

Abstract

To improve the accuracy of Low altitude unmanned aerial vehicle(UAV) target detection and tracking, an improved UAV detection algorithm based on YOLOv7 and DeepSort framework is proposed. The CBAM attention mechanism is introduced into the backbone network of YOLOv7 algorithm to improve feature extraction ability. To improve feature fusion ability at different scales, BiFPN weighted feature pyramid is used to replace PANet, and a small target detection layer is added to improve the detection accuracy of small target UAVs. A "low slow small" human-machine data set is constructed with four types of backgrounds: sky, trees, buildings, and dark conditions. The experimental test is carried out. The results show that the detection part mAP@0.5 of the improved algorithm is improved by 8.6%, and the detection accuracy of small-size and weak-feature targets is improved by about 21%. In the final tracking result, the MOTA index was increased by 24%, and the correct output target box accounted for about 70% of the true target box.

Cite this article

JIAN Yuhong , YANG Huiyue , WANG Xinggang , RONG Yisheng , ZHU Yukun . The "Low Slow and Small" UAV target detection and tracking algorithm based on improved YOLOv7 and DeepSort[J]. Command Control and Simulation, 2025 , 47(1) : 23 -31 . DOI: 10.3969/j.issn.1673-3819.2025.01.003

近年来,无人机在航拍、植保、救援、物流、军事等领域得到广泛应用,同时,出现大量“低慢小”无人机“黑飞”“滥飞”情况,对国防和社会安全构成了巨大隐患。
“低慢小”无人机指在低空域(高度1 000 m以下)活动,飞行速度慢,尺寸小的无人机。低空域慢速飞行,其多普勒特征弱,雷达探测难,且城市低空域电磁环境复杂,无线电探测难;小目标无人机飞行声音小,音频探测难。机器视觉作为无人机目标检测跟踪的重要方式,使用摄像机捕获监控区域视频,利用图像特征对无人机进行检测跟踪,系统成本低,探测速度快,精度高,监控区域大,适用场景广,尤其对易于拍摄的低空域目标检测跟踪效果好。
机器视觉的目标检测方法可以分为传统方法和深度学习方法。传统方法通过人工设计,提取图像中特定类型特征,定位关键区域,使用分类算法检测关键区域目标类别。由于无人机的颜色、纹理特征不明显,而角点、边缘特征较为明显,常用的人工设计特征有方向梯度直方图特征[1]、尺度不变特征变换[2-3]等,分类算法主要为支持向量机。
深度学习方法通过卷积神经网络学习,能够更好地提取图像深层次特征,可分为两类:一类通过候选区域生成、目标分类及边界框调整两步完成,为二阶算法;另一类将整个图像均视为候选区域,用回归的方式直接得到目标的类别与边界框信息,为一阶算法。Faster RCNN(region convolutional neural networks,RCNN)是经典的二阶算法,在无人机检测的应用中,可用双线性差值和多尺度特征融合的方法提高小目标无人机检测能力[4],可用图像超分辨率预处理得到更多语义信息[5]。一阶算法速度较二阶算法更快,从YOLO(you only look once)算法开始得到了大量研究,在保持检测速度的同时,也具备较高的精度。应用YOLO算法检测无人机目标检测,可用加权双向特征金字塔BiFPN网络替换Neck部分,增强不同尺寸目标特征融合效果[6],可改进损失函数增强训练效果[7-8]。YOLO系列算法逐渐成为无人机检测应用的主流算法。
为记录无人机飞行轨迹和身份信息,传感器需要在检测的基础上进行跟踪。无人机目标跟踪应用较广泛的有卡尔曼滤波、STC(spatio-temporal context)、KCF(kernelized correlation filters)及SiamFC算法。卡尔曼滤波算法还可以与其他算法相结合,即假设目标运动过程属于线性系统,对跟踪过程中的目标状态信息进行预测和修正,能够优化复杂环境下无人机快速移动、目标被遮挡情况下的跟踪性能[9-10]。上述算法为单目标跟踪算法,当应对多个无人机目标场景时,需要对每个目标都进行一次跟踪,随着跟踪目标数量增加,准确率和实时性有所降低。DeepSort是基于检测器的多目标跟踪算法,能够利用深度学习算法检测器的优秀性能,且通过卡尔曼滤波、行人重识别ReID、级联匹配等方法能够较好应对目标快速运动、障碍物遮挡等情况,能够较好地应用于多无人机目标跟踪任务中。
“低慢小”无人机的飞行空域背景环境主要包括天空(云层)、树木、建筑、阴暗条件四类,对目标检测具有较强的干扰性,加之摄像机捕获的小型无人机像素信息较少,图像特征较弱,容易出现漏检和误检问题。针对该问题,以改进YOLOv7算法作为DeepSort检测器,提出复杂环境下无人机目标检测跟踪算法,以自建数据集训练验证。

1 算法设计

1.1 算法基本框架

算法整体流程分为检测和跟踪。
(1)目标检测算法。框架采用的YOLOv7-tiny-SiLu模型大小仅6.2 M,在V100显卡上使用MS COCO(microsoft common objects in context)数据集测试(输入网络像素为640*640),FPS(frames per second)为286,AP(Average Precision)值38.7%,与YOLOv5-N相比,速度快80%,精度高38%。在YOLOv7-tiny-SiLu算法基础上,改进的目标检测算法如图1所示。
图1 目标检测算法网络结构示意图

Fig.1 Target detection algorithm network structure diagram

其中,注意力机制CBAM模块(cost benefit analysis method)是增加的注意力机制、Bcat是用BiFPN拼接替换原有的拼接操作,在算法基础上还增加了160尺寸特征张量的小目标检测层。特征提取ELAN模块(effective long-range aggregation network)是一种高效的网络结构,通过控制最短和最长的梯度路径,使网络能够学习到更多的特征,并且具有更强的鲁棒性。下采样MP模块通过最大池化和步长2的卷积操作进行下采样,能够得到更加丰富的特征。跨阶段特征金字塔池化SPPCSP模块(spatial pyramid pooling, cross stage partial)能够增大感受野,适应不同分辨率图片,同时相比简单的SPP(spatial pyramid pooling)减少了一半计算量,精度反而有所提升。
(2)目标跟踪算法。Sort算法核心是卡尔曼滤波和匈牙利匹配。卡尔曼滤波用于轨迹的更新和预测,匈牙利算法用于目标和轨迹的匹配。由于外观和轨迹一帧不匹配即删除机制和交并比IOU(intersection over union, IoU)成本矩阵问题,Sort算法ID切换较频繁。为此,在DeepSort中引入ReID领域模型来提取外观信息,以减少ID切换次数;加入级联匹配机制保留近期丢失目标轨迹,并赋予优先级,提高复杂环境遮挡下跟踪的鲁棒性。流程如图2所示。
图2 DeepSort流程示意图

Fig.2 DeepSort process diagram

1.2 算法改进模块

针对低空域环境干扰较大、无人机特征较弱的问题,对检测算法进行如下改进。
(1)CBAM注意力机制。在骨干网络末端加入CBAM注意力机制[11]。以特征图XRH×W×C为输入,运算过程分为两部分:首先对输入按照通道进行全局最大池化和均值池化,将池化后的两个一维向量送入全连接层运算后相加,经Sigmoid激活函数后生成通道注意力MCRH×1×1,再将通道注意力与输入元素相乘,得到通道调整后的特征图X'
X'=MC(X)X
而后将X'按照空间进行最大池化和均值池化,将池化的两个向量拼接后进行卷积操作,经Sigmoid激活函数后形成二维空间注意力MSRW×H,再将空间注意力与X'相乘,得到最终结果X″
X″=MS(X')X'
其中ⓧ表示对应元素相乘。
(2)BiFPN网络结构。为提高Neck部分特征融合能力,使用BiFPN[12]替换PANet。用PANet特征金字塔进行特征融合时,平等地对待每个输入特征图,忽视不同分辨率输入特征对特征融合贡献的差异性。BiFPN特征金字塔网络引入了可学习的权重参数,能区分不同输入特征的重要性,同时在同一尺度输入和输出节点间增加了跳跃连接,形成了一种残差结构,进一步加强了特征融合效果。BiFPN结构如图3所示,替换过程如图4所示。
图3 BiFPN特征金字塔结构

Fig.3 BiFPN characteristic pyramid structure

图4 PANet转换BiFPN示意图

Fig.4 The diagram of conversion fromPANet to BiFPN

具体融合操作为:
P3OUT=P3+(P5↑+P4)↑
P4OUT=P4+P3OUT↓+(P5↑+P4)
P5OUT=P4OUT↓+P5
其中,↑表示使用最近邻插值法进行2倍上采样操作,↓表示使用步长为2的卷积核进行2倍下采样操作,+为BiFPN特有的Concat操作,即
Out=∑i w i ε + i w iIni
其中,i为输入序号,wi为可学习的权重参数,ε为常数,用来避免结果不稳定,取0.0001。
(3)小目标检测层。复杂环境对小型无人机目标干扰尤其明显,针对该问题添加小目标检测层提高低慢小无人机检测精度。在主干网络中,由于多次下采样进行图像深度特征提取,使得特征感受野增加,而小目标的特征信息却逐步减少甚至消失。因此,根据无人机长宽比,增加了1组小尺寸锚框,将大尺寸特征张量的上一层也引入BiFPN网络,进行特征融合后输出至检测部分,用于预测小型无人机目标,改进结果如图5所示。
图5 小目标检测层添加示意图

Fig.5 Small target detection layer added schematic

2 数据集构建

数据集的质量直接影响算法在实际无人机识别中的准确性。当前网络公开的无人机数据集有Det-Fly[13]、MIDGARD[14]、Anti-UAV[15]等,数量巨大、内容丰富。本文针对低慢小无人机目标检测跟踪的具体应用场景,考虑无人机外观多样,不同运动状态导致的姿态、大小不一,摄像机拍摄角度不同,复杂环境影响等因素,构建了“低慢小”无人机数据集(low and slow UAV dataset, LSUD)。

2.1 数据收集扩增

LSUD数据集以Det-Fly、MIDGARD、Anti-UAV数据集中特征相差明显、具有代表性的图片为主体,通过网络搜索、自主拍摄丰富和补缺,共收集图片801张,包含了不同外表形态、尺寸大小、拍摄角度、周边环境的无人机,同时加入了黑影、鸟类2种常见干扰物体。表1给出了 LSUD数据集收集情况,图6为数据集示例。其中,大目标为无人机像素占图片像素千分级以上的情况,反之为小目标,每种环境中仰拍、平拍、俯拍视角的图片比例约为6∶1∶3,干扰物与无人机在数据集图片中有共存现象。
表1 LSUD数据集收集情况

Tab.1 The situation of dataset collection

分类 天空背景 树木背景 建筑背景 阴暗条件
大目标 108 81 96 96
小目标 118 98 91 74
干扰物 59
图6 LSUD数据集示例

Fig.6 Examples of LSUD dataset

采取图像旋转方式对基础数据进行扩充,以获得更多无人机运动姿态特征。由于无人机飞行过程中倾斜角度相差超过90°的情况较少,将所有图片分别顺时针和逆时针旋转45°、90°,再人工删除其中不符合无人机现实飞行情况的图片,得到完整的数据集,共包含图片3 977张,如图7所示。
图7 数据集旋转扩增示例

Fig.7 Example of data set rotation amplification

2.2 数据集标注划分

使用labelimg软件进行图片标注,完成标注后,按照9∶1的比例将数据集随机划分为训练集与验证集,即训练集3 579张,验证集398张。标注时区分不同形态的无人机,按照无人机图像特征,在标注中进一步划分为UAV、UAV_L、UAV_M、UAV_S、UAV_D五类标签,划分依据如表2所示,部分数据图片标注情况如图8所示。
表2 标签划分依据

Tab.2 Basis of label set

类别 划分依据
UAV 常见,且旋翼特征清晰的无人机
UAV_L 旋翼多,且脚架较长的大型无人机
UAV_M 平拍角度失去旋翼特征,总体约成方形的无人机
UAV_S 特征丢失严重,只有模糊形状的小型无人机
UAV_D 固定翼无人机
图8 五类无人机标注示例

Fig.8 Five types of UAV annotation examples

3 实验结果及分析

实验软件为PyCharm2020、Pytorch1.7、Python3.8。算法训练平台条件:操作系统Linux ubuntu,处理器Intel(R) Xeon(R) Platinum 8358P,内存80 G,显卡A40,显存48 G。算法验证平台条件:操作系统Windows10,处理器Intel(R) Core(TM) i5-8400,内存8 G,显卡NVDIA GeForce RTX2070,显存8 G。非极大值抑制参数设置:类别置信度阈值为0.2,IoU阈值为0.4。

3.1 算法检测性能验证

使用训练集在没有预训练权重的基础上,分别对原始YOLOv7算法和改进算法训练400轮,而后使用验证集进行验证。

3.1.1 评价指标

文中对无人机检测模型使用mAP@0.5进行评估。
Pp=NTP/(NTP+NFP)
Pr=NTP/(NTP+NFN)
其中,Pp(precision)为准确率,Pr(recall)为召回率,NTP表示实例为正、预测也为正的数量,NFP表示实例为负、预测为正的数量,NFN表示实例为负、预测也为负的数量。
AP为以准确率为纵坐标、召回率为横坐标绘制P-R曲线,曲线下方面积即为AP,mAP指不同类别目标的平均AP数值。mAP@0.5指非极大值抑制算法的IoU阈值为0.5时的mAP值。因为检测算法结果会输入跟踪算法进行下一步计算,随机的误检并不会让DeepSort建立稳定的目标轨迹,所以召回率的重要性大于精确率,因此选用IoU阈值较低的mAP@0.5作为评价指标。

3.1.2 消融实验及结果

消融实验中,各类无人机AP0.5指标及见表3图9。训练过程如图10所示。与YOLOv7算法相比,改进的算法的mAP@0.5提高了8.6%,尤其是无人机特征较弱的UAV_S、UAV_M两种类型目标检测性能提升最大,AP0.5分别提升了21%和22%。可见通过改进,算法的性能得到了较高提升,更能够适应复杂环境下不同形态的无人机目标检测。图11是用验证集验证时,算法输出的部分图片示例。
表3 消融实验结果表

Tab.3 Ablation experiment results table

算法 UAV UAV_L UAV_M UAV_S UAV_D mAP@0.5
YOLOv7 0.787 0.923 0.587 0.365 0.954 0.723
YOLOv7+CBAM 0.846 0.968 0.691 0.371 0.967 0.769
YOLOv7+CBAM+BiFPN 0.863 0.993 0.669 0.422 0.954 0.780
OURS 0.832 0.972 0.715 0.440 0.967 0.785
图9 消融实验P-R曲线图

Fig.9 P-R curve of ablation experiment

图10 算法训练过程图

Fig.10 Algorithm training process diagram

图11 算法验证预测输出图示例

Fig.11 Example of algorithm validation prediction output graph

3.2 算法跟踪性能验证

使用数据集训练改进的YOLOv7+DeepSort整体算法,而后利用两段视频test01.mp4、test02.mp4进行跟踪性能检验。其中,test01.mp4共4 080帧,目标为UAV_S小型无人机;test02.mp4共5 333帧,包含了小型无人机目标及树木遮挡的复杂场景。使用DarkLabel软件对视频进行标注。测试视频标注情况如图12所示。
图12 测试视频标注示例

Fig.12 Test video annotation examples

3.2.1 评价指标

使用MOTA和TP评估改进型YOLOv7+DeepSort算法跟踪性能。TP指正确输出实际存在的无人机目标框数量,是计算召回率的关键指标;MOTA计算公式如下
MOTA=1- t ( F N t + F P t + I D S W t ) t G T t
其中,t指当前帧数,FNt指输出实际不存在的目标框数量,FPt指未输出实际存在的目标框数量,IDSWt指ID-switch次数,GTt为目标框的数量。

3.2.2 实验结果

YOLOv7+DeepSort算法在两个测试视频中的MOTA指标平均值为48.8%,改进后为60.6%,性能提升了24%。具体结果见表4
表4 整体算法性能对比表

Tab.4 Overall algorithm performance comparison table

指标 MOTA TP GT FPS
YOLOv7+
DeepSort
test01.mp4 25.1% 1 199 3 487 34
test02.mp4 72.2% 2 852 3 537
Ours test01.mp4 53.3% 2 406 3 487 26
test02.mp4 67.8% 2 742 3 537
准确性方面,算法在小目标跟踪上MOTA指标提升了112%,正确输出的目标框数量增加了1 207个,同时,算法在应对小目标和严重遮挡条件下正确输出的目标框占真实目标框的比例均为70%左右,能够实现无人机目标飞行轨迹记录,且性能更加稳定。
实时性方面,输入图片按比例将最长边缩放为640像素,处理速度为26帧/s,实际应用中,将捕获视频每两帧处理一次,能够实现无人机的实时检测跟踪。

4 结束语

本文将YOLOv7算法引入CBAM注意力模块、BiFPN加权特征金字塔网络以及小目标检测层,并将改进的YOLOv7与DeepSort相结合。在自建数据集上测试,提出算法具备更好的检测跟踪性能,能够实现复杂环境下无人机目标的准确实时跟踪,具体体现在:
(1)在YOLOv7主干网络引入CBAM注意力机制,增强网络特征提取能力。
(2)将YOLOv7Neck部分的PANet用加权特征金字塔BiFPN替换,提高网络特征融合能力,提高不同尺寸无人机目标检测精度。
(3)新增一个小目标检测层,提高复杂环境下的小尺寸弱特征无人机目标检测精度。
[1]
樊宽刚, 雷爽, 别同. 智能化无人机入侵检测与跟踪拦截系统设计与实现[J]. 红外与激光工程, 2022, 51(8): 351-360.

FAN K G, LEI S, BIE T. Design and implementation of intelligent UAV intrusion detection, tracking and interception system[J]. Infrared and Laser Engineering, 2022, 51(8): 351-360.

[2]
薛珊, 张振, 吕琼莹, 等. 基于卷积神经网络的反无人机系统图像识别方法[J]. 红外与激光工程, 2020, 49(7): 250-257.

XUE S, ZHANG Z, LYU Q Y, et al. Image recognition method of anti UAV system based on convolutional neural network[J]. Infrared and Laser Engineering, 2020, 49(7): 250-257.

[3]
张振. 反无人机系统图像智能识别关键技术研究[D]. 长春: 长春理工大学, 2021.

ZHANG Z. Research on key technologies of intelligent image recognition for anti-UAV system[D]. Changchun: Changchun University of Science and Technology, 2021.

[4]
王君, 张德育, 康鑫英. 改进Faster-RCNN的低空小型无人机检测方法[J]. 沈阳理工大学学报, 2021, 40(4): 23-28.

WANG J, ZHANG D Y, KANG X Y. Improved detection method of low altitude small UAV by faster-RCNN[J]. Journal of Shenyang Ligong University, 2021, 40(4): 23-28.

[5]
MAGOULIANITIS V, ATALOGLOU D, ZARPALAS D, et al. Does deep super-resolution enhance UAV detection?[C]// 2019 16th IEEE International Conference on Advanced Video and Signal Based Surveillance (AVSS). IEEE, 2019.

[6]
LIU R, XIAO Y, LI Z, et al. Research on the anti-UAV distributed system for airports: YOLOv5-based auto-targeting device[C]// 2022 3rd International Conference on Computer Vision, Image and Deep Learning and International Conference on Computer Engineering and Applications. IEEE, 2022.

[7]
李斌, 张彩霞, 杨阳, 等. 复杂场景下深度表示的无人机目标检测算法[J]. 计算机工程与应用, 2020, 56(15): 118-123.

DOI

LI B, ZHANG C X, YANG Y, et al. Drone target detection algorithm for depth representation in complex scene[J]. Computer Engineering and Applications, 2020, 56(15): 118-123.

DOI

[8]
LIU B, LUO H. An improved Yolov5 for multi-rotor UAV detection[J]. Electronics, 2022, 11(5): 2 330.

[9]
任永平. 反无人机系统中目标探测跟踪技术研究[D]. 西安: 西安工业大学, 2019.

REN Y P. Research on target detection and tracking technology for anti-UAV system[D]. Xi’an: Xi’an technological University, 2020.

[10]
王元皓. 基于深度学习的动态小目标检测追踪技术研究及系统实现[D]. 西安: 西安电子科技大学, 2020.

WANG Y H. Research and system implementation of dynamic small target detection and tracking technology based on deep learning[D]. Xi’an: Xidian University, 2020.

[11]
WOO S, PARK J, LEE J Y. CBAM: Convolutional block attention module[J]. Lecture Notes in Computer Science, 2018, 11211:3-19.

[12]
Tan M, Pang R, Le Q V. Efficient Det: scalable and efficient object detection[C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2020.

[13]
ZHENG Y, CHEN Z, LYU D L, et al. Air-to-Air visual detection of micro-UAVs: an experimental evaluation of deep learning[J]. IEEE Robotics and Automation Letters, 2021, 6(2): 1 020-1 027.

[14]
WALTER V, VRBA M, SASKA M. On training datasets for machine learning-based visual relative localization of micro-scale UAVs[C]// 2020 IEEE International Conference on Robotics and Automation (ICRA), Paris, France, 2020.

[15]
JIANG Nan, WANG Kuiran, PENG Xiaoke, et al. Anti-UAV: a large-scale benchmark for vision-based UAV tracking[J]. IEEE Transactions on Multimedia, 2021, 35(1): 486-500.

Outlines

/