中国科技核心期刊      中国指挥与控制学会会刊     军事装备类重点期刊
Information Fusion

Based on lightweight network drone image target recognition

  • GUO Jing 1 ,
  • GUO Jie 2 ,
  • MA Yu 3 ,
  • WANG Fengshan 1 ,
  • PU Haipeng 1
Expand
  • 1 College of Field Engineering Army Engineering University, Nanjing 210007,China
  • 2 Southeast University, Nanjing 211189, China
  • 3 Wuxi Institute of Administration, Wuxi 214128, China

Received date: 2024-12-30

  Revised date: 2025-03-02

  Online published: 2025-11-22

Abstract

In response to the problem of large computational complexity and false detections in target detection by drones. A target recognition method based on lightweight networks has been proposed. Based on the YOLOv5 object detection algorithm, the algorithm has been optimized using the FasterNet lightweight network architecture, which reduces the number of network parameters and improves the efficiency of the algorithm. In order to accurately capture and emphasize key information in the input sequence, and further enhance the performance of the algorithm, a parameter free attention mechanism SimAM is introduced. The results indicate that this method is an optimized application of object detection technology, which can better balance the relationship between detection speed and accuracy, and achieve better detection results in unmanned aerial vehicle aerial image detection tasks.

Cite this article

GUO Jing , GUO Jie , MA Yu , WANG Fengshan , PU Haipeng . Based on lightweight network drone image target recognition[J]. Command Control and Simulation, 2025 , 47(6) : 76 -81 . DOI: 10.3969/j.issn.1673-3819.2025.06.011

无人机技术在近年来取得了显著的进步与发展,这一趋势在俄乌冲突与巴以冲突中得到了鲜明的体现。在这两场冲突中,交战双方都频繁且广泛地运用军用无人机技术,针对关键目标执行高效的侦察与监视任务,从而显著提升了战场信息的获取能力[1-3]。这类技术以其低廉的作战成本、长久的侦察时长以及灵活的侦察方式等特点,能够在战斗中紧密配合有人驾驶的战斗力量,实施贴近战场的抵近侦察,从而获取详尽、精确且实时的战场动态信息。这些信息为联合作战的指挥机构提供了至关重要的情报支持。
深度学习技术主要分为两阶段目标检测算法和单阶段目标检测算法。在两阶段目标检测算法中,R-CNN系列(R-CNN[4]、Fast R-CNN[5]、Faster R-CNN[6])以高精度著称,但相应地,处理速度会稍慢一些。而单阶段目标检测算法则以YOLO[7]和SSD[8]为代表,保持较高检测速度,但精度略逊于两阶段算法。文献[9]梳理了深度学习技术在海战场图像目标识别中的应用现状, 展望了未来海战场图像目标识别技术的可能发展方向。文献[10]针对无人机平台空间和资源有限、高分辨率SAR图像检测容易出现目标标注不准以及计算量过大等问题,提出一种无人机载高分辨率SAR图像目标快速检测方法。文献[11]为了解决传统目标检测算法对无人机(UAV)航拍小目标存在错漏检严重的问题,提出基于YOLOv5的无人机小目标检测算法FDB-YOLO。
综上所述,针对复杂背景环境下无人机目标检测效果不佳,检测算法存在误检、计算慢、训练时间长等问题,本文提出基于轻量化网络改进的YOLOv5模型。该模型无论从客观数据还是主观可视化图像分析,都具有较好的表现,不仅检测精度高于YOLOv5s算法,而且在复杂航拍图像背景下,改进的算法模型能有效降低误检和漏检率,具有较好的性能。

1 基于轻量化网络改进的YOLOv5模型构建

1.1 改进YOLOv5模型

2020年,UItralytics在GitHub上公开了YOLOv5的算法代码。YOLOv5作为当下推理检测速度最快、目标检测技术最先进的模型,推出了YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x四个版本预训练权重。YOLOv5s相对于其他三个版本的优势是检测速度最快,缺点是检测精度较低。YOLOv5s网络架构由输入端(Input)、骨干网络(Backbone)、中间层(Neck)、输出层(Prediction)四个部分组成。核心思想是将目标检测任务视为一个回归问题。通过一次前向传播,YOLOv5能够同时预测图像中所有目标的位置和类别。这种设计使得YOLOv5在保持高检测精度的同时,也具备了较快的检测速度。
YOLOv5s检测算法的优点是能够在满足较好的实时性的同时,保持较高检测精度,同时不损失检测速度,但训练过程中存在计算参数多,计算量大,检测过程中存在误检的现象。因此,本文针对低空无人机航拍目标数据集的数据特点,提出了一种轻量化的目标检测算法。首先,采用高精度和灵活性好的轻量级网络FasterNet替换原先的C3网络进行特征提取,FasterNet网络具有较少的计算参数,能够在提升模型的推理速度的情况下保证检测精度基本无变化;添加了专为卷积神经网络(CNN)设计的一种简单、无参数的注意力机制SimAM,该机制通过计算特征图的局部相似性来生成注意力权重,进而对特征图进行加权融合,提升CNN的性能。改进之后的算法整体框架如图1所示。
图1 改进算法整体框架图

Fig.1 Overall framework diagram of improved algorithm

1.2 建立FasterNet主干特征提取网络

FasterNet模块能够解决YOLOv5中C3模块冗余计算问题,通过引入部分卷积(PConv)来优化网络的空间特征提取能力。FasterNet模块结构如图2所示。
图2 FasterNet模块示意图

Fig.2 Schematic diagram of FasterNet module

FasterNet和C3的Bottleneck模块最主要的区别:
(1)特征处理方式不同。Bottleneck模块通过连续的卷积层来逐步提取和转换特征,而FasterNet Block则通过PConv和1×1卷积的组合,以更灵活和针对性的方式处理特征。
(2)计算效率不同。虽然两者都优化了计算量,但FasterNet Block采取的办法是通过使用部分输入计算的PConv实现Bottleneck模块更高的计算效率。
(3)空间特征提取能力有所不同。FasterNet Block采用PConv能够更专注于空间特征中的关键部分,对复杂空间特征提取的能力更强。
通过PConv对部分输入通道应用常规的Conv进行空间特征提取,并保持其余通道不变,用1×1普通卷积对未受影响的输入通道和PConv卷积后的通道进行处理。其中PConv的计算量如式1所示。
H×W×K2× C P 2
PConv的内存访问情况如式2所示。
H×W×2CP+K2× C P 2≈H×W×2CP
特征图尺寸大小是H×W,卷积核的大小是K×K,CP是常规卷积的通道数。
实际中C=1/4CP,PConv的计算量仅仅为常规卷积的1/16,PConv的内存访问数量仅仅为常规卷积的1/4[12]。FasterNet Block中引入的PConv可以通过动态调整卷积核的作用区域,仅对特征区域周围的有效像素进行卷积操作,减少计算量和内存访问量,具有更高的鲁棒性。因此,FasterNet Block模块能够有效地降低模型所需的计算资源。
为了验证FasterNet-YOLOv5s对目标检测的检测效果具有一定的先进性,综合考虑对YOLOv5s的骨干网络部分进行替换以及加入部分经典的目标检测算法,进行了算法的对比试验,对比结果如表1所示。
表1 不同网络对比实验

Tab.1 Comparative experiments of different networks

模型 P/% R/% mAP@
0.50/%
FPS
(f/s)
PAR/106 模型大小
(MB)
YOLOv4 91.7% 89.8% 95.3% 58 64.3 245.53
GhostNet-YOLOv4 94.58% 94.56% 95.73% 66 11.4 42.8
YOLOv5s 98.5% 95.4% 97.9% 63 7.06 14.4
YOLOv5s-Ghostv2 96.7% 96.5% 97.22% 70 6.46 12.7
F-YOLOv5s 97.0% 97.7% 99.0% 61 5.81 11.3
通过分析表1的数据得出:
(1)相比于YOLOv4,其他模型(GhostNet-YOLOv4、YOLOv5s、F-YOLOv5s、YOLOv5s-Ghostv2)在准确率(P)、召回率(R)和平均精度均值(mAP@0.50)上均有所提升。这表明通过模型结构的优化或特征提取网络的改进,可以提升目标检测的精度。特别地,F-YOLOv5s模型在准确率、召回率和mAP上均达到了最高值,分别为97.0%、97.7%和99.0%,显示出在复杂环境下模拟军事目标检测的卓越性能。
(2)FPS是衡量模型检测速度的重要指标。YOLOv4的FPS为58帧/秒,精度相对较低。相比之下,YOLOv5s和YOLOv5s-Ghostv2在保持较高精度的同时,也实现了较高的FPS(分别为63帧/秒和70帧/秒)。F-YOLOv5s模型在保持mAP=99.0%高精度的同时,FPS达到了61帧/秒,表明该模型在精度和速度之间取得了良好的平衡。
(3)模型大小和参数量同样是评估模型复杂度和计算资源需求的重要指标。YOLOv4的模型大小最大(245.53MB),64.3×106的参数量也最多。相比之下,所有改进模型都显著减少了模型大小和参数量。F-YOLOv5s模型在5.81×106的参数量和11.3MB的模型大小上均为最小,这表明该模型能够同时兼顾精度和速度均保持高水准,实现了较高的参数效率和存储效率。
综合来看,F-YOLOv5s模型在准确率、召回率、mAP、FPS、模型大小和参数量等多个方面都表现出明显的优势。该模型不仅具有极高的检测精度和速度,还实现了模型的小型化和轻量化,适合于复杂背景环境和实时性要求高的应用场景。

1.3 引入SimAM注意力机制

SimAM(simple attention module)是一种创新的注意力机制,其原理是用最小化一个能量函数来自动发现卷积神经网络中每个神经元,增强模型的特征表示能力。Yang等人[13]基于神经科学的理论迸发出了该模块的设计灵感,SimAM通过优化一个基于神经元的激活状态及其与周围神经元的关系的能量函数来捕捉到复杂的特征依赖关系,特别是神经元激活与抑制的机制使得其能够在不引入额外参数的情况下,为卷积神经网络提供有效的注意力权重。与传统的通道注意力和空间注意力不同,SimAM能够同时考虑特征图的高度、宽度和通道三个维度,生成三维的注意力权重,既能够计算每个位置的权重,让改进模型具有可解释性,又具备无须增添额外参数减轻计算量的优势,从而更全面地提升特征的表达能力。
信息丰富的神经元在神经系统中具有高度的联接性和可塑性,还具备抑制周围神经元的能力,为了能够找到这样的神经元,最简单高效的方法是采用度量神经元之间的线性可分性去寻找它,由此,特征位置量函数如式3所示。
et w t , b t , y , x i= y t - t ^ 2+ 1 M - 1 i = 1 M - 1 (y0- x ^ i)2
其中,txi是输入特征XRC*H*W的单一通道中的目标神经元和其他神经元, t ^=wtt+bt x ^ i=wtxi+bt分别为txi的线性变化,M=H*W是该通道上的神经元数量,wtbt是权重和偏差的线性变换,y是变量。为了更加简单清晰,本文采用二值标签,并添加正则项,最终的特征位置量函数如式4所示:
et w t , b t , y , x i= 1 M - 1 i = 1 M - 1 (-1-(wtxi+bt))2+ 1 - w t t + b t 2 w t 2
上述公式的解如式5所示:
w t = - 2 ( t - μ t ) ( t - μ t ) 2 + 2 σ t 2 + 2 λ b t = - 1 2 t + μ t w t
得到最小特征位置量,如式6所示:
e t *= 4 σ ^ 2 + λ t - μ ^ 2 + 2 σ ^ 2 + 2 λ
其中, μ ^= 1 M i = 1 M xi是该通道中除t外的所有神经元的平均值的解, σ t 2= 1 M - 1 i = 1 M - 1 ( x i - u t ) 2是该通道中除t外的所有神经元的方差的解。λ是正则化系数。神经元的重要性可以通过1/ e t *表达,特征位置量的值较高时,表示神经元t与其周围神经元的差异较大,神经元t就对后续任务有了更为关键或独特的信息,具有较高的重要性;特征位置量的值较低时,表示神经元t与其周围神经元的差异较小,神经元t在特征图中没有太多独特或关键的信息。整个过程如式7所示:
X ˜=sigmoid 1 E☉x
为了深入评估SimAM注意力机制在本文所采用的模拟军事目标数据集上的效能,本文将其应用于YOLOv5s模型,并将经过200轮训练后的结果与未应用SimAM的原始YOLOv5s模型进行对比分析。实验的具体结果如表2所示。
表2 注意力机制对比实验

Tab.2 Comparative experiment of attention mechanism

模型 P/% R/% mAP@0.50/
%
mAP@
0.50:0.95/%
FPS
(f/s)
模型大小
(MB)
YOLOv5s 98.5% 95.4% 97.9% 71.1% 63 14.4
S-YOLOv5s 96.7% 98.1% 98.8% 71.8% 62 13.7
YOLOv5s模型在准确率(P)上表现出色,达到了98.5%,但其召回率(R)相对较低,为95.4%。相比之下,引入SimAM注意力机制的S-YOLOv5s模型在召回率上有了显著提升,达到了98.1%,表明该模型在检测目标时更为全面,减少了漏检情况。同时,S-YOLOv5s模型在mAP@0.50和mAP@0.50:0.95两个指标上也均有提升,分别达到了98.8%和71.8%,表现出更好的检测能力和鲁棒性。并且S-YOLOv5s模型大小较YOLOv5s模型有所减小,减少冗余算力。尽管S-YOLOv5s模型的推理速度(FPS)略有下降,但对整体性能的影响较有限。实验结果表明,添加SimAM注意力机制有效地提升了YOLOv5s模型在模拟军事目标检测任务中的综合性能,尤其提升了召回率和平均精度,使得引入SimAM注意力机制的算法模型在实际应用中更具优势。

2 实验评价

2.1 实验环境及评价指标

实验数据集与环境数据集:本文选取自制数据集,该数据集一共有3 884幅无人机图像,包括各种亮度变化、色彩变化、气候环境等,涵盖生活中常见3类目标,分别为坦克、装甲车和迷彩伪装防御工事。训练改进的YOLOv5s算法时,采用Adam优化器,批尺寸设置为16,每次输入图像像素大小为640×640,训练轮次为200。
实验环境:本文实验环境为window 10操作系统,CPU型号为Intel Core i7-7700,Nvidia GTX 1070显卡,运行内存为8 GiB,采用Pytorch 1.9.1深度学习框架。
评价指标:在科学研究中,评价指标是衡量实验结果的关键工具。本文将精确率(Precision)、召回率(Recall)、平均准确率(Average Precision,AP)、均值平均精度(Mean Average Precision,mAP)、F1和模型大小作为评价模拟军事目标检测效果的主要依据。

2.2 实验结果分析

为验证本文提出的每种改进策略的有效性,使用3 884幅无人机航拍数据集对原始基准模型YOLOv5s进行了消融实验,并且在验证集上测试对模拟军事目标检测的性能,实验结果如表3所示。
表3 实验对比结果

Tab.3 Experimental comparison results

Number Method P/% R/% mAP@
0.5/%
mAP@
0.5:
0.95/%
F1 FPS
(f/s)
模型
(MB)
A YOLOv5s 98.5% 95.4% 97.9% 71.1% 96.9% 63 14.4
B S-YOLOv5s 95.9% 97.5% 97.8% 71.6% 97.3% 63 13.7
C F-YOLOv5s 96.7% 98.1% 98.8% 70.8% 97.3% 61 11.3
D SF-YOLOv5s 97.5% 97.5% 99.3% 70.3% 97.5% 64 11.3
本小结实验的基准评价指标P值为98.5%,R值为95.4%,mAP@0.5值为97.9%,mAP@0.5:0.95值为71.1%,F1值为96.9%,FPS值为63。在实验B中,精确度有所下降,但召回率显著提升,表明模型在检测目标时减少了漏检。mAP@0.5略有提升,mAP@0.5:0.95也有提升,表明模型在不同IoU阈值下的性能都有所改善。F1和FPS基本保持不变,模型大小略有减小。在实验C中,精确度和召回率都较高,表明模型在准确检测目标的同时减少了误检和漏检。mAP@0.5和mAP@0.5:0.95都有显著提升,特别是在mAP@0.5上,达到了98.8%。由于模型结构的优化或参数减少,FPS有所下降。在实验D中,精确度和召回率都达到了较高的水平,表明模型在检测目标时达到了较好的平衡。mAP@0.5有显著提升,表明模型在不同IoU阈值下的性能都非常优秀。FPS与YOLOv5s基本相同,模型大小小于YOLOv5s,表明综合改进策略在提升性能的同时没有增加额外的计算负担。SF-YOLOv5s的视觉检测结果如图3所示。
图3 检测效果图

Fig.3 Detection effect diagram

综合来看,添加了无注意力机制SimAM能够通过提升召回率,改善模型在检测目标时的完整性。FasterNet主干特征提取网络能够通过提升精确度和mAP,显著改善模型在检测目标时的准确性和鲁棒性。SF-YOLOv5s结合了前两者的优点,达到了较高的精确度和召回率,同时在不同IoU阈值下的性能都非常优秀,并且该模型参数较原模型显著减少,实现了模型的轻量化,更有利于部署在移动端的设备上。因此,可以认为本文提出的综合改进策略是有效的且在实际应用中具有较高的价值[14]

3 结束语

为了减少目标检测模型计算参数多、存在误检的问题,本文通过改进YOLOv5s模型算法提升目标检测模型效果。首先,针对模型存在计算冗余的问题,本文采用轻量级网络FasterNet替换原先网络,减少网络参数,提高准确率。其次,本文引入一种简单高效的无参数注意力机制SimAM,帮助检测模型更好地捕捉输入序列的重要信息,提高检测模型的性能。最后,本文对上述改进方式组合而产生的共4种检测模型进行消融实验,进行相关性分析。改进后的算法计算参数减少17.7%,模型大小减少21.5%,并平衡了精确率和召回率的关系,提升了模型对样本的预测准确度和捕捉能力。在相同的实验环境下,轻量化的网络模型不仅对无人机图像目标检测具有更快的检测速度,而且从视觉上具备更高的检测精度。本研究可以将目标检测部署在低空无人机智能识别目标中,为无人化战法运用等后续工作提供依据。
[1]
崔勇平, 邢清华. 从俄乌战争看无人机对野战防空的挑战和启示[J]. 航天电子对抗, 2022, 38(4): 1-3.

CUI Y P, XING Q H. The challenge and inspiration of UAVs to field air defense from the Russia-Ukraine War[J]. Aerospace Electronic Warfare, 2022, 38(4): 1-3.

[2]
王笑梦. 无人机的天空从俄乌战争看无人机的应用和发展[J]. 坦克装甲车辆, 2022(15):60-66.

WANG X M. The sky of unmanned aerial vehicles: application and development from the perspective of the Russia-Ukraine war[J]. Tank and Armored Vehicles, 2022(15): 60-66.

[3]
孙德刚, 马文媛. 巴以冲突的治理难题与前景分析[J]. 和平与发展, 2024(1): 132-154.

SUN D G, MA W Y. Difficulties in the governance of the Palestinian-Israeli conflict and an analysis of its prospect[J]. Peace and Development, 2024(1): 132-154.

[4]
GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]// IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Columbus:IEEE, 2014:580-587.

[5]
GIRSHICK R. Fast R-CNN[C]// IEEE International Conference on Computer Vision(ICCV).Santiago:IEEE, 2015:1 440-1 448.

[6]
REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1 137-1 149.

DOI

[7]
REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection[EB/OL]. 2015: 1506.02640. https://arxiv.org/abs/1506.02640v5.

[8]
LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot MultiBox detector[C]// Computer Vision-ECCV 2016. Cham: Springer International Publishing, 2016: 21-37.

[9]
单连平, 窦强. 基于深度学习的海战场图像目标识别[J]. 指挥控制与仿真, 2019, 41(1): 1-5.

DOI

SHAN L P, DOU Q. A survey of research on image target recognition based on deep learning[J]. Command Control & Simulation, 2019, 41(1): 1-5.

[10]
王中宝, 尹奎英. 一种无人机载高分辨率SAR图像目标快速检测方法[J]. 指挥控制与仿真, 2023, 45(5): 43-50.

DOI

WANG Z B, YIN K Y. A rapid detection method for UAV-borne high-resolution SAR image targets[J]. Command Control & Simulation, 2023, 45(5): 43-50.

[11]
宋耀莲, 王粲, 李大焱, 等. 基于改进YOLOv5s的无人机小目标检测算法[J]. 浙江大学学报(工学版), 2024, 58(12): 2 417-2 426.

SONG Y L, WANG C, LI D Y, et al. A small target detection algorithm for unmanned aerial vehicles based on improved YOLOv5s[J]. Journal of Zhejiang University(Engineering Science), 2024, 58(12): 2 417-2 426.

[12]
王强. 基于深度学习的交通标志检测和识别[D]. 南京: 南京邮电大学, 2021.

WANG Q. Traffic sign detection and recognition based on deep learning[D]. Nanjing: Nanjing University of Posts and Telecommunications, 2021.

[13]
YANG L, ZHANG R Y, LI L, et al. Simam: a simple, parameter free attention module for convolutional neural networks[C]// International Conference on Machine Learning, 2021:11 863-11 874.

[14]
李杰, 王峰, 马晨, 等. 基于改进YOLOv5s的无人机图像识别[J]. 电光与控制, 2024, 31(4):22-27.

LI J, WANG F, MA C, et al. UAV image recognition based on improved YOLOv5s[J]. Electronics Optics & Control, 2024, 31(4):22-27.

Outlines

/