中国科技核心期刊      中国指挥与控制学会会刊     军事装备类重点期刊
Intelligent Information Fusion

A lightweight intelligent detection method for SAR images named FCDIS-YOLOv11s

  • YAN Chenyu 1 ,
  • GENG Liang 1, ,
  • DU Weiwei 1, 2 ,
  • ZHANG Xuexian 1
Expand
  • 1 North Automatic Control Technology Institute, Taiyuan 030006, China
  • 2 Key Laboratory of Intelligent Information Control Technology of Shanxi Province, Taiyuan 030006, China

Received date: 2025-07-22

  Revised date: 2025-07-30

  Online published: 2026-01-23

Abstract

Aiming at the problem that the synthetic aperture radar (SAR) image detection model is difficult to balance the detection accuracy and model lightweight, this study proposes a lightweight SAR image target intelligent detection method based on YOLOv11 s. This method first replaces the backbone network with an efficient FasterNet structure, which significantly reduces the number of model parameters; secondly, the independently developed EMIBC module is innovatively integrated into the C3K2 module, which effectively improves the recognition ability of the model for small targets and multi-scale targets. Thirdly, the dynamic upsampling (DySample) is used to replace the traditional upsampling method to optimize the processing efficiency of the feature fusion stage. Finally, the Inner-SIoU loss function is introduced to replace the original CIoU bounding box loss, which further improves the training effect and feature extraction ability of the model. The experimental results on the HRSID dataset show that the improved model reduces the computational complexity index GFLOPs by 2.79 %, and the detection accuracy index mAP is increased by 7.35 %, which better realizes the balance optimization of model lightweight and detection accuracy.

Cite this article

YAN Chenyu , GENG Liang , DU Weiwei , ZHANG Xuexian . A lightweight intelligent detection method for SAR images named FCDIS-YOLOv11s[J]. Command Control and Simulation, 2026 , 48(1) : 45 -54 . DOI: 10.3969/j.issn.1673-3819.2026.01.006

合成孔径雷达(Synthetic Aperture Radar, SAR)是一种能以较高的空间分辨率呈现目标电磁散射特性在空间的分布,从而获取目标的形状尺寸以及内部结构等信息的成像雷达[1]。它不受云、雨、雪、雾以及黑夜或白天的影响,即使在能见度极低的气象条件下,也能拍出类似高分辨率光学相机所拍出的图片。然而,SAR雷达存在对拍摄角度和目标姿态敏感的问题,且拍出的图像中不可避免地含有斑点噪声。图中的目标难以直接用肉眼识别[2]。因此,美国麻省理工学院的学者们提出了包含检测,鉴定,分类3阶段的合成孔径雷达自动识别技术(SAR ATR, Synthetic Aperture Radar Automatic Target Recognition)[3]。检测是SAR ATR中的第一步也是关键的一步,本文围绕这一部分进行研究和讨论。 当前关于SAR图像检测识别的研究有很多:文献[4]针对SAR图像多尺度不同分布方向目标检测困难的问题,结合多尺度大核卷积模块(MSLK-Block)、动态特征融合模块(DFF-Block)与高斯概率分布损失函数(GPD-Loss),提出了一种多尺度动态特征融合检测网络(MSDFF-Net)。文献[5]针对SAR图像目标检测任务中目标所处背景复杂,容易出现虚警、漏警的问题,联合残差增强模块(ACC),动态稀疏注意力模块(BiFormer),提出了一种基于YOLOv8改进的SAR图像目标检测网络。文献[6]针对SAR图像复杂背景中密集分布目标检测困难的问题,结合高斯前景定位模块(GFL)和背景特征去除模块(BFR)提出了一种前景引导背景生成检测网络(FGBGNet)。文献[7]针对SAR图像存在斑点噪声和海岸杂波干扰,模型难以检测出图像中密集分布和大尺度差异目标的问题,结合可变形条带卷积(DSCN)与混合空间通道注意力机制(MSCA),提出了DSMF-Net检测网络。文献[8]针对复杂背景、密集排列以及大尺度变化目标检测困难的问题,联合中心增强模块(CEM)和交叉连接特征金字塔网络(CC-FPN),提出了一种中心感知目标检测网络(CASS-Det)。文献[9]针对近岸场景下地面建筑物、港口设施等杂波目标容易造成虚警的问题,提出了一种基于傅里叶变换的场景转换与语义增强目标检测网络(FSTSE)。文献[10]针对SAR图像中斑点噪声导致模型识别准度低的问题,提出了一种基于高斯概率和特征值分析的图像目标检测网络。
上述方法专注于提升模型的检测准确度,但是没有考虑SAR图像检测模型部署到无人机、飞机、卫星等终端的时候,由于平台载荷有限,研究人员需要在提升模型检测准确度的同时考虑降低模型体量的问题。为了均衡模型的检测准度与体量,本文对YOLOv11s模型进行了改进。首先,采用轻量级FasterNet替换原有主干网络,显著降低了模型参数量和计算复杂度;其次,在颈部网络中引入高效移动倒转瓶颈卷积模块(EMIBC),将C3K2模块升级为C3K2-EMIBC结构,有效增强了模型对小目标和多尺度目标的特征提取能力;再次,将传统的最近邻上采样替换为动态上采样模块(Dynamic Sample),提升了特征融合阶段的效率;最后,采用Inner-SIoU边界框损失函数替代原CIoU函数,进一步优化了目标定位精度。这些改进措施协同作用,在保证模型轻量化的同时显著提升了SAR图像的目标检测性能。

1 YOLOv11s模型介绍

2024年9月30日,Ultralytics公司发布了YOLOv11检测模型。YOLOv11模型由主干网络、颈部网络和检测头3部分组成。主干网络使用CSPNet搭建。颈部网络使用添加了C2PSA注意力模块的特征金字塔网络(Feature Pyramid Network, FPN)和路径聚合网络(Path Aggregation Network, PANet)搭建。预测输出部分采用可分开预测边界框损失和分类损失的解耦合结构预测头。损失函数由边界框损失和分类损失两部分组成,其中,边界框损失函数由CIoU损失函数和配合其无锚框的检测方式的分布焦点损失函数(Distribution Focal Loss,DFL)组成,分类损失函数由二元交叉熵损失函数(BCE)组成。

2 本文提出的FCDIS-YOLOv11s模型

为实现SAR图像目标检测模型轻量化与高精度检测的双重目标,本文在YOLOv11s模型基础上进行改进,提出了一种新型FCDIS-YOLOv11s检测模型。该模型名称源自4个核心改进模块的首字母组合:采用轻量化“FasterNet”作为主干网络、引入“C3K2-EMIBC”特征增强模块、集成“DySample”动态上采样算子以及创新性应用Inner-SIoU损失函数。FCDIS-YOLOv11s模型具体的结构如图1所示(图中彩色标注部分为改进的内容)。改进后的模型架构在保持轻量化的同时显著提升了特征提取与目标定位能力。
图1 FCDIS-YOLOv11s模型结构图

Fig.1 Improved YOLOv11 network structure diagram

FCDIS-YOLOv11s在YOLOv11s模型基础上做出了以下几点改进:
(1)主干网络轻量化设计:将原跨阶段局部网络(CSPNet)替换为计算效率更高的FasterNet结构,显著降低了模型计算复杂度。
(2)特征提取模块优化:提出融合注意力机制的高效移动倒转瓶颈卷积模块(EMIBC),并基于此改进了C3K2模块,设计出具有多尺度特征感知能力的C3K2-EMIBC模块,有效提升了模型对小目标和多尺度目标的检测性能。
(3)特征融合增强:在颈部网络中引入动态上采样模块(Dynamic Sample),该模块具有即插即用的特性,显著提升了特征融合阶段的效率。
(4)边界框回归优化:提出融合InnerIoU和SIoU损失的Inner-SIoU损失函数,通过改进边界框回归的优化目标,提升了预测框与真实框的匹配准度。

2.1 主干网络的改进

为了提高模型在SAR图像舰船目标检测任务中的工作效率,本文将基础模型YOLOv11s主干网络中的CSPNet替换为了FasterNet。FasterNet网络是 Jierun Chen等人于2023年5月提出的一种轻量且检测性能比较好的特征提取网络,具体结构如图2所示。FasterNet使用部分卷积(Partial Convolution, PConv)降低模型需要的计算量和内存访问量,具体原理如公式(1)和公式(2)所示,其中,公式(1)为PConv与普通卷积的计算量对比;公式(2)为PConv与普通卷积的内存访问量对比。
C o n v : h × w × k 2 × c 2 P C o n v : h × w × k 2 × c p 2
C o n v : h × w × 2 c + k 2 × c 2 h × w × 2 c P C o n v : h × w × 2 c p + k 2 × c p 2 h × w × 2 c p
图2 FasterNet网络结构与PConv工作原理

Fig.2 FasterNet network structure and PConv working principle

公式(1)和公式(2)中的h为特征图的高,w为特征图的宽,k为卷积核的大小,c为普通卷积处理的特征图通道数,cp为部分卷积处理的特征图通道数。如果令r=c/cp,由公式(1)可知,使用PConv后,卷积操作的计算复杂度降低为原来的1/r2,从而显著降低了模型的计算负载,使模型的结构更加轻量化。由公式(2)可得,使用PConv后卷积操作占用的内存访问量降低为原来的1/r,从而有效降低了模型运行所需的内存带宽,提升了模型的推理速度。

2.2 基于EMIBC的C2K3模块改进

为进一步提高模型在不同场景中对SAR图像中不同尺度目标和小目标的检测效率,本文提出了含有注意力机制的高效移动倒转瓶颈卷积模块(Effective Mobile Inverted Bottleneck Convolution, EMIBC),并用其替换了C3K2模块中的C3k模块,C3K2模块和改进后的C3K2-EMIBC模块如图3所示。
图3 C3K2模块的改进

Fig.3 Improvement of C3K2 module

EMIBC模块的结构如图3黄色方框中标出所示,采用了倒置瓶颈结构搭建,先使用1×1的卷积扩大特征图通道数,再使用轻量的深度可分离卷积提取特征图的纹理信息,经过Effective-SE通道注意力机制处理后再使用1x1的卷积将特征图通道数压缩回原来的数量,最后使用Droupout模块处理,以防止模型过度拟合。倒置瓶颈结构可解决一般瓶颈结构中会出现的通道信息丢失的问题,从而提升模型对特征图信息的提取能力。EMIBC模块使用的Effective-SE通道注意力机制的原理如公式(3)所示。
A E f f f e c t i v e - S E ( X i n ) = σ ( W c ( F g a p ( X i n ) ) ) X o u t p u t = A E f f e c t i v e - S E ( X i n ) X i n
公式(3)中的Xin代表输入特征图,Xoutput代表经过Effective-SE通道注意力处理的输出特征图,Fgap代表全局平均池化操作,Wc代表全连接层的权重,σ代表sigmoid激活函数。Effective-SE通道注意力机制和普通SE通道注意力机制相比,取消了降维全连接层和升维全连接层,直接使用一层全连接层计算各通道的权重,避免了通道信息的损失,以极少的计算量代价提高了模型的检测精度。使用Effective-SE通道注意力的倒置瓶颈结构可以精确地找到目标关键的特征信息,提高模型对小目标和不同尺度目标的检测准度。

2.3 上采样模块的改进

Dysample是Wenze Liu等人于2023年8月提出的一种轻量的智能上采样方法[11],相比于 CARAFE、FADE和 SAPA等基于核的智能上采样算法,DySample使用了基于点采样的智能上采样方法,这种方法提升了模型在小目标和多尺度目标检测任务中的识别准度,且不需要定制的CUDA包,显著减少了智能上采样算法的参数量和计算量。动态上采样的具体原理如图4所示。图4展示的动态上采样操作由3个部分组成(动态上采样点生成模块、动态上采样点合集、上采样操作模块)。
图4 动态上采样(DySample)模块结构图

Fig.4 Dynamic upsampling module structure diagram

动态上采样的输入是宽度为W,高度为H,通道数为C的特征图X。输出是宽度为sW(s为上采样倍数,图4中示例的上采样倍数为2),高度sH,通道数为C的上采样特征图X'。动态上采样工作的原理可由公式(4)描述。
X ' = g r i d _ s a m p l e ( X , S ) S = G + O O = α l i n e a r ( X )
公式(4)中第1行的X'代表输出特征图,X代表输入特征图,S代表动态上采样点合集,grid_sample代表根据输入特征图X和动态上采样点合集S进行的上采样操作。公式(4)中第2行的G代表以标准的双线性插值进行上采样时X'上的每个点应该从输入特征图X上进行采样的位置,O代表上采样点的偏移量,S代表由标准上采样位置G和采样点偏移量O组成的动态上采样点合集。公式(4)中第3行的linear代表通过输入特征图X预测上采样点偏移量的线性化操作,α代表静态范围因子,用于约束偏移范围,避免采样点重叠,一般取0.25。由于动态上采样操作是即插即用的模块,本文直接将模型原来的最近邻上采样模块替换为了动态上采样模块。

2.4 边界框损失函数的改进

边界框损失函数在目标检测任务中有着非常重要的作用,合适的损失函数能显著地改善模型检测工作的性能,为进一步提升模型的检测能力,本文将原始模型的CIoU损失函数替换为Inner-SIoU损失函数。

2.4.1 SIoU损失函数

SIoU损失函数是目前最新的边界框回归损失函数,它除了考虑到预测框和真实框之间的距离差异和形状差异之外,还考虑了角度差异,使用SIoU作为边界框损失函数可以增加模型训练收敛的速度和鲁棒性,SIoU具体的计算方法如公式(5)所示:
$L_{S I o U}=1-I o U+\frac{\Delta+\Omega}{2}$
公式(5)中的Δ为距离损失,Ω为形状损失,角度损失Λ包含在距离损失Δ中,距离损失Δ具体的计算方法如公式(6)所示:
$\Delta=\sum_{t=x, y}\left(1-\mathrm{e}^{-(2-\Lambda) * \rho_{t}}\right)$
公式(6)中角度损失Λ的计算方法为
$\Lambda=\sin \left(2 \sin ^{-1} \frac{\min \left(\left|x_{c}^{g t}-x_{c}\right|,\left|y_{c}^{g t}-y_{c}\right|\right)}{\sqrt{\left(x_{c}^{g t}-x_{c}\right)^{2}+\left(y_{c}^{g t}-y_{c}\right)^{2}+\varepsilon}}\right)$
其中, x c g t y c g t为真实边界框中心的坐标,xc,yc为预测边界框中心的坐标,分母中的ε为一个很小的数值,用于防止真实边界框和预测边界框重合时公式失效。
公式(6)中ρxρy的计算方法为
  ρ x = b c x g t - b c x c w 2 ρ y = b c y g t - b c y c h 2
公式(8)中的 b c x g t为真实边界框中心(实际目标区域中心)的x轴坐标值, bcx为预测边界框(模型预测出目标区域)中心的x轴坐标值,cw为预测边界框(模型预测目标区域)与真实边界框(实际目标区域)之间的水平距离; b c y g t为真实边界框(实际目标区域)中心的y轴坐标值,bcy为预测边界框(模型预测出目标区域)中心的y轴坐标值,ch为预测边界框(模型预测目标区域)与真实边界框(实际目标区域)之间的垂直距离。
公式(5)中的形状损失Ω
$\Omega=\sum_{t=w, h}\left(1-\mathrm{e}^{-\omega_{t}}\right)^{\theta}$
其中,ωwωh为:
$\omega_{w}=\frac{\left|w-w^{g t}\right|}{\max \left(w, w^{g t}\right)}$
$\omega_{h}=\frac{\left|h-h^{g t}\right|}{\max \left(h, h^{g t}\right)}$
在(10)式和(11)式中,w是预测边界框宽度(模型推测出目标区域的宽度),wgt是真实边界框宽度(目标区域的真实宽度),h是预测边界框高度(模型推测出目标区域的高度),hgt是真实边界框高度(目标区域的真实高度),(9)式中的θ代表了对Ω(形状损失)的重视程度,一般取值为2~6之间。

2.4.2 Inner-IoU损失函数

Inner-IoU可以弥补现有IoU损失函数在不同目标识别任务中泛化能力弱和收敛速度慢的问题,这种方法引入了一种可用比例因子控制尺寸大小的辅助边界框,适用于目前所有的边界框损失函数,有着较好的泛化能力。Inner-IoU具体的计算方法如公式(12 ~ 18)所示:
$b_{l}^{g t}=x_{c}^{g t}-\frac{w^{g t} * \text { ratio }}{2}, b_{r}^{g t}=x_{c}^{g t}+\frac{w^{g t} * \text { ratio }}{2}$
$b_{t}^{g t}=y_{c}^{g t}-\frac{h^{g t} * \text { ratio }}{2}, b_{b}^{g t}=y_{c}^{g t}+\frac{h^{g t} * \text { ratio }}{2}$
$b_{l}=x_{c}-\frac{w * \text { ratio }}{2}, b_{r}=x_{c}+\frac{w * \text { ratio }}{2}$
$b_{t}=y_{c}-\frac{h * \text { ratio }}{2}, b_{b}=y_{c}+\frac{h * \text { ratio }}{2}$
$\begin{aligned}\text { inter }= & \left(\min \left(b_{r}^{g t}, b_{r}\right)-\max \left(b_{l}^{g t}, b_{l}\right)\right) * \\& \left(\min \left(b_{b}^{g t}, b_{b}\right)-\max \left(b_{t}^{g t}, b_{t}\right)\right)\end{aligned}$
$ { - union }=\left(w^{g t} * h^{g t}\right) *( { ratio })^{2}+(w * h) *({ ratio })^{2}-inter$
$I o U^{ {inner }}=\frac{{ inter }}{ { union }}$
上公式中的 b l g t b r g t b t g t b b g t 分别为真实边界辅助框的左边界、右边界、上边界、下边界。blbrbtbb分别为预测边界辅助框的左边界、右边界、上边界、下边界。ratio为辅助边界框缩放的比例因子,取值范围为0.5~1.5。添加了Inner-IoUSIoU损失函数可以表示为
$L_{ {Inner-SIoU }}=L_{ {SIoU }}+I o U-I o U^{ {inner }}$

2.4.3 DFL损失函数

分布焦点损失(Distribution Focal Loss,DFL)可以提高模型检测鲁棒性与泛化能力,同时适合YOLOv11无锚框检测方式的损失函数,使用grid cell对应的步长stride作为单位量,将预测边界框上下左右四条边界线相对于锚点(锚点为grid cell的中心点)的偏移距离分别建模为离散概率分布。具体的计算方法如公式(20)所示:
$L_{D F L\left(S_{i}, S_{i+1}\right)}=-\left(\left(y_{i+1}-y\right) \log \left(S_{i}\right)+\left(y-y_{i}\right) \log \left(S_{i+1}\right)\right)$
公式(20)中y为预测框边界相对于锚点的偏移距离,偏移距离y具体的计算方法如公式(21)所示:
$y=\sum_{j=0}^{reg\text {_max }} y_{j} * p\left(y_{j}\right)$
$\sum_{j=0}^{reg\text {_max }} p\left(y_{j}\right)=1$
公式(21)中的reg_max是以grid cell为单位的最大偏移单位数量,一般取值为15。公式(21)中的yj以锚点为起点,偏移j个单位数量的偏移距离。公式(21)中的p(yj)为预测框边界在偏移距离yj处的概率,在所有偏移距离上的概率总和为1,如公式(22)所示。
公式(20)中的yiy向下取整后的偏移距离数值,yi+1y向上取整后的偏移距离数值。Si为预测框边界在偏移距离yi处的概率,Si+1为预测框边界在偏移距离yi+1处的概率。当SiSi+1比较小时,取对数后数值的绝对值会比较大,整体损失函数会受影响变大。当SiSi+1比较大时,取对数后数值的绝对值会比较小,整体损失函数会受影响变小。模型能够在预测边界框与真实边界框相差比较大的时候用比较大的力度调节偏移距离y;在预测边界框与真实边界框相差比较小的时候用比较小的力度调节偏移距离y

2.4.4 本文改进的边界框损失函数

本文将Inner边界框损失、SIou边界框损失和DFL边界框损失相结合,提出了一种改进的边界框损失函数。具体的计算如公式(23)所示:
$\begin{array}{r}L_{B O X}=\lambda_{B O X} \sum_{i=0}^{S^{2}} 1_{i}^{o b j} \cdot L_{ {Inner-SloU }}+ \\\lambda_{D F L} \sum_{i=0}^{S^{2}}\left(1_{i}^{o b j} \cdot \sum_{l, t, r, b} L_{D F L_{m}}\right)\end{array}$
本文提出的FIS损失函数主要由3部分构成:
公式(23)的第一行为使用Inner-SIoU改进了的边界框损失函数,其中,λBOX为边界框损失函数的系数,本文取7.5。S2为grid cell的总个数(grid cell的数量等于最后得到特征图的像素点数),每一个grid cell根据一个锚点(grid cell的中心点)输出一个预测框。 1 i o b j在锚点输出的预测框中有目标时为1,没有目标时为0。
公式(23)的第二行为DFL损失函数,其中,λDFL为分布焦点损失系数,本文取1.5。LDFLlLDFLtLDFLrLDFLb分别为预测框左边界、上边界、右边界和下边界相对锚点偏移距离的分布焦点损失。
本文改进的边界框损失函数将原模型的CIoU损失函数替换为了Inner-SIoU损失函数,提高了模型预测框与真实框的拟合度,从而提高了模型的检测能力。

3 实验结果分析

3.1 实验数据集介绍

本文使用HRSID (High Resolution SAR Images Dataset)数据集进行实验[12]。HRSID数据集是Sentinel-1、TerraSAR-X和TanDEM-X 等卫星拍摄得到的船舶数据集,其中,收录了多种海况和多种类型与尺寸的舰船样本,具有一定的多样性,可使训练出的模型有比较好的泛化能力。HRSID数据集中共有5 604张图片,16 951个舰船目标。本文从5 604张图片中随机选取3 642张作为训练样本,1 962张作为测试样本进行实验。

3.2 实验效果评价指标

本文分别以查准率(Precision)、查全率(Recall)、平均精度均值(mAP)、模型浮点运算次数(GFLOPs)、模型参数量(Params)来评价模型在SAR图像检测模型的性能。
其中,查准率(Precision)的计算公式为
$ { Precision }=\frac{T P}{T P+F P}$
查全率(recall)的计算公式为
${ Recall }=\frac{T P}{T P+F N}$
平均精度均值(mAP)的计算公式为
$m A P=\int_{0}^{1} { precision(recall)drecall }$
上式中的TP为真正例(表示正样本被模型正确检测出的数量);TN为真负例(表示负样本被模型正确检测出的数量);FP为假正例(表示模型发生错误,这种错误导致模型将负样本误检测为正样本的数量);FN为假负例(表示模型发生错误,导致正样本被错误检测为负样本的数量)。

3.3 主干网络对比实验

在保证轻量化的同时,从SAR图像中准确地检测出目标是一项具有挑战性的工作。为实现模型识别准度与轻量化的平衡,本文对YOLOv11s的主干网络进行了改进,并选取了一些目前比较主流的轻量主干网络进行了检测性能对比,结果如表1所示。由表1可以看出,将原始模型的CSPNet主干网络替换为FasterNet后,模型的轻量化效果最好,模型的参数量下降了4.98%,计算复杂度下降了5.12%,同时模型的查准率Precision提升了3.63%,查全率Recall提升了3.26%,平均精度均值mAP提升了3.49%。由此可看出,在将主干网络替换为FasterNet后,模型除实现了轻量化的效果以外,还提高了检测的准确度。相比于FasterNet,使用EfficientFormerV2作为主干网络,将原始模型的查准率Precision提升了3.81%,但同时也将模型参数量和计算复杂度提升了23.22%、29.77%,虽然提升了模型的检测性能,但显著损害了模型的轻量化效果;使用StarNet作为主干网络,将原始模型的参数量和计算复杂度降低了22.69%、24.65%,但同时也将模型的查准率Precision、查全率Recall和平均精度均值mAP分别降低了5.76%、6.28%和5.64%,虽然起到了比较好的轻量化效果,但是显著损害了模型的检测精度;最后,使用MobileNetv4作为主干网络,虽然起到了提高模型检测精度和轻量化模型的效果,但是整体的性能不如FasterNet。经过上述的实验对比,本文选择FasterNet作为改进模型使用的主干网络。
表1 主干网络对比实验

Tab.1 Backbone network comparison experiment

基础模型 主干网络 P/% R/% mAP/% Params/106 GFLOPs
YOLOv11s CSPNet[13] 83.01 82.67 84.23 9.43 21.5
YOLOv11s MobileNetv4[14] 84.13 83.25 85.15 9.17 20.6
YOLOv11s EfficientFormerV2[15] 86.82 85.73 86.36 11.62 27.9
YOLOv11s StarNet[16] 77.25 76.39 78.59 7.29 16.2
YOLOv11s FasterNet[17] 85.64 85.93 86.72 8.96 20.3

3.4 消融实验

本文分别使用了FasterNet主干网路、C3K2-EMIBC特征提取模块、DySample上采样模块和Inner-SIoU损失函数对基础模型YOLOv11s进行了改进,为验证提出各模块的改进效果,本文设计了如表2所示的消融实验,表3展示了消融实验的性能对比结果,图5展示消融实验的热力图对比结果。
表2 消融实验设计

Tab.2 Experimental design for ablation

方法 Baseline FasterNet C3K2-EMIBC DySample Inner-SIoU
1
2
3
4
5
表3 消融实验性能对比结果

Tab.3 Comparison results of ablation experiment performance

方法 P/% R/% mAP/% Params/106 GFLOPs
1 83.01 82.67 84.23 9.43 21.5
2 85.64 85.93 86.72 8.96 20.3
3 87.96 87.21 88.97 9.35 20.7
4 89.17 88.54 90.51 9.55 20.8
5 90.26 89.79 91.58 9.55 20.8
图5 消融实验的热力图对比结果

Fig.5 Comparison results of heatmaps in ablation experiments

表3的消融实验性能对比结果可得,在主干网络替换为FasterNet后,衡量模型识别准度的指标Precision、Recall和mAP分别提高了2.63%、3.26%和2.49%;衡量模型复杂度的指标Params和GFLOPs分别降低了0.47、1.2,由此可得出,将主干网络替换为FasterNet后,可以在提高模型识别准度的同时降低模型的复杂度。
研究人员在添加C3K2-EMIBC后,虽然少量增加了模型的复杂度(Params和GFLOPs指标分别提升了0.39和0.40),但是模型的检测准确度得到了显著的提升(Precision、Recall和mAP指标分别提高了2.32%、1.28%和2.25%)。研究人员将上采样模块改为DySample上采样后,仅极少量增加了模型的复杂度(Params和GFLOPs指标分别提升了0.2和0.1),但是模型的识别准确度进一步得到了比较大的提升(Precision、Recall和mAP指标分别提高了1.21%、1.33%、1.54%)。最后,研究人员在将CIoU损失函数替换为Inner-SIoU损失函数后,几乎没有再提升模型的复杂度,同时衡量模型检测准确度的指标Precision、Recall和mAP分别提升了1.09%、1.25%、1.07%。由图5的消融实验热力图对比结果可得,随着本文改进模块的添加,模型在复杂场景和小目标检测任务中,越来越能关注到目标所在区域。综上,本文提出的改进模块能在保证模型轻量化的同时,显著提升检测准确度。

3.5 与其他模型的性能对比实验

为充分验证提出方法有效性,本文将所提模型与DETR、YOLOv8s、YOLOv10s、YOLOv11s等目前主流的检测模型进行了对比,并在表4中展示了不同模型的检测性能比对。由表4可以看出,本文所提方法的参数量比DETR、YOLOv8s等模型分别减少了74.01%,14.50%,计算复杂度比DETR、YOLOv8s、YOLOv10s和YOLOv11s等模型分别减少了81.79%、27.78%、17.13%、3.7%。同时,相比于表4中的其他模型,本文所提模型的检测准度最高,Precision、Recall和mAP等指标分别达到了90.26%、89.79%、91.58%。本文从HRSID数据集中随机选取了3种场景的图像,并在图6中展示了不同模型的可视化检测结果,其中,场景1主要包含小目标,场景2为复杂背景下的目标,场景3则是近岸目标。
表4 不同模型的检测性能比对

Tab.4 Comparison results of different models

模型 P/% R/% mAP/% Params/106 GFLOPs
DETR[18] 61.27 45.62 70.73 36.75 114.2
YOLOv8s[19] 82.35 69.25 78.56 11.17 28.8
YOLOv10s[20] 82.72 72.36 81.29 8.13 25.1
YOLOv11s[21-22] 83.01 82.67 84.23 9.43 21.6
ours 90.26 89.79 91.58 9.55 20.8
图6 不同模型的可视化检测结果对比

Fig.6 Visual detection results of different models

此外,图中还用红色虚线框标出了各模型漏检的目标,用黄色虚线框标出了各模型虚警的目标。从图6可以看出,DETR模型在小目标场景和复杂场景中执行检测任务时均出现了漏检的情况,YOLOv8s模型在近岸场景中执行检测任务时出现了漏检的情况、YOLOv10s模型在复杂场景中执行检测任务时出现了漏检的情况、YOLOv11s在复杂场景中执行检测任务时出现了虚警的情况。相比对照模型,本文模型以较高的置信度检测出了所有目标。综上,本文提出的模型在轻量化效果与检测准确度方面均优于目前常用的检测模型,有着比较好的检测能力。

4 结束语

本文提出了一种轻量化且高精度的SAR图像目标检测模型。为实现模型轻量化,本文采用FasterNet主干网络替代原模型的CSPNet主干网络。为在保证检测精度的前提下进一步优化模型性能,本文进行了以下改进:首先,利用自主研发的EMIBC模块优化了原模型的C3K2模块;其次,采用DySample上采样方法取代传统的最近邻上采样,显著提升了特征融合阶段的效率;最后,将原模型的CIoU边界框损失函数改进为Inner-SIoU边界框损失函数,有效增强了预测框与真实框的匹配精度,从而提升了目标的定位能力。基于HRSID数据集的实验结果表明,本文所提出的模型在轻量化与检测精度方面取得了良好平衡,其检测性能优于当前主流的目标检测方法。
[1]
毛新华. 聚束式合成孔径雷达成像处理之道[M]. 北京: 国防工业出版社, 2024.

MAO X H. Theory of image formation processing for spotlight synthetic aperture radar[M]. Beijing: National Defense IndustryPress, 2024.

[2]
保铮, 邢孟道, 王彤. 雷达成像技术[M]. 北京: 电子工业出版社, 2005.

BAO Z, XING M D, WANG T. Radar imaging technology[M]. Beijing: Publishing House of Electronics Industry, 2005.

[3]
任浩浩. 合成孔径雷达图像目标识别方法研究[D]. 成都: 电子科技大学, 2021.

REN H H. Research on target recognitionmethod with synthetic aperture radar image[D]. Chengdu: University of Electronic Science and Technology of China, 2021.

[4]
SUN Z. Arbitrary-direction SAR ship detection method for multiscale imbalance[J]. IEEE Transactions on Geoscience and Remote Sensing, 2025(3): 1-21.

[5]
谷岳, 邓松峰, 沈霁, 等. 基于改进YOLOv8的SAR舰船目标检测算法[J]. 计算机与现代化, 2024(12): 78-83.

GU Y, DENG S F, SHEN J, et al. SAR ship detection algorithm based on improved YOLOv8[J]. Computer and Modernization, 2024(12): 78-83.

[6]
MA W P, YANG X T, ZHU H, et al. Dense-weak ship detection based on foreground-guided background generation network in SAR images[J]. IEEE Transactions on Geoscience and Remote Sensing, 2025(5): 1-16.

[7]
LIU X Y, PAN J, HU R, et al. DSMF-net:a one-stage SAR ship detection network based on deformable strip convolution and multiscale feature refinement and fusion[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2025(3): 694-710.

[8]
ZHAO C X, FU X J, DONG J, et al. Enhancing, refining, and fusing: towards robust multiscale and dense ship detection[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2025(2): 991-993.

[9]
LIU S, LI D, WAN J, et al. Promoting inshore ship detection in SAR images: a Fourier-based scene transformation and semantic enhancement framework[J]. IEEE Journalof Selected Topics in Applied Earth Observations and Remote Sensing, 2025(4): 104-105.

[10]
K. HANBAY. SAR ship detection based on Gaussian probability and eigenvalue analysis[J]. IEEE Signal Processing Letters, 2025(3): 1-5.

[11]
LIU W Z, LU H. Learning to Upsample by Learning to Sample[EB/OL].[2023-08-29].https://arxiv.org/abs/2308.15085.

[12]
WEI S J, ZENG X F, QU Q Z, et al. HRSID: a high-resolution SAR images dataset for ship detection and instance segmentation[J]. IEEE Access, 2020(6): 120-122.

[13]
WANG C Y, YUAN H. CSPNet: ANew Backbone that can Enhance LearningCapability of CNN[EB/OL].[2019-11-27].https://arxiv.org/abs/1911.11929.

[14]
QIN D F. MobileNetV4--Universal Models for the Mobile Ecosystem[EB/OL].[2024-09-29].https://arxiv.org/abs/2404.10518.

[15]
LI Y Y. Rethinking Vision Transformers for MobileNet Size and Speed[EB/OL].[2023-09-04].https://arxiv.org/abs/2212.08059v2.

[16]
MA X. Rewrite the Stars[EB/OL].[2024-05-29].https://arxiv.org/abs/2403.19967.

[17]
CHEN J R. Run, Don’tWalk: Chasing Higher FLOPS for Faster Neural Networks[EB/OL].[2023-05-21].https://arxiv.org/abs/2303.03667.

[18]
NICOLAS CARION. End-to-End Object Detection with Transformers[EB/OL].[2020-05-28].https://arxiv.org/abs/2005.12872.

[19]
MUHAMMAD YASEEN. What is YOLOv8: An In-Depth Exploration of the Internal Features of the Next-Generation Object Detector[EB/OL].[2024-08-28].https://arxiv.org/abs/2408.15857.

[20]
WANG A, CHEN H. YOLOv10: Real-Time End-to-End Object Detection[EB/OL].[2024-10-30].https://arxiv.org/abs/2405.14458.

[21]
RAHIMA KHANAM, MUHAMMAD HUSSAIN, YOLOv11: An overview of the key architectural enhancements[EB/OL].[2024-10-23].https://arxiv.org/abs/2410.17725.

[22]
王源源. 基于改进稀疏表示的SAR图像目标识别方法[J]. 电光与控制, 2023, 30(9):42-46.

WANG Y Y. SAR target recognition based on modified sparse representation[J]. Electronics Optics & Control, 2023, 30(9):42-46.

Outlines

/