中国科技核心期刊      中国指挥与控制学会会刊     军事装备类重点期刊
理论研究

基于多尺度感受野扩增融合的遥感目标检测算法*

  • 裴君岩 ,
  • 刘义海
展开
  • 江苏自动化研究所, 江苏 连云港 222061

作者简介:裴君岩(1995—),男,黑龙江哈尔滨人,硕士研究生,研究方向为计算机视觉。

刘义海(1988—),男,博士,高级工程师。

Copy editor: 胡志强

收稿日期: 2019-08-07

  修回日期: 2019-11-12

  网络出版日期: 2022-05-19

基金资助

*十三五国防预研基金

Remote Sensing Target Detection Algorithm Based on Multi-scale Receptive Field Amplification and Fusion

  • PEI Jun-Yan ,
  • LIU Yi-Hai
Expand
  • Jiangsu Automation Research Institute, Lianyungang 222061, China

Received date: 2019-08-07

  Revised date: 2019-11-12

  Online published: 2022-05-19

摘要

针对基于高空遥感图像的战场目标情报获取中存在的检测率、正确率低等问题,借鉴YOLOv3框架提出一种改进的YOLOv3-RE新算法。算法用res2block改善原特征提取网络,实现对目标特征的多尺度提取,克服由于感受野受限而丢失目标特征问题;其次,针对高空遥感目标小或极小的突出问题,在检测网络中增加第4个检测尺度。用标准数据集进行试验测试,结果表明YOLOv3-RE比YOLOv3检测精度提升近5个百分点,对基于高空遥感图像的战场目标情报获取业务具有重要贡献。

本文引用格式

裴君岩 , 刘义海 . 基于多尺度感受野扩增融合的遥感目标检测算法*[J]. 指挥控制与仿真, 2020 , 42(1) : 34 -39 . DOI: 10.3969/j.issn.1673-3819.2020.01.008

Abstract

Aiming at the problem of target detection rate and low accuracy in the high-altitude remote sensing image intelligence support, this paper proposes an improved YOLOv3-RE algorithm based on the YOLOv3 framework. The algorithm uses res2block to improve the original feature extraction network, realize multi-scale extraction of target features, and overcome the problem of missing features due to fewer pixels. Secondly, for the problem of high-altitude remote sensing small target, the fourth detection scale is added to the detection network. Tests are carried out using standard data sets. The results show that the accuracy of YOLOv3-RE is nearly 5 percentage points higher than that of YOLOv3, which is an important contribution to the high-altitude remote sensing image intelligence support business.

通过卫星和无人机等航空手段获取的遥感图像对战场情报保障具有十分重要的意义。但是遥感图像由于受光照变化,以及春、夏、秋、冬、雷、雨、风、电等复杂背景影响,使得基于遥感图像的目标检测效果不理想,依然存在检测精度低、错检、漏检等问题。
近年,随着计算力、大数据的快速发展,基于深度学习的目标检测获得巨大成功并得到广泛应用。分析认为,该类算法主要分为基于候选框的方法和基于回归的方法两大类。前者以Ross Girshick[1-3]等人提出的R-CNN为代表,包括Fast RCNN[2]、Faster RCNN[3] 、Mask RCNN[4]等。与此相比,后者则主要有Joseph Redmon等的YOLO[5-7]、 Liu W的SSD[8]等。基于候选框的目标检测算法通过在特征图上先枚举候选目标框,再以精细分类方式获取目标检测结果,因此具有目标检测精度高的优点,但是存在速度慢、存储耗费大、模型无法压缩等问题,影响其在工程中的应用[9]。相对的是,基于回归的检测算法由于克服了上述枚举目标框的缺点,通过在特征图上直接回归获取目标,算法实时性好,在工程中被大量使用[9]
然而基于回归的目标检测算法,尤其是最先进的YOLOv3,在面向复杂背景以及场景复杂变化等条件下的遥感目标检测时,其算法因网络丢失目标感受野严重,特征利用不充分,使目标不能被高效地检测出来。因此,本文以提升工程应用中遥感图像的目标检测精度为根本问题,以YOLOv3为基础框架进行大量改进,形成新的检测网络。

1 面向遥感目标检测的YOLOv3-RE算法

1.1 基于YOLOv3的遥感目标检测及问题分析

遥感图像目标检测从最早的基于手工特征提取的传统方法发展到现在主要是基于深度学习的方法。YOLOv3算法是目前工程应用中被认为最先进的一个端到端的目标检测深度神经网络,由Darknet53骨架网络和预测网络组成。Darknet53作为特征提取器提取特征,预测网络则利用提取的特征进行目标分类和回归,得到目标类别和位置信息。 Darknet53骨架网络的性能与目标检测的准确性和速度直接相关,其具体网络结构如表1所示。可以看出,通过引入残差结构构建网络的主体结构,Darknet53可以保证网络在更深的层数上不会出现退化,有效地保证了目标的回归检测。
表1 Darknet53网络架构
对于任意大小的输入遥感图片,YOLOv3都会将其调整为416×416作为最终输入。对输入图片,经过上述Darknet53骨架网络后,预测网络分别在52×52、26×26、13×13的三个不同特征尺度上进行回归检测输出,回归输出中同时引入尺度融合,满足了对不同大小目标的检测。对于特定特征图上的回归检测,该特征图会被划分为一些相等的单元网格,每个单元负责预测覆盖该单元的一些边界框,边界框的每个预测都包含以下信息:边界框的坐标(tx,ty),宽度tw和高度th,通过在每个单元格中使用锚框来预测边界框,如果cx,cy代表目标中心在每个单元格中相对于图像左上角的偏移量,锚框的宽度和高度分别为pw,ph,最终算法预测的边界框的公式为:
by=δ(ty)+cy bx=δ(tx)+cxbw=pw e t w bh=ph e t h
然而需要说明的是,我们在将上述方法用于遥感图像检测时,发现结果并不总是如意。主要表现为:
1)由于遥感图像的目标角度的特殊性,以及背景的复杂性还有所拍目标会受到复杂场景变化的影响,这些因素会干扰网络对目标进行特征提取;
2)遥感图像中含有大量的小目标,需要更大的感受野,更低的检测层次才能有效检测。
这些问题,使得YOLOv3算法进行检测时依旧存在错检、漏检,检测率低等问题,因此,本文在YOLOv3基础上进行改进以进一步提升网络的检测精度。

1.2 针对遥感目标检测的YOLOv3-RE算法

本文在YOLOv3算法的基础上,分别针对特征提取器和检测网络的部分提出了以下几点改进。
1)YOLOv3的特征提取过程参考了Resnet[11]结构,克服了梯度消失问题,增强了特征表达力。但是该特征提取网络仍然为逐级分层多尺度表示,单层内特征利用不够充分。受到Res2net[12]的启发,本文利用Res2net替换掉YOLOv3原始特征提取网络中的Resnet。相比于Resnet,Res2net在单层内增加了尺度,扩大了感受野的范围,更好地利用了上下文信息,对于某些偏小目标或者受光照影响目标,使用上下文信息可以更容易地帮助分类器检测目标,同时多个尺度的提取特征使得网络的语义表征能力更加出色,特征表现力更强。图1所示的是Resblock与Res2block(尺度为4)的结构对比图,可以看出,Res2block将原来的Resblock模块在通道上进行拆分,然后在不同的尺度上分别提取特征,最后在单层内进行特征融合,整体结构依然使用了残差连接,增强了网络的表达能力,并且没有增加网络的参数量。
图1 Resblock与Res2block结构对比图
2)YOLOv3借鉴于FPN[13]网络的思想,将高层网络的强语义特征与浅层网络的高分辨率相结合,大大提升了检测效果,再结合选择在三个不同尺度检测,加强了对小目标的检测,本文所针对的是遥感图像,存在着许多小目标,为了加强对其中小目标的检测,在原算法的基础上增添第四个尺度进行检测。
3)基于YOLOv3的检测算法需要在回归时利用目标框的初始尺寸,即anchor boxes。原始YOLOv3是面向常规视觉任务,这与遥感视角的视觉目标差异性极大。因此,对于anchor boxes的初始尺寸的选定,本文对所选用的数据集重新进行了聚类分析。本文所选用的数据集是武汉大学所标注的RSOD遥感公开数据集以及部分Google Earth上的自标注图片,对于聚类算法所选用的距离函数为
d(B,C)=1-IOU(B,C)
其中,B表示样本矩形框,C表示聚类中心,IOU表示两个框的交并比。
为了平衡交并比与模型的复杂度,分别取聚类簇的个数k为3~11,得到平均IOUk的关系曲线如图2
图2 平均IOUk值关系曲线
通过分析曲线,k=8之后,曲线开始变得十分平缓,所得到的anchor boxes分别是(12,17),(21,24),(33,37),(44,51),(58,62),(72,80),(99,105),(129,132)和(386,401)。
最终,YOLOv3-RE结构如图3所示。
图3 YOLOv3-RE结构示意图

2 实验与结果

2.1 网络训练与性能评估方法

本文的算法在Tensorflow框架上实现,使用的显卡是Titan Xp,显存为12 G,操作系统为Windows Server 2012R2,编程环境为python3.6.4和tensorflow1.3。
由于遥感图像为领域小样本集合,因此无法直接用遥感图像数据训练出一个完整的网络,本文采用预训练加微调方式进行网络训练。
1)预训练部分。预训练过程的主要目的是获取特征提取网络的预训练参数,因此可构造一个目标的分类任务进行训练。在分类任务中,特征提取网络的最后添加全连接层和softmax分类器构建分类网络。考虑到CIFAR10数据集中包含大量尺寸相对较小的目标,与遥感图像目标较小的特点比较契合,因此选择CIFAR10数据集来进行分类预训练。CIFAR10数据集是由60 000个32×32的图像组成,共分为10个类别,有50 000个训练图像和10 000个测试图像。
2)微调训练部分。预训练之后保留特征提取网络参数,并随机初始化检测网络参数,再次采用遥感数据集合进行微调。微调训练使用武汉大学所使用的RSOD遥感数据集。RSOD数据集包含的数据种类分别有飞机、操场、立交桥以及油桶四类,飞机和油桶类别一张图片包含多个目标,目标较小,操场和立交桥类别一张图片包含一个目标,目标较大,其中包括不同光照条件下不同高度的物体,所俯拍的物体的角度也有相应变化,图片分辨率均为1 044×915。
在预训练和微调训练中, 80%的数据进行训练,剩余20%的数据进行测试使用。在训练过程中,总共迭代45 000次,初始学习率为0.001,在训练迭代次数为35 000和40 000次时,变更学习率0.000 1和0.000 01,其他参数中,动量参数设置为0.9,权重衰减参数设置为0.000 5,batch size设置为16,采用动态梯度下降法进行损失优化。
分别使用检测准确率P和目标召回率R对YOLOv3-RE与YOLOv3进行对比评估,其公式分别为:
P= X T P X T P + X F P
R= X T P X T P + X F N
其中,XTP表示被正确检测出的物体,XFP表示被错误检出的物体,XFN表示未被检测出的物体。

2.2 试验结果及分析

本文分别对于YOLOv3算法和YOLOv3-RE进行测试比较。其中,对于实验过程中YOLOv3第一个resblock和YOLOv3-RE第一个res2block得到的特征图如图4所示。
图4可以看出,本文提出的算法相比于YOLOv3对于特征的提取效果更好,提取的特征更明显,更有利于检测。
由公式(3)得到各类别精准度以及平均精准度如表2所示。
表2 两种算法的精准度对比
Algorithm P(aircraft) P(oiltank) P(overpass) P(playground) mAP
YOLOv3 84.28% 87.54% 78.46% 85.46% 83.94%
YOLOv3-RE 89.43% 90.25% 84.26% 91.14% 88.77%
表4中可得,改进后的算法在各个类别上的精准度均优于YOLOv3,并且平均精准度也由83.97%提升到了88.77%,得到了约5个百分点的提升,说明YOLOv3-RE算法可以有效地提升检测的精准度。
由公式(3)、(4)的方法得到当IOU=0.45时所得到的YOLOv3以及YOLOv3-RE算法P-R曲线(以飞机种类为例),如图5所示。
图5a)和b)中P-R曲线与坐标轴所包含的面积的直观比较得知,YOLOv3-RE算法要优于YOLOv3。
图6是两组使用YOLOv3和YOLOv3-RE的检测结果对比图,每组图分6a),6b),6c)三张进行显示对比,a)图是未进行检测前的原图;b)图是使用YOLOv3算法的检测结果图,其中的红色标识为未检测出来的目标;c)图是使用YOLOv3-RE检测算法的检测结果图。
从对比图可以得知,部分物体由于受到光照条件以及遮挡等原因的影响或者是目标与目标之间距离过于紧密导致YOLOv3算法存在部分漏检的情况,而且对于遥感图像中较小型的目标检测率比较低,存在部分漏检的情况,而本文的改进模型则有效地解决了密集目标易漏检的问题,并且对于遮挡目标的检测也有较大的效果提升,小目标的检测率也大大上升了,有效地解决了YOLOv3小目标漏检率高的问题,总体目标的识别率相较于YOLOv3也有较大程度的提高。

3 结束语

针对场景变化以及复杂背景条件下小或极小遥感目标检测问题,本文提出了一种改进的YOLOv3-RE新算法。算法首先选择以res2block模块替换掉原有网络的resblock,扩展目标感受野并增强检测目标特征利用率。其次,在检测网络部分增加一个检测尺度,使之检测网络对极小目标的检测效果更好。最后,利用同一遥感数据集对新模型与YOLOv3进行训练。实验结果表明,改进后的模型检测效果要优于YOLOv3,对于目标的检测具有更强的鲁棒性,召回率以及平均精准度均有明显地提升,对基于遥感图像的战场目标情报获取业务具有重要价值。
需要指出的是,本文模型由于复杂度上升,导致其在检测速度方面得到了一定程度的下降,因此在未来的工作里,如何在不降低网络性能的情况下简化或压缩网络,降低参数将会是主要的研究方向。
[1]
R. Girshick, J. Donahue, T. Darrell and J. Malik. Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation[C]. 2014 IEEE Conference on Computer Vision and Pattern Recognition, Columbus, OH, 2014: 580-587.

[2]
Girshick R. Fast R-CNN IEEE International Conference on Computer Vision[C]. IEEE, 2015:1440-1448.

[3]
S. Ren, K. He, R. Girshick, J. Sun, Faster R-CNN: Towards RealTime Object Detection with Region Proposal Networks[C]// in IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6):1137-1149.

[4]
Kaiming He, Georgia Gkioxari, Piotr Dollár, et al. Mask R-CNN[C]// IEEE Conference on Computer Vision and Pattern Recognition, 2018(99):1-1.

[5]
J. Redmon, S. Divvala, R. Girshick, A. Farhadi. You Only Look Once: Unified, Real-Time Object Detection[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, NV, 2016: 779-788.

[6]
J. Redmon, A. Farhadi. YOLO9000: Better, Faster, Stronger[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, HI, 2017: 6517-6525.

[7]
Redmon J, Farhadi A. YOLOv3: An Incremental Improvement[J]. arXiv Preprint arXiv: 1804. 02767,2018.

[8]
Liu W, Anguelov D, Erhan D, et al. Ssd: Single Shot MultiBox Detector[C]// European Conference on Computer Vision. Springer, Cham, 2016:21-37.

[9]
Wei Y, Ji Z, Wang H, et al. A Vehicle Real-time Detection Algorithm Based on YOLOv2 framework[C]// Real-time Image & Video Processing, 2018.

[10]
Dalal N, Triggs B. Histograms of Oriented Gradients for Human Detection[C]// 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05). IEEE, 2005.

[11]
He K, Zhang X, Ren S, et al. Deep Residual Learning for Image Recognition[C]// Pvoceeding of the IEEE Conference on Computer vision and Pattem Recognition, 2016:770-778.

[12]
Gao S H, Cheng M M, Zhao K, et al. Res2Net: A New Multi-scale Backbone Architecture[J]. arXiv preprint arXiv: 1904. 01169,2019.2.

[13]
Lin T Y, Dollar P, Girshick R, et al. Feature Pyramid Networks for Object Detection[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2017: 936-944.

文章导航

/