遥感图像的目标检测,是军事领域的重要研究方向之一。如无人机、无人艇等具有光电传感系统的很多设备都涉及图像的目标检测技术。但目前,这种涉及目标检测技术并且需要识别定位的设备大多数都还采用的是“人在回路中”的控制模式。“人在回路中”的控制模式是指操作员在经过第一次指令输入后,仍有机会进行第二次或不间断的指令更正,即通过人为操作更改对目标的定位和检测识别。这种方式虽能够很好地进行目标检测,但仍然存在着一些缺陷:操作员精力消耗大,工作强度大;且对于经验性操作,有经验的操作员的准确性更高;不同的操作人员在相同情境下判断方法会影响判断的结果;在连续场景,尤其是背景复杂或者同一场景多个目标的情况下,操作人员容易漏掉目标或做出误判。
因此,自动目标检测是一个非常值得研究的方向。在传统的自动目标检测中通常采用复杂的人工特征提取方法,比如说:尺度不变特征转换
[1](Scale-invariant Feature Transform, SIFT)、方向梯度直方图
[2](Histogram of Gradient, HoG)等,来获取原始输入中和目标有关的表达信息,并在提取的和目标有关的特征信息上学习分类器
[3]。这些基于人工特征提取方法的检测识别模型对于不同的目标任务,甚至是同一目标的不同种形态,都需要仔细思考如何更好地提取目标特征。此外在提取特征时,丢失的有用信息也无法从分类训练中再次复原。因此,总体来说,传统的方法识别率并不太理想,而且耗时较长,时间的利用率较低,并且图像中背景的多样化以及复杂性会对目标产生干扰、不同的视角变化也会为目标识别带来一定的挑战。
近年来,目标检测技术有了新的进展,卷积神经网络很好地应用于目标检测。从2012年,Krizhevsky
[4]等提出的AlexNet在大型图像数据库ImageNet
[5]的图像分类竞赛中夺冠之后,各种深度学习检测算法相继被提出。目标检测算法包括One-stage和Two-stage两种。Two-stage方法主要的算法是RCNN系列。目前R-CNN框架已经发展了几代,从R-CNN到Fast R-CNN
[6]到Faster R-CNN
[7],图像检测的速度在保证正确率的情况下一直提高;从Faster R-CNN到Mask R-CNN
[8],则基于像素级为目标检测算法开启新的研究方向,不仅能够用物体框标出物体的位置,还能基于像素级描出物体的边界轮廓。其中基于Faster R-CNN+Resnet的检测网络模型在VOC+COCO数据集上飞行器单类的检测准确率能达到92.1%。由于遥感图像中的目标数量无规律、目标可能过小或密集等原因,Faster R-CNN检测模型不一定能发挥与实验理论相当的效果。