中国科技核心期刊      中国指挥与控制学会会刊     军事装备类重点期刊
Expert Forum

A Survey of Research on Image Target Recognition Based on Deep Learning

  • SHAN Lian-ping 1 ,
  • DOU Qiang 2
Expand
  • 1. Jiangsu Automation Research Institute, Lianyungang 222061
  • 2. Navy Representative Office in 716 Institute, Lianyungang 222061, China

Received date: 2018-09-30

  Revised date: 2018-10-19

  Online published: 2022-05-20

Abstract

In recent years, convolutional neural networks have become more and more excellent in the fields of image classification, image retrieval and object detection. The research on the application of deep learning in sea battlefield target image recognition is more and more abundant. This paper first summarizes the theory and development process of the commonly used deep learning techniques in the target image recognition system, and then compares the advantages and disadvantages of traditional recognition technology and deep learning technology, R-CNN series model based on regional suggestion and regression-based YOLO model. The application status of deep learning technology in the image recognition of sea battlefield targets is reviewed. Finally, the possible development direction of future image recognition technology of sea battlefield targets is prospected.

Cite this article

SHAN Lian-ping , DOU Qiang . A Survey of Research on Image Target Recognition Based on Deep Learning[J]. Command Control and Simulation, 2019 , 41(1) : 1 -5 . DOI: 10.3969/j.issn.1673-3819.2019.01.001

在现代化海战中,卫星、无人机等空天侦查平台在军事目标探测中得到了广泛应用,能够监视和捕获到大量遥感、SAR和可见光图像,从这些图像中解算出目标的身份和位置信息对战前筹划、指挥辅助决策以及精确打击具有重要价值。然而,在实际海战场环境中,图像质量通常容易受到光照、薄雾、遮挡等自然地理因素的影响,此外,目标本身的姿态和尺度具有多变性,这些因素都会对识别性能造成一定的影响。因此,研究先进的图像目标自动识别技术,提升海战场环境下的图像识别能力非常重要。
目前,国内针对目标识别的综述,特别是雷达目标识别的综述很多,而针对图像目标识别的综述较少。陈文婷等[1]针对 SAR 图像舰船目标识别流程和技术进行了全方位总结,但由于近几年深度学习技术的飞速发展,难以精确地概括当前的图像目标识别技术;谢晓竹等[2]针对复杂背景下的车辆目标识别研究进行了综述,但对深度神经网络识别技术的介绍不够详细。
从已有文献来看,海战场图像目标识别系统的发展经历了两个阶段:基于传统方法的识别系统和基于深度神经网络的识别系统。本文将着重对识别中应用的深度学习技术进行归纳,对比分析不同技术的优势和缺陷,并展望海战场图像目标识别的技术发展方向。

1 海战场图像目标识别技术

海战场图像目标识别包括基于序列图像的识别和基于静态图像的识别,本文主要讨论基于静态图像的识别。一个完整的海战场图像目标识别系统需要识别图像中所有目标的类别和图像中所有目标的具体位置和大小。

1.1 基于卷积神经网络的分类模型

卷积神经网络(Convolutional Neural Network, CNN)是目前应用最广泛的深度学习技术,在图像分类、图像检索、物体检测等任务中表现及其优异。2012年, AlexNet[4]以绝对优势拿下ImageNet竞赛的冠军,引发了深度学习研究的热潮。此后,CNN在计算机视觉领域不断取得新的突破,为海战场图像目标识别提供了新的解决方案。
一个经典的卷积神经网络通常包括输入层、卷积层、下采样层(也叫池化层)、全连接层和输出层,其中卷积层利用一定大小的卷积核对上一层输出按一定步长从左到右从上到下进行卷积操作;下采样层对卷积结果进行小邻域特征点整合;全连接层对经过一系列卷积和下采样步骤后的数据进行分类,得到的误差回传到前面各层,并更新卷积核参数和全连接层参数,最终完成图像分类。
1998年,LeCun等[3]针对二维文本图像识别问题提出了现代卷积神经网络的雏形 —— LeNet,如图1所示。LeNet 包含了两个卷积层、两个池化层和一个全连接层,卷积层和池化层的作用是提取特征,将原始数据映射到特征维度,全连接层进行分类,将特征维度映射到样本标签。
图1 经典卷积神经网络(LetNet-5)结构
AlexNet[4]在 LeNet 的基础上加深了网络的学习层数,使用5个卷积层和3个全连接层,并在训练中进行了诸多改进,主要表现在:1)使用ReLU函数做激活函数解决了在网络层数较深时易发生梯度消失的问题;2)使用 LRN 归一化提高网络的泛化能力;3)提出池化的大小大于步进、训练时随机丢弃全连接层中的部分神经元(Dropout)和扩大训练数据集大小等方式抑制过拟合;4)在多GPU上进行分布式计算加速网络训练。AlexNet是最先在ImageNet图像分类竞赛中取得突破的网络,为后来更多更优秀模型的提出奠定了基础。
为了提升CNN在图像分类问题上的表现,牛津大学的研究人员在卷积层大量采用3*3的卷积核提取图像特征,提出比AlexNet模型更深的VGG模型[5]。Google为了更好的融合多尺度模型特征,提出了InceptionNet[6],InceptionNet在同一个卷积层中使用多个不同大小的卷积核对上一层输出进行卷积,并把所有的卷积运算结果堆积到一起,从而避免了人工确定卷积核大小带来的不确定性。此外,InceptionNet降低了全连接层的层数,除了分类层以外的所有层数全部用作特征通用的特征提取器。
由于梯度消失和梯度爆炸问题的存在,很深的神经网络较难训练,因此,随着网络深度的持续增大,分类精度反而会有所下降。针对该问题,何恺明等[7]基于使用卷积层学习输入输出之间的残差较为容易的思想,提出了ResNet,ResNet的每一个残差块在前向传播的基础上将当前层的激活值跳远连接到网络的更深层,如图2所示。
图2 ResNet的一个残差块结构
近年来,以卷积神经网络为主的深度学习技术在计算机视觉领域几乎取得了统治地位,针对其在海战场图像目标识别系统中的应用研究也越来越多。晁安娜等[8]提出了一种改进的卷积神经网络实现了存在大量干扰(如遮挡、噪声、视角变化)的遥感飞机图像识别;郑光迪等[9]优化了VGGNET的层数和节点数,得到易于训练的精简网络,有效的识别了复杂海战场环境下的目标;赵亮等[10]结合CNN提取的特征、HOG算法提取的边缘特征和HSV算法得到的颜色特征较好的实现了船舶目标识别。

1.2 小样本条件下的迁移学习技术

由于卷积神经网络的训练需要大量的数据,但在实际的海战场图像目标识别应用中,收集大量真实包含海战场目标的图像较为困难,可以考虑迁移学习。迁移学习通过简单的调整在一个问题上训练好的模型即可得到适用于新问题的新模型。
Donahue J等[11]指出:在已经训练完成的Inception-v3模型中,从输入层到最后一个卷积层都是在对图像进行特征提取,而最后仅通过一个单层全连接神经网络即可很好的区分ImageNet中的1000类图像,所以Inception-v3模型的卷积层输出可以被作为任意图像的精简且表达能力很强的特征向量。因此,可以使用已训练好的Inception-v3模型中的卷积层从新图像集中提取特征,并使用提取到的特征向量作为输入来训练一个新的分类器。Ge W等[12]在文献[11]的基础上指出在训练中保持已训练CNN模型的前n层参数不变,使用现有数据微调之后的卷积层和全连接层的参数可以获得更好的迁移效果。根据Ge W等的结论,在实际海战场目标识别系统应用中,可用于训练的图像数据越多,需要冻结的卷积层数n越小,训练得到的模型也越精确。

1.3 基于区域建议的目标检测与识别技术

由于图像中通常不止包含一个目标,因此,将整张图像划分为单个类别并不准确。此外,一个完整的识别系统需要识别图像中所有目标的类别和它们在图像中的具体位置。和传统的识别系统一样,基于区域卷积神经网络的目标检测算法也使用预训练的分类模型对图像中的候选区域进行分类。近年来,候选区域生成方法的研究不断深入,涌现出包括R-CNN系列检测算法等诸多成熟检测算法。
传统识别系统中常用的滑动窗口检测方法,同样也可用于基于深度网络的识别系统,它通过暴力手段从左到右,从上到下滑动固定大小的窗口,并使用预训练完成的CNN对窗口中的目标进行分类。滑动窗口检测方法计算成本高、窗口大小和窗口移动步幅难以确定等缺点十分明显。
Girshick R等[13]针对滑动窗口的缺陷提出了使用 Selective Search 方法从待检测图像中提取可能包含待检测目标的2000个左右候选区域,使用预先训练好的CNN提取这些候选区域的特征,最后进行目标分类和边框回归,这就是R-CNN,如图3所示。
图3 基于RCNN的目标检测和识别过程
相对于滑动窗口方法,R-CNN虽然在很大程度上降低了计算成本,但它生成的2000个候选区域都需要独立地输入CNN来提取特征,所以训练和推断速度仍然非常慢。为了进一步降低计算成本,解决R-CNN的重复计算问题,Girshick R[14]基于直接使用特征图代替原图来检测目标的想法,又提出了Fast R-CNN,Fast R-CNN不再像R-CNN一样对每个候选区域进行特征提取,而是先使用CNN提取整个图像特征,然后将Selective Search方法创建的候选区域直接用在特征图上,如图4所示。
图4 基于Fast R-CNN的目标检测和识别过程
针对 Fast R-CNN模型生成2000个候选区域耗时太长的问题,Ren S等[15]提出了 Faster R-CNN,在最后一个卷积层之后加入区域建议网络(Region Proposal Networks, RPN)快速生成候选区域,并判断候选区域是否包含特定类别的目标,最后使用回归器进一步调整包含目标的候选区域,如图5所示,Faster R-CNN大大提高了目标检测和识别的效率。
图5 基于Faster R-CNN的目标检测和识别过程

1.4 基于端到端可训练网络的目标检测技术

Bojarski M等[16]在自己的论文中首次提到了端到端的学习,但没有给出严格的定义。通常,从输入端到输出端的所有任务在同一个网络中进行训练的过程可看做是端到端学习。
事实上,Faster R-CNN 将RPN集成到Fast R-CNN中得到统一的检测网络,已经是一种端到端可训练的网络。但是 Faster R-CNN 仍然通过生成候选区域的方法来完成目标识别,其中很多存在较大重叠的候选区域带来了重复地识别工作。针对 Faster R-CNN存在的缺陷,Redmon J等[17]提出了 YOLO (You Only Look Once)模型。YOLO模型是一种基于回归的检测和识别模型,它将目标检测当作一个回归问题,使用CNN对输入图像进行一次推理直接得到图像中所有物体的位置、所属类别及相应的置信概率,极大地提升了目标检测的速度。

2 不同识别技术在实际应用中的对比分析

2.1 传统识别技术和深度学习技术的对比

传统的海战场目标识别系统将识别流程分为预处理、特征提取、特征融合和目标检测识别四个步骤,如图6所示。
图6 传统识别系统流程
和传统识别系统需要人工设计特征不同,基于深度学习技术的识别系统通过对大量训练数据的自动学习,提取出识别目标所需要的重要特征,从而完成识别任务,如图7所示。
图7 基于深度学习的识别系统流程
近年来,以卷积神经网络为主的深度学习技术在计算机视觉领域得到了广泛应用,关于深度学习技术为什么能够奏效的讨论也越来越多,总结来看,深度学习技术和传统识别技术的区别主要表现在以下三个方面:
其一,特征提取的方式不同。在构建传统识别系统时,需要手动提取已被行业专家确定有效的多种特征,并应用特征融合算法从中剔除冗余特征量,从而获得用于分类器训练的特征;而卷积神经网络试图从数据中学习特征,能够大大减少发现特征的成本。此外,卷积神经网络从大量数据中学习到的特征对海战场环境下受噪声、遮挡以及尺度、姿态变化干扰的图像更加鲁棒。
其二,对训练数据体量和多样性的依赖不同。随着数据体量的增加,传统识别系统的性能容易饱和;而基于深度学习技术的识别系统性能可以持续提升。此外,基于深度学习技术的识别对数据多样性要求更高,同一类目标的不同姿态尺度以及其他噪声干扰图像越多,训练得到的模型越鲁棒。
其三,系统的运行时间差别较大。传统识别系统训练分类模型很快,但是在预测时提取线数据特征往往涉及复杂的图像变换,在线数据预测的实时性难以保证;基于深度学习技术的识别系统有太多的参数需要学习,需要很长时间训练,但是训练完成的模型在提取特征时只涉及简单的四则运算,能够保证预测任务上的实时性。

2.2 基于深度学习的目标检测识别技术的对比

基于深度学习的目标检测技术主要包括基于区域建议的R-CNN系列模型和基于回归的YOLO模型。这两类检测技术的共同点是都使用卷积神经网络作为特征提取器,但解决目标检测的方式不同。基于区域建议的R-CNN系列模型将目标检测问题分为给出可能存在目标的区域和识别所有建议区域的目标类别,而基于回归的YOLO模型将目标检测问题转换为回归问题,运行一次CNN直接得到所有目标的位置、所属类别和相应的置信概率。因此,相比于基于回归的YOLO模型,基于区域建议的R-CNN系列模型在实际应用中目标检测率更高、定位更准确(尤其是对小目标),但检测速度较慢。
目前,基于深度学习的目标检测和识别技术发展迅速,但尚处于研究阶段,实际应用不多。胡炎等[18]在Faster R-CNN框架下构建了一个仅3层的卷积神经网络,并对4种不同海洋杂波环境的宽幅SAR图像进行测试,取得了较好的检测结果;周奇[19]通过融合低层特征和抽象特征提出了一种新的YOLO网络模型变种,实现了移动轮船的实时检测。

3 结束语

因为有了ImageNet这样百万量级的带标签数据,卷积神经网络才能在计算机视觉领域大放异彩,可以说深度学习是一种数据驱动型技术。就目前而言,实际应用中还缺乏大量的带标签数据,传统算法在一段时间内将仍然是海战场图像目标识别的主要方法,但在海战场图像目标识别中应用深度学习技术的趋势已经越来越明显。
可以预见,通过不同渠道收集和标注真实数据,研究数据增强方法和寻找可迁移到海战场图像目标识别中的模型应当是今后的工作重点。此外,组合手动提取的经典特征和CNN提取的抽象特征用于分类、利用对高维特征有较强分类能力的SVM对CNN提取的特征进行分类,被证明能够提升识别准确率,应当是今后的研究方向。最后,海战场图像目标识别系统对目标检测和识别的快速性和准确性有较高要求,所以基于端到端可训练网络的识别技术将是未来研究的潮流。
[1]
陈文婷, 邢相薇, 计科峰. SAR图像舰船目标识别综述[J]. 现代雷达, 2012, 34(11): 53-58.

[2]
谢晓竹, 何成. 复杂环境背景下车辆目标识别研究综述[J]. 兵器装备工程学报, 2017, 38(06): 90-94.

[3]
Lécun Y, Bottou L, Bengio Y, et al. Gradient-based Learning Applied to Document Recognition[J]. Proceedings of the IEEE, 1998, 86(11):2278-2324.

DOI

[4]
Krizhevsky A, Sutskever I, Hinton G E. ImageNet Classification with Deep Convolutional Neural Networks[C]// International Conference on Neural Information Processing Systems. Curran Associates Inc, 2012:1097-1105.

[5]
Simonyan K, Zisserman A. Very Deep Convolutional Networks for Large-scale Image Recognition[J]. arXiv preprint arXiv:1409.1556, 2014.

[6]
Szegedy C, Liu W, Jia Y, et al. Going Deeper with Convolutions[C]// IEEE Conference on Computer Vision and Pattern Recognition, IEEE, 2015:1-9.

[7]
He K, Zhang X, Ren S, et al. Deep Residual Learning for Image Recognition[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016: 770-778.

[8]
晁安娜, 刘坤. 基于卷积神经网络的遥感图像飞机目标识别[J]. 微型机与应用, 2017, 36(22):66-69+73.

[9]
郑光迪, 潘明波, 刘巍, 等. 基于深度卷积神经网络的海战场目标协同识别方法[J]. 光学与光电技术, 2018, 16(2): 20-25.

[10]
赵亮, 王晓峰, 袁逸涛. 基于深度卷积神经网络的船舶识别方法研究[J]. 舰船科学技术, 2016, 38(15):119-123.

[11]
Donahue J, Jia Y, Vinyals O, et al. Decaf: A Deep Convolutional Activation Feature for Generic Visual Recognition[C]// International Conference on Machine Learning, 2014: 647-655.

[12]
Ge W, Yu Y. Borrowing Treasures from the Wealthy: Deep Transfer Learning through Selective Joint Fine-Tuning[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2017:10-19.

[13]
Girshick R, Donahue J, Darrell T, et al. Region-Based Convolutional Networks for Accurate Object Detection and Segmentation[J]. IEEE Trans Pattern Anal Mach Intell, 2016, 38(1):142-158.

DOI

[14]
Girshick R. Fast r-cnn[C]// Proceedings of the IEEE International Conference on Computer Vision, 2015: 1440-1448.

[15]
Ren S, He K, Girshick R, et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[J]. IEEE Trans Pattern Anal Mach Intell, 2015, 39(6):1137-1149.

DOI

[16]
Bojarski M, Del Testa D, Dworakowski D, et al. End to End Learning for Self-driving Cars[J]. arXiv preprint arXiv:1604.07316, 2016.

[17]
Redmon J, Divvala S, Girshick R, et al. You Only Look Once: Unified, Real-Time Object Detection[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2016:779-788.

[18]
胡炎, 单子力, 高峰. 基于Faster-RCNN和多分辨率SAR的海上舰船目标检测[J]. 无线电工程, 2018, 48(2): 96-100.

[19]
周奇. 基于YOLO算法的移动轮船多目标实时检测[J]. 电脑知识与技术, 2018, 14(10): 196-197.

Outlines

/