水下环境的复杂性和噪声的多样性使得声呐图像目标识别异常困难,常用的方法基于模式识别,由信息获取、预处理、特征提取、分类器设计和分类器组成。传统识别方法的核心在于找到对信噪比和使用环境宽容的特征提取算法
[1]。与光学图像不同,声呐图像具有低分辨率、噪声多、轮廓模糊等特点,这使得找到适合声呐图像特征提取算法的难度进一步提高。研究者们提出了各种不同的方法来解决这个问题。
J.Sawas等人采用基于人脸检测的Viola和Jones分类器级联来识别海底地形的真实和合成图像,从而大大减少计算时间
[2]。David M.Lane等人的分类方法是基于特征提取和先验特征库匹配的,需要有先验数据作为支持。Myer F和Fawcett J的分类方法是通过将目标图像的高光区域和阴影区域与计算模板进行匹配来实现的,但该方法要求对目标进行三维建模
[3]。Scott Reed则提出了一种基于协同操作的统计模型,在利用声呐图像高亮和阴影之间的空间关系提取目标特征用于识别
[4]。哈尔滨工程大学的陈强则针对蛙人和鱼群的声呐图像进行特征提取,并使用BP神经网络分类器进行训练
[5]。Stack J R等学者优化了特征提取过程中的内核匹配追踪算法,使其既能提取学习过程中的参数,又能确定数据采集的先验参数
[6]。
在水下目标识别和检测方面,YOLO系列算法是一类高效的一阶段目标检测算法,通过将目标检测任务视为一个回归问题,直接在输入图像上预测边界框的坐标和类别概率,之前的研究大多基于YOLOv4及以下的版本
[7-9],随着技术的发展和迭代,已经有更多版本的YOLO算法被提出并成为研究主流,目前常用的有YOLOv5、YOLOX、YOLOv7和YOLOv8等。研究人员首先尝试在YOLOv5算法的基础上加入不同的创新点来提升水下目标检测技术的性能,包括引入注意力机制
[10]、改进特征融合模块
[11]、优化损失函数等。YOLOX是YOLOv5的一个改进版本,引入了Anchor-free机制,去除了锚点框,简化了模型结构,使其在不影响目标检测准确性的情况下也能够满足水下无人平台的轻量级要求。在这些改进的基础上,研究人员提出了一个基于MobileViT视觉转换器和YOLOX的新型水下目标检测模型
[12]。YOLOv5s是YOLOv5的一个小型化版本,专为资源受限的环境设计,牺牲了一定的检测精度以换取更快的速度。在YOLOv5s的基础上研究的主要创新点包括改进网络结构
[13]、双向特征融合算法并引入全局注意力机制
[14]、引入Mosaic-max数据增强方法
[15]等,增强了特征提取能力和小目标检测精度。
然而,诸多水下声呐图像识别的网络在轻量化方面还有所欠缺。为了降低网络的参数量、计算量和推理时间,本文以体积仅有14M的YOLOv5s网络为基准模型,通过考虑融合两种网络结构,即MobileNetV3网络模块和ShuffleNetV2,在保证模型精度的前提下进一步轻量化网络。