中国科技核心期刊      中国指挥与控制学会会刊     军事装备类重点期刊
Multimodal Information Fusion

Research on detection and tracking methods of unmanned ship water targets based on light vision

  • LIU Yibo 1 ,
  • QIU Xinyu 2 ,
  • WANG Tianhao 1 ,
  • GAOYAN Xiusong 1 ,
  • WANG Yintao 2
Expand
  • 1 System Engineering Research Institute, China Shipbuilding Corporation Limited, Beijing 100036, China
  • 2 School of Marine Science and Technology, Northwestern Polytechnical University, Xi’an 710072, China

Received date: 2024-07-15

  Revised date: 2024-08-02

  Online published: 2024-11-26

Abstract

This study explores technical methods based on light vision to address the problem of target detection and tracking by surface unmanned ships in complex environments. We utilize an improved dark channel dehazing method and guided filtering for image preprocessing to improve the accuracy and efficiency of subsequent image processing. In terms of target detection, the YOLOv7 algorithm is used, which effectively improves the accuracy and recall rate of target detection by optimizing the loss function. In order to achieve accurate multi-target tracking, combined with self-trained model weights and Sort algorithm, continuous tracking of targets and accurate annotation of center point trajectories are successfully implemented. In addition, a binocular camera system is built on an unmanned ship platform for target ranging. Experimental results show that our method can achieve the ranging function with an average relative error of 6.46%. This result not only improves the navigation and positioning capabilities of unmanned ships, but also provides technical support for water surface safety monitoring. This research demonstrates that in the field of surface unmanned ships, target detection and tracking problems can be effectively solved by integrating advanced image processing technology and machine learning algorithms.

Cite this article

LIU Yibo , QIU Xinyu , WANG Tianhao , GAOYAN Xiusong , WANG Yintao . Research on detection and tracking methods of unmanned ship water targets based on light vision[J]. Command Control and Simulation, 2024 , 46(6) : 78 -86 . DOI: 10.3969/j.issn.1673-3819.2024.06.013

水面无人船采集的图像背景包括天空、水天线和水面区域,目标主要出现在水天线和水面区域。由于水面纹理波动、倒影以及天气和光照变化,图像常出现模糊和噪声。户外照明和拍摄条件有限时,图像质量与实时天气密切相关:天气良好时,图像清晰,目标鲜明;雾天时,能见度降低,目标模糊。因此,需要对雾天拍摄的图像进行预处理,以提高目标检测效果[1]
近年来,随着计算机视觉技术的发展,除雾技术取得了显著进展,包括基于物理模型的去雾、颜色补偿、深度估计以及基于深度学习的去雾方法。何凯明等提出了基于大气物理散射模型[2]的暗通道先验法[3],通过估算雾的厚度去除图像中的雾,并采用优化算法softmatting获得雾图的精细边缘,引导滤波进一步优化了除雾效果[4]。Hu等在传统模型上增加了照明补偿,增强了反射层细节并保留了照明层的自然性[5]
早期目标检测算法是基于手工特征,如V-J检测器[6]、HOG检测器[7]和DPM检测器[8]。深度学习时代,目标检测算法能够自动学习特征表示,从海量数据中学习复杂特征,提高了检测精度和鲁棒性。R-CNN[9]、空间金字塔池化网络[10]和Fast-RCNN[11]等方法推动了目标检测的发展。YOLO算法[12]于2015年提出,其速度快且准确度高,通过单个神经网络完成目标检测。
卷积神经网络(CNN)是YOLO目标检测的核心,通过逐层卷积提取图像特征。低层卷积层捕捉边缘等基本特征,高层卷积层提取纹理等高级特征。激活函数的非线性特性帮助网络学习复杂特征,池化层降低计算负担和过拟合,增强鲁棒性。CNN全流程见图1
图1 CNN卷积全流程

Fig.1 Whole process of CNN

多目标跟踪(MOT)旨在从视频序列中实时识别和跟踪多个移动目标,同时匹配它们的身份和轨迹信息。MOT基于目标检测,通过帧间信息来预测和定位目标,并记录其轨迹。系统需要在连续的视频帧中检测目标、关联目标、预测目标位置,并显示其轨迹。
在一个完整的光学信息处理系统下,图像增强通过提高图像的信噪比,优化目标检测的特征提取和识别,减少误检和漏检,提高检测准确性。准确的目标检测为跟踪提供可靠的初始信息,检测结果用于跟踪算法的关联和预测,保持跟踪连续性和稳定性。图像增强不仅能提升检测精度,还可以减少模糊和漂移,增强目标跟踪性能。

1 针对海面的图像预处理技术

1.1 水面图像增强技术

1.1.1 基于暗通道的改进图像去雾算法

暗通道去雾算法基于假设:无雾区域至少有一个通道某像素接近0。以最小值滤波的灰度图实现。先验表达式如下:
Jdark(x,y)= m i n y Ω ( x )( m i n c { r , g , b }Jc(x,y))→0
大气物理散射模型用来描述雾天成像的原理:
I(x,y)=J(x,y)t(x,y)+A(1-t(x,y))
式中,x为像素的空间坐标值,I(x,y)为观察到的雾天图像,A为大气光值,J(x,y)为无雾图像,t(x,y)为场景的透射率。而其中的大气光值、透射率和无雾图像都是未知量,暗通道先验法可以求解出大气光值与投射率。
通过暗通道图和原始雾图,利用亮度前0.1%的像素和对应最高亮度点来估计大气光值,在估计透射率时设置下限值,防止过曝。除雾前后对比如图2
图2 暗通道去雾对比图

Fig.2 Dark channel dehazing comparison chart

在此基础上,我们还加入了引导滤波对传输函数进行优化,加快运行速度。引入代价函数可求得线性模型的两个系数:
E(ak,bk)= i w k ((akIi+bk-pi)2 a k 2)
除此之外,由于得到的图像偏暗,还需要加入伽玛校正,伽玛描述的是像素数值和像素实际亮度之间的关系,对比如图3所示。
图3 暗通道去雾优化对比

Fig.3 Dark channel dehazing optimization comparison

1.1.2 基于照明分解的图像去雾算法

在海洋环境中,雾粒子较大,导致光多次散射,需考虑多层散射效应。而分离雾层和照明层可提升反射细节并保留自然光照。
基于照明分解的图像去雾算法分为三个步骤,依次为输入图像的照明分解,分离出来的雾图的去雾,除雾图像的照明补偿。流程图如图4
图4 照明分解图像去雾算法流程

Fig.4 Illumination decomposition image defogging algorithm process

引入常数大气光值和残差量,建立非均匀照明散射模型得
I(x)=F(x)+G(x)
G(x)即为由于照明不均匀引起的照明项。
基于三个约束:1)海洋场景中,F的梯度应该为稀疏的;2)雾场景中散射光的强度分布呈“带状”分布,因此,由场景中的照明和透射确定的G应该是空间平滑的;3)G与透射和照明呈正相关;透射和F的梯度呈负相关。除了考虑透射外,可以从F的背景亮度推断出照明变化。
本文构建罚函数等式来得到分离的F(分解雾层)与G(辉光照明层)。通过雾线先验法得到除雾层。图5展示除雾过程中得到的一些图像。
图5 分离雾层后除雾过程

Fig.5 Demist process after separation of fog layer

初始图像偏暗,此时的J需要加上照明补偿,即为了避免模糊J(无雾图像),这里需要将G进行调整为Gm(x),从而得到图6所示的最终图像。
图6 最终无雾图像

Fig.6 Final fog-free image

1.2 水面图像增强评价指标

对图像进行预处理后,判断图像处理好坏需要评价标准,因此,引入了评价指标峰值信噪比PSNR。计算公式如下:
PSNR=20·log10 M A X I M S E
MSE为均值方差,MAXI为图像的最大像素值,一般每个像素由8位二进制表示,对于灰度图其值为28-1=255。PSNR的值越大,代表图像越没有失真。
表1可以看出,其实暗通道优化去雾得到的图像无失真,效果最好。图7为去雾操作后目标检测的效果图,目标框的左上角数字为置信度。由图7可知,暗通道和照明补偿去雾均提升了目标检测精度。暗通道去雾对远处目标置信度更高,照明补偿对近处目标图像增强效果更好,使其特征更明显。
表1 不同去雾方法的评价指标结果

Tab.1 Evaluation index results of different defogging method

指标 暗通道
去雾
暗通道优化
去雾
照明补偿
去雾
PSNR/dB 9 18 16
图7 去雾方法检测效果对比

Fig.7 Comparison of detection effects of defogging methods

2 基于YOLOv7的水面目标检测算法

2.1 YOLOv7算法框架

YOLO作为深度学习时代第一个单阶段检测器,运行速度极快,将单个神经网络用于完整图像。即基于卷积神经网络将图像划分为s*s个区域后,同时预测每个区域的边界框和概率值,物体中心点落在哪个区域网格上,就由此网格对应的锚框负责检测该物体,并且可以实时地处理高分辨率图像。
由于背景设置是水面,水面目标相对于陆地较为单一,为了保障检测速度的实时性和精度,采用YOLOv7网络,主要架构包含正负样本匹配策略、mosaic数据增强和ELEN模块,在该架构的推理模块添加测距和标注功能。YOLOv7网络架构如图8所示。
图8 YOLOv7网络结构

Fig.8 Network structure of YOLOv7

输入处理阶段将图像调整大小为统一尺寸,并进行mosaic数据增强以及自适应缩放和自适应锚框增强。主干网络由四个CBS模块组成,包含卷积层、BN层、Silu激活函数层和ELEN模块,用于提取特征并进行高效聚合。预测网络包括SPPCPC层、CBS层、MP层、ELEN-W层和RepVGG block层,用于生成检测结果。损失函数包括定位损失、分类损失和置信度损失,主要基于二值交叉熵损失BCEWithLogitsLoss。
loss=boxloss+clsloss+objloss
正负样本匹配策略首先基于anchor-based通过k-means聚类获得锚框并进行样本筛选。然后在anchor-free方面加入辅助头,用先导头预测来指导辅助头和先导头。

2.2 YOLO训练模型与检测结果

Labelimg标注三个类别,分别为buoy、sculpture、boat,其意义为检测水面障碍物,识别岸边和识别目标。在将自采集图像输入网络时,借助OpenCV进行视频抽帧得到685张图像,然后进行一系列马赛克、高斯模糊等处理操作,丰富数据集,让网络能多方面捕捉目标特征。在输入网络进行训练之前YOLOv7也采用了mosaic数据增强和自适应缩放等,丰富数据集的同时减少GPU的使用。mosaic数据增强将四张图片拼接到一张图上作为训练样本,经过增强的训练集样本展示如图9
图9 图像增强展示

Fig.9 Image enhancement display

卷积训练时,设置 batches=4,subdivisions=8,输入图像的宽高经缩放为640×640,图像通道数为3,初始学习率 learning rate=0.01,动量因子momentum=0.937,权重正则衰减项为decay=0.000 5,采用Nvidia TX2作为计算单元硬件。
训练所得的模型可视化结果如图10,左边六幅图上面三张为训练集的定位损失、置信度损失和分类损失;下面三张为回调集的三种损失。可见三种损失最后都趋近于0,评估效果较好。上方第四张为模型预测精度;第五张为正样本召回准确率检测精度结果。波动较为平稳,大致呈现上升趋势,训练效果较好。下方最后两张图,mAP@0.5表示阈值大于0.5的平均mAP;mAP@0.5:0.95(mAP@[0.5:0.95])表示在不同IoU阈值(从0.5到0.95,步长0.05)上的平均mAP。最终精度为0.9719,召回率为0.990 2。
图10 可视化训练结果

Fig.10 Visualize training results

3 水面多目标跟踪方法

3.1 多目标跟踪方法流程

设置的背景是水面,水面检测目标较少,且相互遮挡问题比较少见,因此,采用卡尔曼滤波算法对目标状态进行估计预测;在匹配阶段,考虑较低的时间和复杂度并避免局部最优解,实现全局最优化,选用匈牙利算法完成跟踪功能。核心流程图见图11
图11 多目标跟踪算法流程图

Fig.11 Multi-target tracking algorithm flow chart

3.2 基于Kalman滤波算法的目标预测

卡尔曼滤波融合观测和系统模型,估计目标状态,提供状态均值和协方差信息。主要包括预测和更新过程,结合检测框信息和状态变化量进行多目标跟踪。通过目标检测得到的信息获得目标框数据:检测框中心点横坐标u、检测框中心点的纵坐标v、检测框的大小s(用目标框所占面积来表示)、长宽比r。由于多目标跟踪不仅要关注当前帧的信息还要预测下一帧的目标框位置,因此在知道这些信息的基础上还需要引入上述的四类状态的变化量信息(变化速度)来进行运动状态信息的描述。假设不同帧变化时长宽比不变,描述检测框的状态的公式如下:
x=[u,v,s,r, u ˙, v ˙, s ˙]T
初始化状态,建立离散线性动态系统的模型;针对相应噪声的协方差参数,根据经验值设定如下(均为对角阵):先验估计协方差矩阵P=diag([10 10 10 10 1×104 1×104 1×104]T),过程激励噪声协方差矩阵Q=diag([1 1 1 1 0.5 0.5 0.25]T),测量噪声协方差矩阵R=diag([1 1 10 10]T)。随后进行预测更新。
x k ^ = A x k - 1 ^ + B u k - 1 P k = A P k - 1 A T + Q k K ' = P k H T k ( H k P k H T k + R k ) - 1 x ^ '   k = x ^ k + K ' ( z k - H k x ^ k ) P '   k = P k - K ' H k P k

3.3 基于匈牙利算法的跟踪方法

通过卡尔曼滤波预测当前帧目标框位置,再用匈牙利算法匹配上一帧目标。基于交并比(IoU)计算目标框相似度,构建代价矩阵,以最小化总匹配代价。根据IoU和距离计算各匹配组合的代价,实现目标与轨迹的关联。
目标进出场景,根据IoU检测新目标或移除失配目标轨迹,防止误创建,提高算法效率。设置连续帧参数,若一段时间内无匹配,则目标消失,提高跟踪效率。
匈牙利算法的核心为寻找增广路径,用增广路径求二分图的最大匹配。 首先初始化二分图(两组集合,集合内部的点不可以互相连接)。图12表示当前帧可能匹配的目标框。不连通点表示IOU小于阈值,拒绝分配。递归找出一对一匹配,计算多种组合的cost
cost=λiouLiouL1∬bi- b ^ σ ( i )1
式中,cost为距离损失和IoU损失的和,λ分别为各自的权重。此时可以得到与真值之间cost最小的预测结果排列组合情况。
图12 二分图示意

Fig.12 Bipartite graph diagram

4 双目相机信息感知定位与实验验证

4.1 相机选型及感知方法

深度相机(Depth Camera)是一种能够同时获取彩色图像和深度信息的摄像设备。它使用不同于传统相机的技术,如结构光、飞行时间或立体视觉等,获取场景中物体的距离或深度信息。ZED2深度相机作为视觉传感器进行目标检测时,可获取目标距离信息。ZED2相机是stereolabs公司制作的基于双目视觉的产品,采用100 f/s的1 344×376(WVGA)像素分辨率。
双目相机测距离原理在于通过两个镜头同时拍摄同一场景,测量两个摄像头视野中同一物体的像素差异,获得深度信息,可以计算出物体距离。
视差用于计算目标距离(视差是由相机在不同位置或角度下拍摄同一个场景时产生的像素位置移动偏差)。目标在相机坐标系下的三维坐标为
x - x 0 f = X Z y - y 0 f = Y Z X = x - x 0 f Z = x - x 0 f f B X R - X L Y = y - y 0 f Z = y - y 0 f f B X R - X L
得到以左镜头光心为原点的三维坐标后,可以计算出目标和左镜头光心的距离。由于设置的环境是相机搭载在船上,而检测的目标也均处于水面,垂直方向(即为Y轴向量)上的变化可以忽略,相对方向角计算如下,位于中心左边为负,右边为正。
angle=arctan x z
相机在捕捉图像后,采用张正友相机标定方法。相机拍摄已知尺寸的标定板,自动检测出角点坐标,建立成像方程关联内外参数与图像、世界坐标,通过最小二乘法求解摄像机参数。
Matlab进行标定删除一些误差较大的标定图像得到的相机采集的重投影误差如图13(平均误差在0.14),对标定误差修正得出相机内参。
图13 标定误差

Fig.13 Calibration error

双目立体匹配采用SGBM算法,在双目立体图像间建立点点对应,然后通过比较两个图像之间的像素差异来确定对应像素之间的视差,并计算出深度。

4.2 距离信息评价

首先在实验室对无人船进行检测和测距,对比真实距离和测试距离,求取平均误差。实验室真实场景如图14
图14 测试场景

Fig.14 Testing scenarios

调整双目相机与船之间的距离记录十组数据。最终得到平均相对误差为6.46%,数据图像见图15
图15 测量与真实距离关系及误差

Fig.15 Relationship between measurement and true distance and error

4.3 实验验证

实验方面的流程如图16。将双目相机搭载到无人船上,在湖面上进行实验,检验实时检测的框选效果、测距效果,并检验目标跟踪效果。
图16 实验流程

Fig.16 Experiment process

搭载的无人船平台的船体尺寸为999 mm×530 mm×494 mm,将外接相机搭载到无人船的顶部,无人船内舱放置电池和降压模块给计算设备NVIDIA TX2供电,相机与该计算设备串口连接,搭载在船的尾端顶部。
1.2节已验证图像增强去雾算法能有效去除图像中的噪声和干扰,有助于YOLOv7算法在目标检测中的特征提取和识别过程。优化图像减少了误检和漏检的发生,提高了检测精度和召回率。
实时检测和测距效果如图17,依次选取视频中目标船由近到远的两帧,左图显示距离和目标框,右图显示目标框。实验证明检测算法得到的目标检测距离信息可以用于引导跟踪,为后续跟踪算法(如Sort算法)提供可靠的输入数据,但在实时性和测距范围方面还需改进。多目标跟踪效果见图18,双目相机左图框出目标并画出中心点轨迹,右图只需标出目标框。通过多次实验,发现算法可以准确捕捉到目标的运动轨迹。左图目标框ID为2,右图为1,由于湖面波浪的影响搭载相机船体,运动轨迹有抖动。实验表明多目标跟踪可以应用于水面上交通轨迹的实时监测以便及时做出反应。
图17 实时检测与测距

Fig.17 Real-time detection and ranging

图18 跟踪效果

Fig.18 Track performance

5 结束语

本文研究了一种水面机动目标的图像增强检测与多目标跟踪方案,可用于有雾天气的水面目标搜索与跟踪。系统运用基于照明补偿的暗通道方法除雾,应用YOLOv7进行目标识别定位;采用卡尔曼滤波和匈牙利算法结合进行目标跟踪,最后标定相机并搭载实物进行实验,实验结果验证了算法的有效性和可行性。
[1]
ZOU Z, CHEN K, SHI Z W, et al. Object detection in 20 years: A survey[J]. Proceedings of the IEEE, 2023, 111(3): 257-276.

[2]
HIDE R. Optics of the atmosphere: scattering by molecules and particles[J]. Physics Bulletin, 1977, 28(11):521.

[3]
HE K M, SUN J, FELLOW, et al. Single image haze removal using dark channel prior[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2011, 33(12):2341-2 353.

[4]
HE K M, SUN J, TANG X. Guided image filtering[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013(6):35.

[5]
Hu H M, GUO Q, ZHENG J, et al. Single Image Defogging based on illumination decomposition for visual maritime surveillance[J]. IEEE Transactions on Image Processing, 2019, 28(6):2882-2 897.

[6]
VIOLA P, JONES M. Rapid object detection using a boosted cascade of simple features[C]// Proceedings of the 2001 IEEE computer society conference on computer vision and pattern recognition. CVPR 2001. Kauai, 2001.

[7]
DALAL N, TRIGGS B. Histograms of oriented gradients for human detection[C]// 2005 IEEE computer society conference on computer vision and pattern recognition (CVPR’05). San Diego, 2005, 1: 886-893.

[8]
FELZENSZWALB P, MCALLESTER D, RAMANAN D. A discriminatively trained, multiscale, deformable part model[C]//2008 IEEE conference on computer vision and pattern recognition. Anchorage,2008: 1-8.

[9]
GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich Feature hierarchies for accurate object detection and semantic segmentation[C]. 2014 IEEE Conference on Computer Vision and Pattern Recognition(CVPR). Columbus, 2014: 580-587.

[10]
He K M, ZHANG X Y, REN S Q, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2015, 37(9):1904-1 919.

[11]
GIRSHICK R. Fast R-CNN[C]// 2015 IEEE International Conference on Computer Vision(ICCV). Santiago, 2015: 1 440-1 448.

[12]
REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: Unified, real-time object detection[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR). Las vegas, 2016: 779-788.

Outlines

/