中国科技核心期刊      中国指挥与控制学会会刊     军事装备类重点期刊
Information Fusion

A method for deblurring motion blur in visible light images based on improved DeblurGAN

  • WANG Bilin
Expand
  • Henan Technical Institute, Zhengzhou 450042, China

Received date: 2025-02-20

  Revised date: 2025-03-13

  Online published: 2026-03-25

Abstract

This paper focuses on the task of motion deblurring in visible light images by improving and further lightening DeblurGAN, resulting in the model Faster-DeblurGAN. The model introduces FasterNet and ASFF modules into the generator network and incorporates optical flow consistency loss. While maintaining high deblurring performance, it significantly enhances the network's inference speed and reduces the model's parameter count. Experimental results indicate that the method outperforms the benchmark model DeblurGAN on the GoPro dataset, with PSNR and SSIM improving by 3.3% and 2.4%, respectively, and the parameter count is reduced by 52.9%. This not only improves performance but also effectively realizes the lightweight modification of the model. Additionally, it demonstrates better deblurring effects in terms of subjective visual quality, proving the effectiveness of the model's improvements.

Cite this article

WANG Bilin . A method for deblurring motion blur in visible light images based on improved DeblurGAN[J]. Command Control and Simulation, 2026 , 48(2) : 71 -76 . DOI: 10.3969/j.issn.1673-3819.2026.02.010

运动模糊是由于相机与被摄物体之间的相对运动在图像上产生的模糊效果。在图像处理领域,可见光图像的去运动模糊是一个重要的研究课题。传统方法通常依赖于先验知识或假设,认为模糊图像由点扩散函数(PSF)与加性噪声组成,因此使用逆滤波、维纳滤波等方法在频域中将模糊图像的傅里叶变换除以PSF的傅里叶变换来恢复图像。然而频域滤波对噪声敏感,去噪声需要知道噪声功率谱和PSF,但这些参数往往难以准确估计。为了对噪声进行良好抑制,在优化问题中加入正则化项,如Tikhonov正则化及其改进方法[1],以稳定解并减少噪声影响,但选择合适的正则化参数是一个挑战。对于去运动模糊问题,传统方法通常假设PSF空间不变,难以处理复杂运动导致的空间变PSF。
近年来,深度学习技术在这一领域取得了显著进展。这类方法能够自动学习模糊图像与清晰图像之间的复杂映射关系,无须显式地估计PSF。这些方法在处理复杂场景和不同类型的运动模糊时表现出色。基于CNN的去模糊算法主要通过预测模糊核参数进行去模糊,IRCNN[2]利用变量分割技术来解耦保真项和正则化项,在半二次分裂法中,引入辅助变量z,通过迭代方法处理图像恢复问题,MRFCNN[3]通过结合马尔科夫随机场(MRF)和卷积神经网络(CNN)来进行图像合成,MRF作用于CNN提取的高阶特征,在抽象层面上调整图像的输出;基于RNN的去模糊算法,例如SRNDeblur[4],通过学习图像序列中像素点随时间的运动模式,来预测和恢复模糊图像,在视频等序列图像的去模糊上取得了较大进展,但对非线性运动模糊的处理能力有限。
DeblurGAN[5]的出现将去运动模糊的质量与速度都推向了新的阶段。DeblurGAN采用传统的GAN框架和多组件损失函数来实现从模糊图像到清晰图像的转换,其改进版本DeblurGANv2[6]的生成器融合了特征金字塔网络(FPN),通过自底向上和自顶向下的路径生成多个特征图层,编码不同语义级别的信息,并包含高质量的细节;判别器采用双尺度评估架构,分别评估整张图片和随机裁剪后的图片。这种设计使得判别器能够从全局和局部两个尺度对图像进行评估。然而,DeblurGANv2在推理速度、训练难度以及部署成本上仍然存在一定的局限性,有众多学者对DeblurGANv2进行改进。樊红卫等针对煤矿监控图像中的运动模糊问题,提出了一种改进DeblurGANv2的方法,使用WGAN-GP优化了鉴别器损失函数,并通过三尺度鉴别器结构增强了图像细节,为解决彩色斑块问题,引入了结构相似性损失和梯度损失,显著提升了去模糊效果。孙季丰等[7]则通过瓶颈结构和低秩分解改进DeblurGANv2,加速了网络收敛,并添加了互信息损失和梯度图像L1损失以提高图像清晰度。
现有DeblurGANv2模型在处理复杂运动模糊场景时面临计算复杂度高、推理速度慢以及细节恢复不足等挑战。为解决这些问题,本研究提出了一种全新的轻量化网络架构与训练框架。在模型设计上,通过引入基于FasterNet的主干网络重构方案,结合部分卷积与通道优化策略。在特征融合方面,采用多尺度自适应融合机制,以ASFF模块取代传统FPN结构,通过动态权重分配实现跨层级特征的空间一致性融合,有效提升了复杂运动模糊场景下的细节恢复能力。此外,在训练框架上,创新性地将光流一致性约束引入生成对抗训练过程,构建了双向运动补偿损失函数,通过自监督学习机制增强模型对非均匀运动模糊的建模能力,为实时去模糊任务提供了新的解决方案。

1 改进DeblurGan模型

1.1 模型架构

为了进一步提升DeblurGAN在多尺度与多分辨率处理方面的性能,本文提出一种改进DeblurGAN去运动模糊方法Faster-DeblurGAN,其生成器网络架构如图1所示。
图1 Faster-DeblurGAN网络架构

Fig.1 Network architecture of faster-deblurGAN

Faster-DeblurGAN对DeblurGAN的生成器进行轻量化改进,主干网络使用FasterNet替代Inception-ResNet,使用携带注意力机制的特征融合模块ASFF代替FPN,并使用高效上采样模块EUCB代替双线性插值上采样,此外,添加光流一致性损失来更好地估计和补偿运动模糊。

1.2 FasterNet

FasterNet[8]是一种创新的神经网络架构,其通过高效的特征提取和优化的计算模式,旨在提高运行速度并保持视觉任务的准确性。FasterNet由部分卷积(PConv)和逐点卷积(PWConv)构建,这些算子减少了不必要的计算和内存访问。与DeblurGAN使用的传统卷积相比,FasterNet 卷积在多个方面展现出显著优势。首先,FasterNet 的计算效率更高。传统卷积需要对输入特征图的所有通道进行计算,而FasterNet的PConv仅对1/4通道进行卷积操作,其余通道保持不变。这种设计显著减少了浮点运算量(FLOPs)。PConv的FLOPs仅为传统卷积的1/16。这种计算效率的提升使得 FasterNet 在资源受限的设备上表现尤为突出。
图2所示,FasterNet包含4个阶段,每个阶段之前都有一个嵌入层或合并层,用于空间下采样和通道扩展。每个阶段都包含多个FasterNet块,这些块由一个PConv层后跟两个PWConv层组成,类似于倒置残差块,中间层通道数更多,并具有shortcut连接以重用输入特征。此外,FasterNet只在每个中间PWConv之后放置标准化和激活层,以保持特征多样性并实现较低的延迟。
图2 FasterNet块架构

Fig.2 Architecture of fasterNet block

1.3 ASFF

ASFF(Adaptive structure feature fusion)[9]是一种高效的多尺度特征融合方法。其核心优势在于其自适应的注意力机制,能够动态选择并融合多层特征图,有效捕捉目标的多尺度信息,并解决尺度变化带来的挑战。这种数据驱动的金字塔特征融合策略通过学习对冲突信息进行空间过滤,以抑制不同尺度特征之间的不一致性,从而提高特征的尺度不变性。ASFF的自适应空间特征融合操作是可微分的,允许在反向传播中进行学习,优化特征融合方式。其融合过程表示为
y i j l= α i j l x i j 1 l+ β i j l x i j 2 l+ γ i j l x i j 3 l
其中, y i j l表示融合后的特征图在位置(i,j)的响应值; x i j 1 l x i j 2 l x i j 3 l分别表示从不同层级的特征图经过上采样或下采样到与目标层级l相同尺寸后,在位置(i,j)特征值。 α i j l β i j l γ i j l对应于不同层级特征图的融合权重,通过softmax函数进行归一化,使得权重之和为1,且每个权重值都在0到1之间。ASFF的关键在于权重αβγ的计算,这些权重是通过在每个层级的特征图上应用1x1卷积得到的,然后通过一个压缩通道数的卷积层,再经过softmax层确保权重和为1。这样的设计允许网络自适应地学习如何最好地融合不同层级的特征信息。
与FPN相比,ASFF引入了自适应的空间特征融合机制,有效地解决了不同尺度特征之间的不一致性问题,提高了特征融合的效率和准确性。ASFF通过自适应地选择和融合重要特征,减少了尺度变化对下游任务性能的影响。此外,ASFF在提高性能的同时,相比于其他改进FPN结构的方法如PANet,减少了额外的参数和计算量,使得模型更加高效。ASFF还通过跨尺度连接实现了不同层级特征之间的有效融合,进一步提升了特征金字塔的表达能力。

1.4 EUCB上采样核

EUCB(Efficient up-convolution block)[10]是一种高效的上采样卷积块,主要用于在图像处理和分割网络中逐步放大特征图的尺度,以匹配后续跳跃连接的维度和分辨率。该模块的核心优势在于其能够以较低的计算成本实现特征图的尺寸增加和信息融合,其结构如图3所示。
图3 EUCB上采样算子架构

Fig.3 Architecture of EUCB upsampling operator

EUCB首先通过反卷积操作将输入特征图的尺寸放大两倍;接着,应用深度可分离卷积与批归一化以及ReLU来增强特征图的表达能力;而后,对特征图沿通道为维度进行乱序重排,进一步实现特征融合;最后,使用1x1卷积来调整通道数,确保上采样后的特征图与下一阶段的通道数相匹配。
与传统的双线性插值上采样相比,EUCB通过深度卷积和通道混洗,更好地保留和增强图像中的边缘和细节。深度卷积有效地处理空间特征,而通道混洗则增强了特征的混合和信息流动。

1.5 光流一致性损失

光流一致性损失(Optical flow consistency loss)[11]是用于评估光流估计质量的一种自监督学习损失函数,其不依赖于真实光流的标注,而是利用图像序列自身的信息来训练光流估计模型,其基于这样一个假设:如果光流估计正确,那么将一个图像通过估计的光流映射到另一图像上,再将结果映射回原图像,其计算公式为
LC(F0→1,F1→0)= ( i , j ) I 0 ( i , j ) - w a r p ( I 1 , F 1 0 ) ( i , j ) 2 N
其中,warp(I1,F1→0)表示将 I1 通过光流 F1→0映射回I0的过程,N是图像中的像素总数, ‖·‖表示像素值之间的差异,使用L2范数。光流一致性损失考虑了光流的双向性,即前向光流和反向光流。通过计算映射回的图像与原始之间的差异来衡量光流估计的准确性,差异越小,说明光流估计越准确。由于遮挡的存在,某些像素在反向映射时可能没有对应点,需要额外的遮挡掩码来忽略这些像素的损失计算。添加光流一致性损失的模型总损失函数LG如下所示
LG=0.5LP+0.006LX+0.01Ladv+0.01LC
其中,LPLXLadv分别是像素空间损失,感知损失与对抗损失。

2 实验与结果分析

2.1 数据集选择

本文选择GoPro数据集作为模型的训练与验证数据集。该数据集由GoPro相机拍摄的高动态场景视频片段组成,使用GoPro4 Hero Black相机,频率帧率是240fps,这使得数据集中的模糊图像具有较高的运动模糊效果。数据集由3 214张模糊图像组成,大小为1 280×720,分为2 103张训练图像和1 111张测试图像。本文将连续的15帧图像平均起来作为模糊帧,而15帧中的中间帧作为清晰帧,两者组成模糊清晰对加入训练。

2.2 训练平台

本文在Windows10系统上搭建基于Pytorch的模型训练平台,使用Nvidia GeForce GTX 3060(12G)显卡进行模型训练与验证,主要训练参数如表1所示。
表1 网络训练参数

Tab.1 Network training parameters

参数 数值
Epoch/训练轮数 500
BatchSize/批大小 1
Optimizer/优化器 Adam
Lr0/初始学习率 0.000 1
LRD/学习率衰减率 0.99
本文使用单侧标签平滑与历史平均技术提高训练稳定性并加速训练,单侧标签平滑通过调整判别器的目标值来防止其过于自信地分类样本,具体做法是将真实样本的目标值从1调整为一个略小的值,如0.9,而将生成样本的目标值保持为0或接近0的值,如0.1。这种方法有助于鼓励生成器产生更多样化的输出,并增强模型的泛化能力。历史平均技术则通过在更新参数值时考虑其过去的值来平滑训练过程中的梯度变化,减少训练过程中的噪声,提高模型的稳定性。通过加入一个惩罚项来惩罚那些与历史平均权重相差过多的权重,有助于避免在训练过程中出现剧烈的参数更新,从而加速训练并提高模型的收敛性。

2.3 评价指标

本文使用峰值信噪比(PSNR)与结构相似性指数(SSIM)评估去模糊图像的质量。PSNR通过比较重建图像与原始图像之间的相似度来评估图像质量,其计算公式为
PSNR=1010 M A X 2 M S E
其中,MAX是图像像素值的最大可能值,对于8-bit图像来说,MAX为255。SSIM同样用于评估两幅图像相似度的指标,考虑了图像的亮度、对比度和结构信息,更好地模拟了人眼对图像质量的感知,其计算公式为
SSIM= l ( x , y ) c ( x , y ) s ( x , y )
其中,l(x,y)是亮度比较,c(x,y)是对比度比较,s(x,y)是结构比较。

2.4 对比试验

本文将Faster-DeblurGAN与基准模型DeblurGANv2以及主流去运动模糊模型DeepDeblur[12]、BANet[13]、DBGAN[14]进行对比试验,实验结果如表2所示。
表2 对比实验结果

Tab.2 Comparative experimental results

模型 PSNR SSIM Param/M
DeepDeblur 29.23 0.916
DeblurGAN 28.7 0.927
DeblurGANv2 30.12 0.925 10.15
BANet 0.957
DBGAN 31.10 0.942
Faster-DeblurGAN 31.13 0.947 4.78
实验结果表明,Faster-DeblurGAN在PSNR与SSIM指标上全面优于基准模型,同时在PSNR指标上也优于其他主流去运动模糊模型。相较于DeblurGAN,PSNR与SSIM分别提高了3.3%与2.4%,实现了模型性能的有效提升。
此外,还需要对去运动模糊的效果进行主观比较,验证改进的有效性。本文选取本模型与基准模型,选择如图4所示的GoPro测试集图片进行对比试验。
图4 GoPro测试集图像

Fig.4 Images from the GoPro validation set

图5展示了DeblurGAN与Faster-DeblurGAN在两幅图像上的去模糊效果对比。其中,左侧图像为DeblurGAN的处理结果,右侧图像为Faster-DeblurGAN的处理结果。为更直观地评估模型性能,选取了三处关键区域进行局部放大对比,结果如图6图7所示。在图6中,上侧三幅图像为DeblurGAN的结果,下侧三幅图像为Faster-DeblurGAN的结果。通过对比分析可以发现,Faster-DeblurGAN在窗户和车辆的细节恢复上表现更为优异,能够还原更多真实纹理信息。对于人脸区域,Faster-DeblurGAN在眼睛部分的处理效果更接近真实图像,而DeblurGAN虽然呈现出更多细节,但部分细节属于伪影。图7的图像分布与图6一致,进一步对比表明,Faster-DeblurGAN在面部和手部的细节恢复上同样表现出更高的真实性。此外,Faster-DeblurGAN对电线杆的处理在清晰度和色彩还原度上均优于DeblurGAN。综上所述,Faster-DeblurGAN在去模糊任务中展现出更优的性能。
图5 GoPro验证集对比实验结果

Fig.5 Comparative experimental results on GoPro validation set

图6 GoPro验证集图片1细节对比结果

Fig.6 Detailed comparative results of image 1 on GoPro validation set

图7 GoPro验证集图片2细节对比结果

Fig.7 Detailed comparative results of image 2 on GoPro validation set

2.5 消融实验

本文为验证各改进模块的有效性,对各模块进行消融实验,实验结果如表3所示。
表3 消融实验结果

Tab.3 Ablation experimental results

FasterNet ASFF EUCB OFCLoss PS
NR
SS
IM
Param/
M
29.42 0.915 4.42
30.13 0.932 4.58
30.47 0.943 4.78
31.13 0.947 4.78
消融实验结果表明,各个模块的改进有效优化了模型指标,FasterNet作为主干减少了56.4%的参数量,ASFF的引入使PSNR与SSIM分别提升了0.71和0.017,EUCB的引入使PSNR与SSIM分别提升了0.34和0.01,OFCLoss的引入使PSNR与SSIM分别提升了0.66和0.005,证明了各模块改进的有效性。

3 结束语

针对去运动模糊问题,本文提出了一种改进DeblurGAN的图像去运动模糊方法,在DeblurGANv2的基础上,使用FasterNet替换Inception-ResNet主干网络,使用ASFF替换FPN,使用EUCB替代传统上采样,并且引入光流一致性损失提高模型去运动模糊的性能。实验结果表明,该方法在GoPro数据集上的性能优于基准模型,在PSNR和SSIM等客观评价指标上取得了显著的提升。此外,主观视觉质量的比较也证明了本方法去运动模糊有着更好的性能。
但该方法在实际应用时仍有许多挑战,如方法对面部、文字等复杂纹理恢复性较差,未来的工作将致力于进一步优化模型结构,探索新的学习策略,以及将本方法应用于更多样化的实际问题中,以实现更加精准和高效的图像去运动模糊。
[1]
YANG X J, WANG L. A modified Tikhonov regularization method[J]. Journal of Computational and Applied Mathematics, 2015(288): 180-192.

[2]
ZHANG K, ZUO W M, GU S H, et al. Learning deep CNN denoiser prior for image restoration[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, 2017: 2 808-2 817.

[3]
GU Z H, WANG P M, DENG S C, et al. MRFCNN: the optimisation method of convolutional neural network for underwater target recognition[J]. International Journal of Modelling, Identification and Control, 2022, 40(1): 36.

DOI

[4]
TAO X, GAO H Y, SHEN X Y, et al. Scale-recurrent network for deep image deblurring[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, 2018: 8 174-8 182.

[5]
KUPYN O, BUDZAN V, MYKHAILYCH M, et al. DeblurGAN: blind motion deblurring using conditional adversarial networks[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, 2018: 8 183-8 192.

[6]
KUPYN O, MARTYNIUK T, WU J R, et al. DeblurGAN-v2: deblurring (orders-of-magnitude) faster and better[C]// 2019 IEEE/CVF International Conference on Computer Vision (ICCV), Seoul, 2019: 8 877-8 886.

[7]
孙季丰, 朱雅婷, 王恺. 基于DeblurGAN和低秩分解的去运动模糊[J]. 华南理工大学学报(自然科学版), 2020, 48(1): 32-41, 50.

DOI

SUN J F, ZHU Y T, WANG K. Motion deblurring based on DeblurGAN and low rank decomposition[J]. Journal of South China University of Technology(Natural Science Edition), 2020, 48(1): 32-41, 50.

[8]
Chen J, Kao S, He H, et al. Run, don't walk: chasing higher FLOPS for faster neural networks[C]// Proceedings of the IEEE/CVF International Conference on Computer Vision, Vancouver,Canada, June 18-22, 2023.

[9]
LIU S T, HUANG D, WANG Y H. Learning spatial fusion for single-shot object detection[EB/OL]. 2019: 1911. 09516. https://arxiv.org/abs/1911.09516v2.

[10]
RAHMAN M M, MUNIR M, MARCULESCU R. EMCAD: efficient multi-scale convolutional attention decoding for medical image segmentation[EB/OL]. 2024: 2405.06880. https://arxiv.org/abs/2405.06880v1.

[11]
JONSCHKOWSKI R, STONE A, BARRON J T, et al. What matters in unsupervised optical flow[C]// Computer Vision-ECCV 2020. Cham: Springer International Publishing, 2020: 557-572.

[12]
MEI J H, WU Z M, CHEN X, et al. DeepDeblur: text image recovery from blur to sharp[J]. Multimedia Tools and Applications, 2019, 78(13): 18 869-18 885.

[13]
TSAI F J, PENG Y T, LIN Y, et al. BANet: blur-aware attention networks for dynamic scene deblurring[EB/OL]. 2021: 2101. 07518. https://arxiv.org/abs/2101.07518v4.

[14]
ZHANG K H, LUO W H, ZHONG Y R, et al. Deblurring by realistic blurring[C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, 2020: 2 737-2 746.

Outlines

/