中国科技核心期刊      中国指挥与控制学会会刊     军事装备类重点期刊
Intelligent Information Fusion

A method for image super-resolution reconstruction based on multi-scale features and attention mechanisms

  • WANG Jing ,
  • WANG Lei
Expand
  • Henan Vocational College of Applied Technology, Zhengzhou 450042, China

Received date: 2024-12-03

  Revised date: 2024-12-23

  Online published: 2026-01-23

Abstract

In the task of image super-resolution reconstruction, this paper proposes an image super-resolution method called MSA-SR, which is based on multi-scale features and attention mechanisms. This method effectively captures the low-frequency and high-frequency features of low-resolution images by separating and extracting multi-scale features in both the time and frequency domains. On this basis, high-frequency guided cross-attention is used to selectively enhance high-frequency features, while wavelet convolution is employed to protectively enhance low-frequency features, achieving clear and natural image super-resolution reconstruction effects. The model was validated on the Urban100 and Manga109 datasets, and its performance metrics of Peak Signal-to-Noise Ratio (PSNR) and Structural Similarity (SSIM) showed certain advantages over other deep learning super-resolution methods. From a quality perception perspective, this model has made significant improvements in texture recovery, color restoration, noise suppression, and naturalness of the image, achieving superior visual effects, which proves the effectiveness and superiority of the model.

Cite this article

WANG Jing , WANG Lei . A method for image super-resolution reconstruction based on multi-scale features and attention mechanisms[J]. Command Control and Simulation, 2026 , 48(1) : 66 -71 . DOI: 10.3969/j.issn.1673-3819.2026.01.009

超分辨率重建(SR)技术旨在从低分辨率(LR)图像中恢复出高分辨率(HR)图像,以补偿采集、传输或存储过程中丢失的细节。这项技术在图像处理、计算机视觉等领域广泛应用。有效的SR算法需精确恢复图像的高频细节,如边缘和纹理,同时保持图像自然,避免产生伪影。图像重建模型需具备泛化能力,能在不同场景下稳定工作,并对噪声和图像退化具有鲁棒性,确保在不理想条件下也能提供可靠的重建结果。此外,重建图像的感知质量需符合人眼视觉特性,且算法应适应不同放大因子和图像退化类型,满足多样化的应用需求。
深度学习技术的兴起极大地推动了图像超分辨率重建领域的发展。近年来,国内外众多学者在深度学习超分重建方面取得了众多进展:卢冰等[1]提出了一种基于改进的超分辨率残差网络(SRResNet)的低照度图像超分辨率重建方法,该方法通过生成低照度低分辨率图像,并将其与高分辨率图像进行数据对比并输入学习模型;王孝天等[2]针对CNN在SR任务上忽视提取多尺度特征的问题,提出了一种多尺度融合网络结构,该模型能够从不同空间尺寸的特征图中提取高频和低频特征,并引入注意力机制;董碧娜[3]针对档案图像修复边缘模糊问题,提出了一种单帧图像超分辨率重建算法,该算法基于DCGAN,并结合MSANet提高重建质量;李永军等[4]在ESRGAN网络的基础上,通过引入深度多尺度卷积模块、通道注意力模块和胶囊网络,构建了一种基于多尺度卷积、注意力机制和向量神经元的生成对抗网络图像超分辨网络AC-ESRGAN;陈冠豪等[5]提出了基于转置注意力和CNN的图像超分辨率重建网络(TSA-SFNet),该网络通过调整窗口多头自注意力模块来缓解残差连接引起的振幅问题,并引入通道注意力来激活更多像素进行图像重建,KIM等[6]提出的VDSR通过引入残差学习框架,使得网络能够专注于学习高分辨率图像和低分辨率图像之间的差异;DONG等[7]提出的FSRCNN在VDSR的基础上,通过增加网络的深度,利用更多的层来学习更复杂的映射关系;KIM等[8]又提出了基于递归网络结构的DRCN,通过递归应用相同的网络结构来减少参数数量,这种设计在保持模型复杂度的同时,也保持了较好的重建效果;LAI等[9]提出的LAPSRN则利用了拉普拉斯金字塔的思想,通过多尺度的方式逐步重建图像;LI等[10]提出的MSRN是通过结合多尺度特征提取、残差学习以及层次特征融合结构。
综上所述,基于CNN的SR模型相较于GAN网络SR模型不仅在运算速度上有一定优势,同时也有不俗的效果,在设计网络结构时,多尺度特征、残差结构、频域分析等思想也多次证明了其有效性。因此,本文提出了一种基于多尺度特征与注意力机制的图像超分辨率重建方法MSA-SR。该方法通过对时域和频域多尺度特征的分离提取,有效地获取了低分辨率图像的低频和高频特征。在此基础上,本文对高频特征进行了针对性地增强,同时对低频特征实施了保护性增强,以实现清晰且自然的图像超分辨率重建效果。MSA-SR在提升图像细节的同时,保持了图像整体的自然性和真实性。

1 超分辨率重建网络模型

1.1 网络架构

MSA-SR由时域特征提取网络,频域特征分离网络与高频引导重建网络3部分组成,MSA-SR结构如图1所示。
图1 MSA-SR架构图

Fig.1 MSA-SR architecture diagram

时域特征提取网络借鉴CSPNet提出的多尺度梯度流思想,并采用Yolov8模型中的高效跨阶段部分融合模块C2f进行多尺度特征提取,同时在形状特征分支中融合小波卷积,提升网络对低频特征的提取能力,网络将形状特征图与纹理特征图相加,输入到频域特征分离网络。图1中的CBS模块代表“卷积-批归一化-Silu激活函数”结构,WCBS模块代表“小波卷积-批归一化-Silu激活函数”结构。
频域特征分离网络通过傅里叶变换将时域特征图转换为频域特征图,通过基于残差连接的CBAM注意力机制对频域特征进行高效提取,随后将经过高频增强的特征图与特征分离提取网络的输入进行拼接。
高频引导重建网络使用扩散生成思想,用于超分辨率图像的生成。并使用高频引导交叉注意力机制(HFCA)对低分辨率图像损失较大的高频纹理特征进行增强恢复处理。

1.2 C2f跨阶段部分融合模块

C2f模块[11]采用了Bottleneck设计理念,增强了模型的非线性表示能力,能够更好地处理复杂的图像特征,其结构如图2所示。
图2 C2f模块结构图

Fig. C2f module structure diagram

该模块的结构包括一个初始卷积层,用于将输入特征图的通道数增加一倍,以增强特征表达能力;其次,特征图被送入多个Bottleneck模块进一步处理,这些模块可以配置是否使用shortcut连接,以逐步提取和增强特征;再次,通过Concat块将Bottleneck模块的输出与原始特征图拼接,实现多尺度信息的聚合;最后,拼接后的特征图经过最终卷积块处理,输出目标通道数的特征图。C2f模块的功能包括特征提取、特征增强、特征融合和输出生成,它通过初始卷积块提取基本特征,多个Bottleneck块提炼和增强特征,Concat块融合多尺度信息。

1.3 小波变换卷积

小波变换卷积(WTConv)[12]是一种基于小波变换的卷积层,WTConv利用二维Haar小波变换对输入图像进行多级分解,将图像分解为低频分量和3个高频分量,分别捕捉图像的低频信息和水平、垂直、对角线方向的边缘信息,其结构如图3所示。
图3 WTConv结构图

Fig.3 WTConv structure diagram

在每一级的小波变换中,图像通过下采样使频率信息得到了更细地分解。WTConv层通过在小波域中进行卷积操作,实现了对输入数据的深层次和多尺度分析,使用小尺寸的深度卷积核对分解后的各个子带进行卷积操作,由于小波变换降低了每个子带的空间分辨率,小尺寸的卷积核可以覆盖更大的原始图像区域,即感受野增大。在完成卷积后,模型使用逆小波变换(IWT)将各个子带的卷积结果重新合成为一个完整的输出,这一过程类似于将不同频率层次的特征融合在一起,且IWT操作是线性的,因此可以无损地将卷积结果重构到原始空间。

1.4 全局上采样算子

图像的全局特征对图像超分任务具有十分重要的意义,传统的最邻近上采样与反卷积只能利用图像的局部特征,因此,模型采用具有全局特征的CARAFE[13]上采样算子进行特征图的尺寸扩展。CARAFE的核心优势在于其大感受野、内容感知处理能力以及轻量级和高效率,其基本原理是通过在每个位置利用底层内容信息来预测重组核,并在预定义的附近区域内重组特征,使得不同位置可以使用自适应和优化的重组核,其结构如图4所示。
图4 CARAFE上采样算子结构图

Fig.4 CARAFEupsampling operator structure diagram

CARAFE的工作过程包括核预测模块和内容感知重新组装子模块两个主要步骤。核预测阶段,首先,通过1*1卷积将输入通道数C压缩至Cm以减少计算量;其次,通过kenc*kenc卷积将原始特征图映射到σ*σ* kup*kup个 特征图的特征空间,将特征图通过如图4的方式拼接,获得尺寸为σHin*σWin的特征空间;再次,在σHin*σWin中,某一位置(i',j')是一组1*1* k u p 2的特征,包含了Hin*Win特征图中(i,j)位置的信息;最后,使用softmax对(i',j')进行归一化,实现对原始特征的重组,将1*1* k u p 2的特征变换为kup*kup,得到了重组核。
内容感知重新组装阶段,首先,找到重组核(i',j')在原始图像中的对应位置(i,j),(i',j')与(i,j)的映射关系为i=floor(i'/σ),j=floor(j'/σ);其次,提取以(i,j)为中心的kup*kup大小的邻域,使其与重组核进行点积,获得输出特征图中(i',j')位置的值;最后,对于输入特征图的不同通道,相同位置采用相同的重组核进行重建。

1.5 高频引导交叉注意力机制

为了实现对高频特征的增强,本文使用高频引导交叉(HFC)注意力机制[14]用于对携带边缘、纹理等信息特征图赋予更高的权重。
HFC注意力机制中,算法通过离散小波变换(DWT)提取高频子带,并利用1×1卷积操作聚合高频信息,生成特征图Q。在U-Net架构的每个层级中,算法输入特征图M经过线性变换生成键K和值V,然后通过softmax函数和缩放点积操作生成输出特征图M'。这一过程可以表示如下:
$M^{\prime}=\operatorname{Softmax} \frac{Q K^{\mathrm{T}}}{\sqrt{d_{k}}} V$
其中,dk是特征图Q的列数。HFC注意力机制将高频特征图M'与解码器侧的上采样特征图进行融合以实现高频细节的恢复。这种机制的优势在于,它通过显式分离输入的高频和低频成分,使得网络可以更有效地利用这些成分,提高特征恢复的质量。此外,HFC通过自适应高斯高通滤波器和逆快速傅里叶变换(IFFT)获取富含高频成分的特征图,增强了模型对细节的捕捉能力。

1.6 损失函数

超分辨率重建网络的损失函数Loss由空间域损失LossGT、傅里叶变换损失LossFFT与小波变换损失LossDWT 3部分线性组合构成。空间域损失函数用于衡量预测图像与真实高分辨率图像之间的差异,采用均方误差损失描述这种差异,其公式如下:
${Loss}_{G T}=E\left\|Y-Y^{\prime}\right\|_{2}$
其中,Y是真实图像,Y'是预测图像。傅里叶变换损失函数用于衡量预测图像和真实图像在频域中的差异,同样使用均方误差损失描述这种差异,其公式如下:
${Loss}_{\mathrm{GT}}=E\left\|M-M^{\prime}\right\|_{2}$
其中,M是真实图像的傅里叶变换系数,M'是预测图像的傅里叶变换系数。小波变换损失函数用于衡量预测图像和真实图像在小波变换后的高频子带的差异,对小波分解的各部分分别采用均方误差损失描述这种差异,总的小波变换损失为各部分损失的线性叠加,其计算公式为
${Loss}_{\mathrm{DWT}}=\sum_{i=1}^{L}\left[\begin{array}{c}\left\|\hat{H}_{i}-H_{i}\right\|_{2}+ \\\left\|\hat{H}_{i}-H_{i}\right\|_{2}+ \\\left\|\hat{D}_{i}-D_{i}\right\|_{2}\end{array}\right]$
其中,Hi,Vi,Di分别是真实图像在第i层小波变换中的水平、垂直和对角线方向的高频子带, H ^ i, V ^ i, D ^ i是预测图像的相应子带,L是小波变换的层数。总的损失函数为
${Loss}={Loss}_{\mathrm{GT}}+\alpha {Loss}_{\mathrm{FFT}}+\beta {Loss}_{\mathrm{DWT}}$

2 实验与分析

2.1 数据集选择

本文使用知名的开源数据集CelebA与DIV2K进行模型的训练,使用Urban100与Manga109进行模型性能的验证。
CelebA数据集是一个广泛使用的大规模人脸属性数据集。本文选取2 000张图像,通过双三次插值得到低分辨率图像的训练集;DIV2K数据集是图像超分辨率领域中的一个高质量数据集,笔者选取了800张训练图像扩充本模型的训练数据集。Urban100数据集是一个专门用于评估超分辨率模型性能的测试集,该数据集包含100张高分辨率的城市场景图像;Manga109数据集为漫画图像数据集,笔者选取了其中的100张扩充至本模型的测试数据集中。

2.2 训练平台

笔者在Windows10系统上搭建基于Pytorch的模型训练平台,使用Nvidia GeForce RTX 3060(12 GB)显卡进行模型训练与验证,主要训练参数如表1所示。
表1 网络训练参数

Tab.1 Network training parameters

参数 数值
Epoch/训练轮数 500
BatchSize/批大小 16
Optimizer/优化器 Adam
lr/学习率 0.000 1
DWT级数 4
α/FFT损失系数 0.2
β/DWT损失系数 0.1
EMA衰减率 0.999 9

2.3 评价指标

本文使用峰值信噪比(PSNR)与结构相似性指数(SSIM)评估超分辨率重建图像的质量。PSNR主要衡量重建图像与参考图像之间的差异,其计算公式为
$P S N R=10 \log _{10}\left(\frac{\mathrm{MAX}^{2}}{M S E}\right)$
其中,MAX是图像像素值的最大可能值,对于8-bit图像来说,MAX为255。MSE(均方误差)是重建图像和参考图像之间像素差异的平方平均值,MSE越小,表示重建图像和参考图像越接近。SSIM用于评估两幅图像相似度的指标,常用于衡量图像失真前与失真后的相似性,也用于衡量模型生成图像的真实性,其计算公式为
${ SSIM }=[l(x, y)][c(x, y)][s(x, y)]$
其中,l(x,y)是亮度比较,c(x,y)是对比度比较,s(x,y)是结构比较。

2.4 实验结果与分析

笔者选取经典的图像超分辨率重建网络FSRCNN、MSRN、LapSRN、DRCN与VSDR与本文模型,选取常见的放大倍率2倍、3倍、4倍,在验证集上进行对比实验,结果如表2所示。
表2 对比实验结果

Tab.2 Comparative experimental results

放大
倍率
模型 Urban100 Manga109
PSNR SSIM PSNR SSIM
×2 FSRCNN 29.88 0.902 4 36.67 0.969 4
MSRN 32.22 0.932 6 38.82 0.986 8
LapSRN 30.41 0.911 2 37.27 0.985 5
DRCN 30.76 0.914 7 37.63 0.972 3
VSDR 30.79 0.915 7 37.22 0.972 9
Ours 32.61 0.933 5 38.94 0.988 4
×3 FSRCNN 26.48 0.8175 30.98 0.921 2
MSRN 28.08 0.855 4 33.44 0.942 7
LapSRN 27.07 0.829 8 32.21 0.931 8
DRCN 27.16 0.831 1 32.21 0.931 8
VSDR 27.15 0.831 5 32.01 0.931 0
Ours 28.58 0.856 9 33.93 0.949 5
×4 FSRCNN 24.62 0.727 2 27.90 0.851 7
MSRN 26.04 0.789 6 30.17 0.903 4
LapSRN 25.21 0.756 4 29.09 0.884 5
DRCN 25.15 0.753 0 28.98 0.881 6
VSDR 25.18 0.754 3 28.83 0.880 9
Ours 26.34 0.790 4 30.29 0.905 5
实验结果说明本文模型在PSNRSSIM指标上全面优于其他模型,同时在不同放大尺度上也有较优的效果。本文模型相较于次优的MSRN模型,PSNRSSIM在测试数据集上分别提升了0.5 dB与0.006 8,从客观指标方面证明了模型的优越性。
此外,模型对超分重建图像的主观评判也是评价图像质量的重要标准。本文选取评价指标较优的两个模型(MSRN与VSDR)与本模型进行对比,并从测试集中分别选取如图5所示的测试图片作为模型使用的低分辨率图像。
图5 Urban100与Managa109中测试图片原图

Fig.5 Original test images in urban100 and manga109

分别截取图像中较难增强的时钟部分与人脸部分,进行二倍超分辨率重建结果对比,结果如图6所示,其中左1为输入图像,左2为VSDR的重建结果,左3为MSRN的重建结果,左4为本文模型的重建结果。
图6 各模型超分辨率重建结果

Fig.6 Super-Resolution reconstruction results of various models

实验结果表明,本文提出的超分辨率重建模型在多个关键方面表现出显著的优越性。本模型有效增强了图像的高频特征,同时较好保护了低频特征。
从主观视觉感受来看,本模型在纹理恢复、色彩恢复、噪声抑制以及画面自然度方面均具有明显改进。具体来说,本模型恢复了图像的纹理细节,提升了视觉清晰度;保持了色彩的真实性和一致性,有效抑制了噪声,提高了图像质量;此外没有出现不自然的伪影或纹理过度生成现象,取得了较优的视觉效果,证明了本模型的有效性与优越性。

3 结束语

本文提出了一种基于多尺度特征与注意力机制的图像超分辨率重建方法,通过综合利用时域和频域的特征提取技术,有效增强了低分辨率图像的高频细节,同时保护了低频特征,实现了清晰且自然的超分辨率图像重建。实验结果表明,该方法在多个标准数据集上的性能优于现有的主流超分辨率模型,如FSRCNN、MSRN、LapSRN、DRCN和VSDR,尤其在PSNRSSIM等客观评价指标上取得了显著的提升。此外,主观视觉质量的比较也证明了本方法在纹理恢复、色彩保持、噪声抑制和图像自然度方面的优势。
图像超分辨率领域仍有许多挑战,如处理更复杂的图像退化、提高计算效率等。未来的研究将致力于进一步优化模型结构,探索新的学习策略,以及将本方法应用于更多样化的实际问题中,以实现更加精准和高效的图像超分辨率重建。
[1]
卢冰, 李灿林, 冯薛龙, 等. 基于改进SRResNet深度学习网络的低照度图像超分辨率重建方法[J]. 科学技术与工程, 2022, 22(27):12045-12 052.

LU B, LI C L, FENG X L, et al. Super-resolution reconstruction method for low illumination images based on improved SRResNet deep learning network[J]. Science Technology and Engineering, 2022, 22(27):12045-12 052.

[2]
王孝天, 卢紫微, 张燕. 基于多尺度融合的图像超分辨率重建[J]. 控制工程, 2022, 29(9): 1 573-1 579.

WANG X T, LU Z W, ZHANG Y. Image super-resolution reconstruction based on multi-scale fusion[J]. Control Engineering of China, 2022, 29(9): 1 573-1 579.

[3]
董碧娜. 面向档案修复的低质图像修复与重建算法设计[J]. 微型电脑应用, 2024, 40(8): 59-62.

DONG B N. Algorithm design of low-quality image restoration and reconstruction for file restoration[J]. Microcomputer Applications, 2024, 40(8): 59-62.

[4]
李永军, 陈锦智敏, 李孟军, 等. 基于生成对抗网络的图像超分辨重建算法研究[J]. 河南大学学报(自然科学版), 2024, 54(4): 436-442, 485.

LI Y J, CHENJIN Z M, LI M J, et al. Research on super resolution image reconstruction method based on generative adversarial networks[J]. Journal of Henan University(Natural Science), 2024, 54(4): 436-442, 485.

[5]
陈冠豪, 徐丹, 贺康建, 等. 基于转置注意力和CNN的图像超分辨率重建网络[J/OL]. 图学学报, 2024: 1-12. (2024-11-07). https://kns.cnki.net/kcms/detail/10.1034.T.20241107.1115.002.html.

CHEN G H, XU D, HE K J, et al. Image super-resolution reconstruction network based on transposed attention and CNN[J/OL]. Journal of Graphics, 2024: 1-12. (2024-11-07). https://kns.cnki.net/kcms/detail/10.1034.T.20241107.1115.002.html.

[6]
KIM J, LEE J K, LEE K M. Accurate image super-resolution using very deep convolutional networks[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas. 2016: 1 646-1 654.

[7]
DONG C, LOY C C, TANG X O. Accelerating the super-resolution convolutional neural network[M]// Computer Vision-ECCV 2016. Cham: Springer International Publishing, 2016: 391-407.

[8]
KIM J, LEE J K, LEE K M. Deeply-recursive convolutional network for image super-resolution[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas. 2016: 1 637-1 645.

[9]
LAI W S, HUANG J B, AHUJA N, et al. Deep Laplacian pyramid networks for fast and accurate super-resolution[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu. 2017: 624-632.

[10]
LI J C, FANG F M, MEI K F, et al. Multi-scale residual network for image super-resolution[C]// Computer Vision-ECCV 2018. Cham: Springer International Publishing, 2018: 527-542.

[11]
VARGHESE R, SAMBATH M. YOLOv8: a novel object detection algorithm with enhanced performance and robustness[C]// 2024 International Conference on Advances in Data Engineering and Intelligent Computing Systems (ADICS). Chennai, 2024: 1-6.

[12]
FINDER S E, AMOYAL R, TREISTER E, et al. Wavelet convolutions for large receptive fields[M]// Computer Vision-ECCV 2024. Cham: Springer Nature Switzerland, 2024: 363-380.

[13]
WANG J Q, CHEN K, XU R, et al. CARAFE: content-aware reassembly of features[C]// 2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul. 2019: 3 007-3 016.

[14]
SHANG S Y, SHAN Z Y, LIU G X, et al. ResDiff: combining CNN and diffusion model for image super-resolution[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2024, 38(8): 8 975-8 983.

Outlines

/