优胜从选择开始,我们是您最好的选择!—— 中州期刊联盟(新乡市博翰文化传媒有限公司)
0373-5939925
2851259250@qq.com
我要检测 我要投稿 合法期刊查询
您的位置:网站首页 > 优秀论文 > 其他论文 > 正文

基于自适应级联的注意力网络的超分辨率重建

作者:陈一鸣 周登文来源:《自动化学报》日期:2022-10-22人气:495

单图像超分辨率(Single image super-resolution, SISR)[1]技术是一个经典的计算机视觉任务, 旨在从一个低分辨率(Low-resolution, LR)图像生成对应的高分辨率(High-resolution, HR)图像, 在医学成像、监控和遥感等领域有十分广泛的应用. SISR是一个病态的逆问题, 要重建逼真的HR图像非常困难, 因为一个LR图像可与多个HR图像对应, 需要假定的先验知识, 正则化原HR图像解[2].

近年来, 深度学习[3]技术显著改进了SISR性能, 并主导了当前SISR技术的研究. Dong等[4]提出了第1个基于卷积神经网络的SISR算法称为超分辨率卷积神经网络(Super-resolution convolutional neural network, SRCNN). SRCNN只有3个卷积层, 感受野较小. 之后的SISR方法的一个趋势是: 逐步加深网络, 从而获得更强的LR-HR映射能力, 同时拥有更大的感受野, 能够融入更多的背景信息, 改进了SISR性能[5]. 然而加深网络也会带来一些问题: 更大的网络(更深或更宽), 会有更多的参数, 需要更大的内存和更强的计算力, 这阻碍了在资源受限的设备, 如移动设备上的实际应用. 当前已有一些引人注意的基于轻量级网络的SISR方法被提出. Kim等[6]提出的深度递归卷积网络(Deeply-recursive convolutional network, DRCN)方法, 使用深度递归的方法, 在卷积层之间共享参数, 在加深网络的同时, 尽可能不增加网络参数量. Tai等[7]提出的深度递归残差网络 (Deep recursive residual network, DRRN), 也使用了深度递归的方法. 与DRCN的区别在于DRRN在残差块之间共享参数, 不仅显著地减少了参数量, 而且性能也显著更好. Tai等[8]也提出了深度持续记忆网络(Deep persistent memory network, MemNet)方法, 使用记忆模块, 并多次递归, 既能控制参数量, 也能更好地利用多层特征信息. Ahn等[9]提出的级联残差网络(Cascading residual network, CARN)方法, 使用级联残差的形式, 重用不同层次的信息. Li等[5]提出的轻量级超分辨率反馈网络 (Lightweight super-resolution feedback network, SRFBN-S)方法, 使用循环神经网络结构, 共享隐藏层的参数, 并多次利用各个隐藏层的输出, 从而改进了网络性能.

本文提出了一个新的轻量级SISR模型, 称为自适应级联的注意力网络(Adaptive cascading attention network, ACAN). 与当前类似的尖端SISR方法相比, ACAN有更好的性能和参数量平衡. 的主要贡献包括: 1)提出了自适应级联的残差(Adaptive cascading residual, ACR) 连接. 残差块之间的连接权重, 是在训练中学习的, 能够自适应结合不同层次的特征信息, 以利于特征重用. 2)提出了局部像素级注意力(Local pixel-wise attention, LPA)模块. 其对输入特征的每一个特征通道的空间位置赋予不同的权重, 以关注更重要的特征信息, 更好地重建高频信息. 3)提出了多尺度全局自适应重建(Multi-scale global adaptive reconstruction, MGAR)模块, 不同尺寸的卷积核处理不同层次的特征信息, 并自适应地组合处理结果, 以产生更好的重建图像.

注意力机制在计算机视觉领域中已经引起了越来越多的关注[10-12]. 在图像分类问题中, Wang等[11]设计了软掩模支路, 同时探索特征在空间维度和通道维度上的关系. Hu等[12]提出了轻量级的挤压和激励(Squeeze-and-excitation, SE)模块, 在网络训练过程中探索特征通道之间的内在联系. 在图像理解问题中, Li等[13]提出了引导的注意推理网络, 网络预测结果能够聚焦于感兴趣的区域. Liu等[14]首次将注意力机制引入到SISR中, 提出了全局的注意力产生网络, 能够定位输出特征的高频信息, 以改进SISR性能. Zhang等[15]提出的残差通道注意力网络 方法, 使用通道注意力机制, 能够选择携带信息丰富的特征通道. 本文主要受Wang等[11]和Liu等[14]的启发, 提出了局部像素级注意力模块. 在像素级别上定位高频信息丰富的区域, 以更好地利用特征.

上采样层是SISR重建中很重要的一个组成部分. 早期基于深度学习的SISR方法[4816], 一般先将LR图像, 用双三次插值到目标HR图像的尺寸, 再输入到网络模型. 这有助于减轻学习难度, 但大大增加了网络的计算量与参数量[17]. 目前常用的重建方法是直接输入原始的LR图像[18-19], 再将网络模型的输出上采样得到重建的HR图像. 文献[18]和文献[20]使用转置的卷积作为上采样层, 文献[15]和文献[19]使用亚像素卷积进行上采样. 这些单尺度上采样能缓解预上采样的弊端, 但是, 其同样存在难以充分利用网络模型产生的丰富的特征信息的问题. 本文提出了一种多尺度全局自适应的上采样方式: 针对不同的层次特征使用不同尺寸的卷积核, 多尺度地利用网络模型产生的特征信息, 并能够根据自适应参数, 自适应选择不同层次特征的结合方式, 以改进超分辨率的重建效果.

本文ACAN网络模型主要包括: 浅层特征提取模块(Shallow features extract block, SFEB)、非线性映射模块(Non-linear mapping block, NLMB)、多尺度全局自适应重建模块和全局残差连接, 如图1所示. SFEB是一个3 × 3卷积层, 提取输入LR图像的浅层特征, 并将提取的特征输入到NLMB模块. 本文使用的所有大小的卷积层的尾部都伴随着激活层, 并且使用PReLU作为所有激活层的激活函数, 后文不再详细说明. 受SRFBN[5]的启发, 本文在NLMB中采用类似结构, 并在层次特征提取模块(Hierarchical features extract block, HFEB)之间参数共享, 以减少参数量. NLMB是HFEB的多次递归, 在SFEB的基础上进一步进行深层特征的提取. HFEB由2个3 × 3的卷积层和一个提取及掩模(Extract-and-mask, EM)模块组成. 由于本文设计的ACR连接, 第1个HFEB的输入仅为SFEB的输出, 之后递归的每一次, HFEB的输入都包含两个部分: 1)上一层HFEB的输出; 2)前面所有HFEB的输出与对应的自适应参数相乘后的和, 并直接输入到当前HFEB的EM模块中. MGAR模块则接收NLMB所有输出重建残差图像; 最后, 全局残差连接产生双三次插值的LR图像, 与残差图像相加之后即为重建的HR图像. 由于文献[21]已经指出L2函数作为损失函数所谓缺点, 所以本文使用L1损失函数, 如下式所示:

图 1  自适应级联的注意力网络架构(ACAN)
Fig. 1  Adaptive cascading attention network architecture (ACAN)


(1)

式中, I^I分别代表模型产生的HR图像和真实的HR图像.

第2.1 ~ 2.3节详细介绍HFEB、EM模块和MGAR模块.

HFEB的重要特征是: 每个HFEB的输入来源不同. 由于信息在流动过程中会不断损耗, 因此希望使用跳跃连接解决这个问题. 为了有效地进行特征重用, 同时考虑参数量的问题, 最终搭建了自适应级联残差(ACR)连接, 如图1所示. ACR连接结构上类似于级联连接, 但本质上仍为残差连接, 并通过自适应参数控制信息流动. 由图1可知, 由于ACR连接, 除第1个HFEB的输入只接收SFEB的输出外, 之后的每个HFEB的输入都包括两个部分: 1) 上一层HFEB的输出; 2) 前面所有HFEB的输出与对应的自适应参数相乘后的和.

在第t个HFEB中, 第1部分输入(即第t1个HFEB的输出), 先经过两个3 × 3的卷积层, 然后将输出乘上对应的自适应参数, 并与第2部分输入相加, 再输入到其中的EM模块进行高频信息的定位与提取. 第t个HFEB的表达式如下:


(2)

式中, fHFEB表示HFEB, ISRt1Iinter_int分别为第t个HFEB的第1部分输入和第2部分输入, ISRt为第t个HFEB的输出.

在每个HFEB中, 使用EM模块选择和提取高频特征信息. EM模块主要由特征预处理单元、特征提取模块和局部像素级注意力模块3个部分组成, 如图2所示.

图 2  提取及掩膜模块
Fig. 2  The extract and mask block

如前所述, 第t个EM模块的输入来自两部分: 1)当前HFEB中, 经过两个3 × 3卷积层的输出Iint, 乘上对应的自适应参数αt后的积; 2)前面所有HFEB的输出与对应的自适应参数相乘后的和Iinter_int. 二者之和为当前EM模块的输入. EM模块的输入可表示如下:


(3)

(4)

式中, Isum_int是第t个EM模块最终的输入, ISRi是第i个EM模块输出, 同时也是第i个HFEB的输出, Φiti是第i个HFEB输出输入到第t个EM模块时, 对应的自适应参数.

为了缓解梯度消失的问题, 在EM模块外增加了局部残差连接. 第t个HFEB中EM模块的输出可表示如下:


(5)

下面详细介绍EM模块的各个组成部分.

2.2.1   特征预处理单元

为了初步选择信息更丰富的特征, 先在EM模块中, 使用类似于Hu等[12]提出的SE模块, 进行通道级的特征选择. 为了加权各个特征通道, 将SE模块中的Sigmoid门函数替换成Softmax门函数. 同时为了减少因Softmax门函数引起的信息损失, 增加了局部残差连接. 修改的SE模块, 可表示如下:


(6)

式中, fSE表示修改后的SE模块, Isum_inISE是EM模块的输入和输出.

2.2.2   特征提取模块

修改后的SE模块的输出ISE, 输入至特征提取模块, 进行高频信息的提取, 如图3所示.

图 3  特征提取模块
Fig. 3  Feature extracting block

Haris等[22]已经证明了使用递归的上下采样进行特征提取的有效性. 因此, 也使用这种采样方式进行特征提取. 输入特征ISE, 先通过4 × 4的转置卷积层上采样得到Iup0, 然后, 经过6 × 6的卷积层下采样得到Idown0, 如下所示:


(7)

(8)

然后使用局部残差连接将Idown0与输入ISE相减, 再使用转置卷积层上采样得到Iup1. 最后, 再次通过局部残差连接, 将Iup0Iup1相加, 经卷积层下采样, 得到输出Iout:


(9)

(10)

特征提取模块中, 使用的两次转置卷积和两次卷积, 都使用了参数共享. 特征提取模块fup_down可表示如下:


(11)
2.2.3   局部像素级注意(LPA)模块

由于通道注意力机制只按通道携带的信息量多少进行选择, 对于高频信息的定位可能不够准确. 受Wang等[11]和Liu等[14]的启发, 提出局部像素级注意(LPA)模块, 进行像素级的高频信息定位. LPA模块如图4所示, 为了减小参数量, 各卷积层的参数都是共享的.

图 4  局部像素级注意力模块
Fig. 4  Local pixel-wise attention block

在压缩阶段, 使用了2个连续的3 × 3卷积层−最大池化操作. 最大池化下采样有助于扩大感受野和定位高频特征信息区域. 压缩阶段可表示如下:


(12)

ISEIexp分别是LPA模块的输入特征和压缩阶段的输出特征. W0是卷积层的参数(省略偏差以简化符号), f表示最大池化的下采样.

在扩张阶段, 设置与压缩阶段对称的2个连续的上采样−3 × 3卷积层, 并使用双三次插值作为上采样方式. 考虑到下采样会造成部分信息丢失, 在扩张阶段和压缩阶段的对应位置处建立了跳跃连接, 并且引入了可学习的自适应参数α, 调节从压缩阶段连接到扩张阶段的特征信息. 扩张阶段如下所示:


(13)

式中, IextImask分别是扩张阶段的输入(即压缩阶段的输出Iexp再经过3 × 3的卷积层之后的输出)和扩张阶段的输出, Imask同时也是LPA模块的输出. I1I2分别是压缩阶段第1次和第2次卷积层的输出, α1α2是自适应参数. f是双三次插值上采样.

文献[4−9]大多是单尺度的重建, 受MSRN[21]的启发, 提出了多尺度重建的MGAR模块, 可以利用NLMB中提取的层次特征, 进一步改进SISR重建性能. MGAR模块与MSRN中MSRB的区别在于: MGAR模块是一个SISR重建模块, 多尺度利用之前的层次特征, 重建残差图像; MSRB是一个特征提取模块, 仅处理前一个MSRB输出的特征.

MGAR模块如图5所示. 由于NLMB中低层HFEB的感受野较小, 故在MGAR模块中使用较大的卷积核与之对应, 然后, 逐渐减少卷积核的大小. 考虑到参数量的约束, 选取最大的卷积核尺寸为9, 最小的卷积核尺寸为3. 假定NLMB中有T个HFEB, 第t(1T8)个HFEB的输出ISRt在MGAR模块中对应的卷积核的尺寸计算为:

图 5  多尺度全局自适应重建模块
Fig. 5  Multi-scale global adaptive reconstruction block


(14)

T>8时, 由于此时网络已经有足够的深度, 所以设置MGAR模块中前8层的卷积核大小与T=8时相同, 之后的卷积核大小均设置为3.

MGAR模块的每一个输入, 与对应卷积核卷积后, 再与一个可学习的自适应参数相乘, 作为当前支路的输出. 各个分支的和, 经过亚像素卷积[19]上采样之后, 作为MGAR模块的最终输出. 对输入的LR图像进行双三次上采样后, 与MGAR模块的输出求和, 得到重构的HR图像, 用公式表示如下:


(15)

式中, ISR是输出的HR图像, ILR是输入的LR图像, fMGARfup分别表示MGAR模块和双三次插值的上采样.

本文实验保持与之前的研究文献设置相同. 训练图像: DIV2k数据集[23]中800张高质量图像; 测试图像: 共同使用的Set5[24], Set14[25]、Urban100[26]、B100[27]和Manga109[28]测试集; 验证图像: DIV2k数据集中第801 ~ 810张高质量图像; 训练图像增扩: 进行90、180、270度旋转、水平翻转和随机裁剪. 训练阶段: 在RGB颜色空间上进行训练, 并且使用梯度裁剪策略稳定训练过程. 测试阶段: 所有彩色图像均转换到YCrCb颜色空间, 在亮度通道Y上进行测试. 每一个最小批训练输入: 16个48 × 48的图像. 使用Adam优化器[29]训练网络, 其中设置β1=0.9β2=0.999ϵ=108. 初始学习率e=104, 每经过200个回合, 学习率e衰减一半. 使用NVIDIA GeForce RTX 2080Ti GPU (11GB内存) 和PyTorch框架构建网络.

在NLMB中, 每个HFEB的第1个卷积层, 输出通道数为128, 其余卷积层的输出通道数均为64. ACR连接中, 所有自适应参数的初始值为0.2. 在MGAR模块中, 所有的自适应参数初始化为1/nn是NLMB中HFEB的个数, 并且每个卷积层的输入通道数为64, 输出通道数为3×r×r, 此处的r代表放大因子. 除网络模型深度对图像重建的影响的对比实验外, 在其他所有实验中均设置n=8个HFEB. 使用测试图像进行客观定量比较, 使用验证图像选择模型参数及相关结构.

3.2.1   MGAR模块中卷积核尺寸的选择

在MGAR模块中, 选择卷积核尺寸为9、7、5、3的排列顺序, 具体参见第2.3节. 下面分析不同排列顺序对重建结果的影响, MGAR模块结构见图5. MGAR模块的输入来自NLMB的HFEB, 浅层HFEB的感受野较小, 使用较大的卷积核, 以提取更加全局的背景信息; 深层HFEB的感受野较大, 使用较小的卷积核, 防止提取不相关的背景信. 在MGAR模块中, 每个卷积层的输出特征如图6所示. 浅层HFEB输出的特征包含更多连续的高频信息, 深层HFEB输出的特征包含更多分散的高频信息. 不同层次特征信息互补, 可以增强HR图像的重建效果.

图 6  非线性映射模块中每个HFEB输出特征的可视化结果
Fig. 6  Visual results of each HFEB's output feature in non-linear mapping

下面设置4组对比实验, 进一步量化卷积核的排列顺序对重建结果的影响. 4组实验使用的卷积核尺寸分别是: 第1组为9、7、5、3; 第2组为3、5、7、9; 第3组均为3; 第4组均为9. 实验结果如表1所示, 由于第1组实验合理设置了卷积核的尺寸, 因此获得最好的重建效果.

表 1  不同卷积核的排列顺序对重建效果的影响
Table 1  Effect of convolution kernels with different order on reconstruction performance
卷积组排列顺序9753357933339999
PSNR (dB)35.56935.51435.53035.523

3.2.2   不同层次特征对重建结果的影响

为分析NLMB中不同层次特征对重建结果的影响, 依次移除MGAR模块中不同大小的卷积层, 计算重建HR图像的峰值信噪比(Peak signal-to-noise ratio, PSNR). 计算结果如表2所示, 与越小卷积核对应的HFEB产生的层次特征对重建结果影响更大, 即更深层的HFEB产生的层次特征, 对重建结果的影响更大.

表 2  不同层次特征对重建效果的影响
Table 2  Impact of different hierarchical features on reconstruction performance
移除的卷积组大小3579
PSNR (dB)35.49635.51735.54135.556

3.2.3   MGAR模块的优势

下面分析MGAR模块相比于普通单尺度重建模块的优势. 由于使用了类似深度反向投影网络 (Deep back-projection networks, DBPN)[22]方法的采样方式, 所以在DBPN上进行实验, 并且用MGAR模块替换原有的单尺度重建模块. 在DBPN中设置T=6, 假定原始DBPN方法称为O-DBPN; 用MGAR模块替换后的DBPN方法称为M-DBPN. 重建结果如表3所示, 使用了MGAR模块的DBPN方法, 比原始DBPN方法的重建性能更好.

表 3  原始DBPN (O-DBPN)和使用MGAR模块的DBPN (M-DBPN)的客观效果比较
Table 3  Objective comparison between original DBPN (O-DBPN) and DBPN (M-DBPN) using MGAR module
使用不同重建模块的DBPNPSNR (dB)
O-DBPN35.343
M-DBPN35.399

3.2.4   LPA模块的设计考虑

LPA模块中未包含Sigmoid门函数. 为了解Sigmoid门函数的作用, 进行了LPA模块末尾包含和不包含Sigmoid门函数2种情形实验. 实验结果如表4所示, 带有Sigmoid门函数的LPA模块性能要低一些.

表 4  Sigmoid门函数的有无对LPA模块性能的影响
Table 4  Influence of Sigmoid gate function to LPA block
Sigmoid门函数PSNR (dB)
35.569
35.497

LPA模块另一个考虑的因素是: 压缩阶段和扩张阶段对应位置的跳跃连接方式, 具体参见第2.2.3节. 本文设计了3个对比实验: 实验1是直接使用残差连接; 实验2是去掉残差连接; 实验3是带有自适应参数的残差连接. 实验结果如表5所示, 实验2比实验1效果好一些, 实验3 效果最好. 说明直接引入压缩阶段的特征确实会影响LPA模块对高频信息的定位, 并且加入自适应参数能够很好地缓解这个问题.

表 5  不同残差的连接方式对重建效果的影响
Table 5  Effect of different residual connection methods on reconstruction performance
不同种类的残差连接PSNR (dB)
残差连接35.515
无残差连接35.521
带自适应参数的残差连接35.569

3.2.5   LPA模块对重建结果的影响

为验证LPA模块对重建效果的影响, 进行以下两种情形的对比试验: 在HFEB的EM模块中, 包含和不包含LPA模块. 实验结果如表6所示, 可以看出有LPA模块效果更好. 说明LPA模块确实对重建效果有帮助.

表 6  使用和未使用LPA模块的客观效果比较
Table 6  Comparison of objective effects of ACAN with and without LPA module
LPA模块PSNR (dB)
使35.569
使35.489

3.2.6   ACR连接对重建结果的影响

ACR连接参见图1(a). 为了观察ACR连接的有效性, 分别在NLMB中使用ACR连接、残差连接和级联连接进行对比实验, 实验结果如表7所示.

表 7  NLMB使用3种不同连接方式对重建效果的影响
Table 7  Impact of using three different connection methods on NLMB on reconstruction performance
使用的跳跃连接PSNR (dB)
残差连接35.542
级联连接35.502
自适应级联残差连接35.569

表7可以看出, 残差连接优于级联连接, ACR连接效果最好. 由此可见, 使用自适应的级联残差能更有利地进行特征重用, 改进了SISR的重建性能.

为了探索NLMB中HFEB的个数(表示为T), 对于重建性能的影响. 设置了4组对比实验: 在放大因子为2的情况下, T=1,3,6,8, 对应的训练曲线及测试曲线如图7图8所示. 可以看出, HFEB的多次级联有利于提高重建效果.

图 7  包含不同个数的HFEB的ACAN在验证集上的性能比较
Fig. 7  Performance comparison of ACAN on validation set with different numbers of HFEB
图 8  包含不同个数的HFEB的ACAN在Set5测试集上的性能比较
Fig. 8  Performance comparison of ACAN on Set5 testing set with different number of HFEB

为了进一步精确T的选择, 在放大因子为2的情况下设置T=6,7,8,9进行对比实验. 由表8可以看出, T=8是合理的选择.

表 8  不同网络模型深度对重建性能的影响
Table 8  Impact of different network depths on reconstruction performance
T6789
PSNR (dB)35.53035.53835.56935.551

本文ACAN方法与高分辨率图像 (High resolution, HR)、双三次插值 (Bicubic interpolation, Bicubic)、SRCNN、LapSRN、SRFBN-S、CARN、FSRCNN、VDSR和SRMDNF 9个方法进行主观效果比较.

1)客观定量结果. 本文ACAN方法与SRCNN[4]、快速超分辨率卷积神经网络(Fast super-resolution convolutional neural networks, FSRCNN)[18]、极深卷积神经网络(Very deep convolutional networks, VDSR)[16]、DRCN[6]、拉普拉斯金字塔超分辨率网络(Laplacian pyramid super-resolution network, LapSRN)[30]、DRRN[7]、MemNet[8]、用于多重无噪衰减的超分辨率网络(Super-resolution network for multiple noise-free degradations, SRMDNF)[31]、CARN[9]和SRFBN-S[5]10个当前类似的先进方法进行比较, 同时采用自组方法[32], 进一步提高ACAN的性能(称为ACAN+). 采用共同的客观度量标准: 平均峰值信噪比(PSNR) 和结构相似性(Structural similarity index, SSIM)[33], 计算结果如表9所示. 最好结果与次好结果分别用加粗和下划线标出. ACAN+的平均PSNR和SSIM度量显著优于其他方法, 包括之前最好的方法CARN, 而在 × 2情况下参数量大约只有其一半. 即使未使用自组方法, 本文ACAN方法也优于其他所有的方法. 本文方法性能提升的原因主要有: ACR连接、LPA模块和MGAR模块发挥了作用. LPA模块能够更加精准地选择高频特征信息, MGAR模块能够充分利用多尺度的特征信息, ACR连接更有效地进行特征重用, 这些因素导致了本文ACAN方法性能的显著提高.

表 9  各种SISR方法的平均PSNR值与SSIM值
Table 9  Average PSNR/SSIM of various SISR methods
放大倍数模型参数量Set5
PSNR / SSIM
Set14
PSNR / SSIM
B100
PSNR / SSIM
Urban100
PSNR / SSIM
Manga109
PSNR / SSIM
×2SRCNN57 K36.66 / 0.952432.42 / 0.906331.36 / 0.887929.50 / 0.894635.74 / 0.9661
FSRCNN12 K37.00 / 0.955832.63 / 0.908831.53 / 0.892029.88 / 0.902036.67 / 0.9694
VDSR665 K37.53 / 0.958733.03 / 0.912431.90 / 0.896030.76 / 0.914037.22 / 0.9729
DRCN1774 K37.63 / 0.958833.04 / 0.911831.85 / 0.894230.75 / 0.913337.63 / 0.9723
LapSRN813 K37.52 / 0.959033.08 / 0.913031.80 / 0.895030.41 / 0.910037.27 / 0.9740
DRRN297 K37.74 / 0.959133.23 / 0.913632.05 / 0.897331.23 / 0.918837.92 / 0.9760
MemNet677 K37.78 / 0.959733.28 / 0.914232.08 / 0.897831.31 / 0.919537.72 / 0.9740
SRMDNF1513 K37.79 / 0.960033.32 / 0.915032.05 / 0.898031.33 / 0.920038.07 / 0.9761
CARN1592 K37.76 / 0.959033.52 / 0.916632.09 / 0.897831.92 / 0.925638.36 / 0.9765
SRFBN-S282K37.78 / 0.959733.35 / 0.915632.00 / 0.897031.41 / 0.920738.06 / 0.9757
本文 ACAN800 K38.10 / 0.960833.60 / 0.917732.21 / 0.900132.29 / 0.929738.81 / 0.9773
本文 ACAN+800 K38.17 / 0.961133.69 / 0.918232.26 / 0.900632.47 / 0.931539.02 / 0.9778
×3SRCNN57 K32.75 / 0.909029.28 / 0.820928.41 / 0.786326.24 / 0.798930.59 / 0.9107
FSRCNN12 K33.16 / 0.914029.43 / 0.824228.53 / 0.791026.43 / 0.808030.98 / 0.9212
VDSR665 K33.66 / 0.921329.77 / 0.831428.82 / 0.797627.14 / 0.827932.01 / 0.9310
DRCN1774 K33.82 / 0.922629.76 / 0.831128.80 / 0.796327.15 / 0.827632.31 / 0.9328
DRRN297 K34.03 / 0.924429.96 / 0.834928.95 / 0.800427.53 / 0.837832.74 / 0.9390
MemNet677 K34.09 / 0.924830.00 / 0.835028.96 / 0.800127.56 / 0.837632.51 / 0.9369
SRMDNF1530 K34.12 / 0.925030.04 / 0.837028.97 / 0.803027.57 / 0.840033.00 / 0.9403
CARN1592 K34.29 / 0.925530.29 / 0.840729.06 / 0.803427.38 / 0.840433.50 / 0.9440
SRFBN-S376 K34.20 / 0.925530.10 / 0.837228.96 / 0.801027.66 / 0.841533.02 / 0.9404
本文ACAN1115 K34.46 / 0.927730.39 / 0.843529.11 / 0.805528.28 / 0.855033.61 / 0.9447
本文 ACAN+1115 K34.55 / 0.928330.46 / 0.844429.16 / 0.806528.45 / 0.857733.91 / 0.9464
×4SRCNN57 K30.48/0.862827.49 / 0.750326.90 / 0.710124.52 / 0.722127.66 / 0.8505
FSRCNN12 K30.71 / 0.865727.59 / 0.753526.98 / 0.715024.62 / 0.728027.90 / 0.8517
VDSR665 K31.35 / 0.883828.01 / 0.767427.29 / 0.725125.18 / 0.752428.83 / 0.8809
DRCN1774 K31.53 / 0.885428.02 / 0.767027.23 / 0.723325.14 / 0.751028.98 / 0.8816
LapSRN813 K31.54 / 0.885028.19 / 0.772027.32 / 0.728025.21 / 0.756029.09 / 0.8845
DRRN297 K31.68 / 0.888828.21 / 0.772027.38 / 0.728425.44 / 0.763829.46 / 0.8960
MemNet677 K31.74 / 0.889328.26 / 0.772327.40 / 0.728125.50 / 0.763029.42 / 0.8942
SRMDNF1555 K31.96 / 0.893028.35 / 0.777027.49 / 0.734025.68 / 0.773030.09 / 0.9024
CARN1592 K32.13 / 0.893728.60 / 0.780627.58 / 0.734926.07 / 0.783730.47 / 0.9084
SRFBN-S483 K31.98 / 0.892328.45 / 0.777927.44 / 0.731325.71 / 0.771929.91 / 0.9008
本文ACAN1556 K32.24 / 0.895528.62 / 0.782427.59 / 0.736626.17 / 0.789130.53 / 0.9086
本文 ACAN+1556 K32.35 / 0.896928.68 / 0.783827.65 / 0.737926.31 / 0.792230.82 / 0.9117

2)主观效果比较: 如图9所示: 第1组图是Urban 100数据集中的image 024在 ×4下的比较结果; 第2组图是Urban 100数据集中的image 061在 ×4下的比较结果; 第3组图是Urban 100数据集中的img 092在 ×4下的比较结果. ACAN方法显著优于其他方法. 以Urban 100中的img 061图像为例, 在放大因子为4的情况下, 对于图中玻璃上难以恢复的网格细节, SRFBN-S、CARN和SRMDNF方法都遭遇了严重的失真, SRCNN方法的重建图像遭遇到严重模糊. 而ACANCAN几乎完美地恢复了原HR图像中纹理和网格信息. 在放大因子为4的情况下, 另外两个图像的结果也与img 061图像的结果类似. 本文方法之所以能够更好地重建纹理和网格信息, 主要得益于ACR连接、LPA模块和MGAR模块. ACR连接能够有效地重用特征; LPA模块能够准确定位特征中的高频信息; MGAR模块能够利用多尺度层次特征. 因此, 能够更好地恢复规则的形状和结构[34]. 由于Urban 100数据集中, 包含较多建筑物的规则结构[22], 本文方法性能提升显著. 如何进一步提升不规则的形状和结构重建效果, 仍是有待研究和解决的问题.

图 9  视觉比较结果
Fig. 9  Visual comparison of images

本文提出了一个新的轻量级单图像超分辨率方法, 使用自适应级联的注意力网络(ACAN) 能够高质量重建超分辨率图像. 本文的局部像素级注意力(LPA)模块, 通过对输入特征进行像素级的高频信息定位, 加强了特征流动过程中对高频特征信息的选择能力; 本文的多尺度全局自适应重建(MGAR)模块, 使用不同尺寸的卷积核, 能够自适应地选择和组合多尺度的特征信息; 本文的自适应级联残差(ACR)连接, 能够自适应地组合不同层次特征. 充分的实验结果也验证了ACAN方法的良好性能.


关键字:优秀论文

网络客服QQ: 沈编辑

投诉建议:0373-5939925    投诉建议QQ:

招聘合作:2851259250@qq.com (如您是期刊主编、文章高手,可通过邮件合作)

地址:河南省新乡市金穗大道东段266号中州期刊联盟 ICP备案号:豫ICP备2020036848

【免责声明】:中州期刊联盟所提供的信息资源如有侵权、违规,请及时告知。

版权所有:中州期刊联盟(新乡市博翰文化传媒有限公司)

关注”中州期刊联盟”公众号
了解论文写作全系列课程

核心期刊为何难发?

论文发表总嫌贵?

职院单位发核心?

扫描关注公众号

论文发表不再有疑惑

论文写作全系列课程

扫码了解更多

轻松写核心期刊论文

在线留言