基于自适应级联的注意力网络的超分辨率重建

作者：陈一鸣周登文来源：《自动化学报》日期：2022-10-22人气：495

单图像超分辨率(Single image super-resolution, SISR)[1]技术是一个经典的计算机视觉任务, 旨在从一个低分辨率(Low-resolution, LR)图像生成对应的高分辨率(High-resolution, HR)图像, 在医学成像、监控和遥感等领域有十分广泛的应用. SISR是一个病态的逆问题, 要重建逼真的HR图像非常困难, 因为一个LR图像可与多个HR图像对应, 需要假定的先验知识, 正则化原HR图像解[2].

近年来, 深度学习[3]技术显著改进了SISR性能, 并主导了当前SISR技术的研究. Dong等[4]提出了第1个基于卷积神经网络的SISR算法称为超分辨率卷积神经网络(Super-resolution convolutional neural network, SRCNN). SRCNN只有3个卷积层, 感受野较小. 之后的SISR方法的一个趋势是: 逐步加深网络, 从而获得更强的LR-HR映射能力, 同时拥有更大的感受野, 能够融入更多的背景信息, 改进了SISR性能[5]. 然而加深网络也会带来一些问题: 更大的网络(更深或更宽), 会有更多的参数, 需要更大的内存和更强的计算力, 这阻碍了在资源受限的设备, 如移动设备上的实际应用. 当前已有一些引人注意的基于轻量级网络的SISR方法被提出. Kim等[6]提出的深度递归卷积网络(Deeply-recursive convolutional network, DRCN)方法, 使用深度递归的方法, 在卷积层之间共享参数, 在加深网络的同时, 尽可能不增加网络参数量. Tai等[7]提出的深度递归残差网络 (Deep recursive residual network, DRRN), 也使用了深度递归的方法. 与DRCN的区别在于DRRN在残差块之间共享参数, 不仅显著地减少了参数量, 而且性能也显著更好. Tai等[8]也提出了深度持续记忆网络(Deep persistent memory network, MemNet)方法, 使用记忆模块, 并多次递归, 既能控制参数量, 也能更好地利用多层特征信息. Ahn等[9]提出的级联残差网络(Cascading residual network, CARN)方法, 使用级联残差的形式, 重用不同层次的信息. Li等[5]提出的轻量级超分辨率反馈网络 (Lightweight super-resolution feedback network, SRFBN-S)方法, 使用循环神经网络结构, 共享隐藏层的参数, 并多次利用各个隐藏层的输出, 从而改进了网络性能.

本文提出了一个新的轻量级SISR模型, 称为自适应级联的注意力网络(Adaptive cascading attention network, ACAN). 与当前类似的尖端SISR方法相比, ACAN有更好的性能和参数量平衡. 的主要贡献包括: 1)提出了自适应级联的残差(Adaptive cascading residual, ACR) 连接. 残差块之间的连接权重, 是在训练中学习的, 能够自适应结合不同层次的特征信息, 以利于特征重用. 2)提出了局部像素级注意力(Local pixel-wise attention, LPA)模块. 其对输入特征的每一个特征通道的空间位置赋予不同的权重, 以关注更重要的特征信息, 更好地重建高频信息. 3)提出了多尺度全局自适应重建(Multi-scale global adaptive reconstruction, MGAR)模块, 不同尺寸的卷积核处理不同层次的特征信息, 并自适应地组合处理结果, 以产生更好的重建图像.

1. 相关工作

1.1 注意力机制

注意力机制在计算机视觉领域中已经引起了越来越多的关注[10-12]. 在图像分类问题中, Wang等[11]设计了软掩模支路, 同时探索特征在空间维度和通道维度上的关系. Hu等[12]提出了轻量级的挤压和激励(Squeeze-and-excitation, SE)模块, 在网络训练过程中探索特征通道之间的内在联系. 在图像理解问题中, Li等[13]提出了引导的注意推理网络, 网络预测结果能够聚焦于感兴趣的区域. Liu等[14]首次将注意力机制引入到SISR中, 提出了全局的注意力产生网络, 能够定位输出特征的高频信息, 以改进SISR性能. Zhang等[15]提出的残差通道注意力网络方法, 使用通道注意力机制, 能够选择携带信息丰富的特征通道. 本文主要受Wang等[11]和Liu等[14]的启发, 提出了局部像素级注意力模块. 在像素级别上定位高频信息丰富的区域, 以更好地利用特征.

1.2 上采样层

上采样层是SISR重建中很重要的一个组成部分. 早期基于深度学习的SISR方法[4, 8, 16], 一般先将LR图像, 用双三次插值到目标HR图像的尺寸, 再输入到网络模型. 这有助于减轻学习难度, 但大大增加了网络的计算量与参数量[17]. 目前常用的重建方法是直接输入原始的LR图像[18-19], 再将网络模型的输出上采样得到重建的HR图像. 文献[18]和文献[20]使用转置的卷积作为上采样层, 文献[15]和文献[19]使用亚像素卷积进行上采样. 这些单尺度上采样能缓解预上采样的弊端, 但是, 其同样存在难以充分利用网络模型产生的丰富的特征信息的问题. 本文提出了一种多尺度全局自适应的上采样方式: 针对不同的层次特征使用不同尺寸的卷积核, 多尺度地利用网络模型产生的特征信息, 并能够根据自适应参数, 自适应选择不同层次特征的结合方式, 以改进超分辨率的重建效果.

2. 方法

本文ACAN网络模型主要包括: 浅层特征提取模块(Shallow features extract block, SFEB)、非线性映射模块(Non-linear mapping block, NLMB)、多尺度全局自适应重建模块和全局残差连接, 如图1所示. SFEB是一个3 × 3卷积层, 提取输入LR图像的浅层特征, 并将提取的特征输入到NLMB模块. 本文使用的所有大小的卷积层的尾部都伴随着激活层, 并且使用PReLU作为所有激活层的激活函数, 后文不再详细说明. 受SRFBN[5]的启发, 本文在NLMB中采用类似结构, 并在层次特征提取模块(Hierarchical features extract block, HFEB)之间参数共享, 以减少参数量. NLMB是HFEB的多次递归, 在SFEB的基础上进一步进行深层特征的提取. HFEB由2个3 × 3的卷积层和一个提取及掩模(Extract-and-mask, EM)模块组成. 由于本文设计的ACR连接, 第1个HFEB的输入仅为SFEB的输出, 之后递归的每一次, HFEB的输入都包含两个部分: 1)上一层HFEB的输出; 2)前面所有HFEB的输出与对应的自适应参数相乘后的和, 并直接输入到当前HFEB的EM模块中. MGAR模块则接收NLMB所有输出重建残差图像; 最后, 全局残差连接产生双三次插值的LR图像, 与残差图像相加之后即为重建的HR图像. 由于文献[21]已经指出L2函数作为损失函数所谓缺点, 所以本文使用L1损失函数, 如下式所示:

图 1 自适应级联的注意力网络架构(ACAN)

Fig. 1 Adaptive cascading attention network architecture (ACAN)

(1)

式中, $\hat{I}$ 和 $I$ 分别代表模型产生的HR图像和真实的HR图像.

第2.1 ~ 2.3节详细介绍HFEB、EM模块和MGAR模块.

2.1 层次特征提取模块(HFEB)

HFEB的重要特征是: 每个HFEB的输入来源不同. 由于信息在流动过程中会不断损耗, 因此希望使用跳跃连接解决这个问题. 为了有效地进行特征重用, 同时考虑参数量的问题, 最终搭建了自适应级联残差(ACR)连接, 如图1所示. ACR连接结构上类似于级联连接, 但本质上仍为残差连接, 并通过自适应参数控制信息流动. 由图1可知, 由于ACR连接, 除第1个HFEB的输入只接收SFEB的输出外, 之后的每个HFEB的输入都包括两个部分: 1) 上一层HFEB的输出; 2) 前面所有HFEB的输出与对应的自适应参数相乘后的和.

在第 $t$ 个HFEB中, 第1部分输入(即第 $t - 1$ 个HFEB的输出), 先经过两个3 × 3的卷积层, 然后将输出乘上对应的自适应参数, 并与第2部分输入相加, 再输入到其中的EM模块进行高频信息的定位与提取. 第 $t$ 个HFEB的表达式如下:

(2)

式中, $f_{H F E B}$ 表示HFEB, $I_{S R}^{t - 1}$ 和 $I_{i n t e r_i n}^{t}$ 分别为第 $t$ 个HFEB的第1部分输入和第2部分输入, $I_{S R}^{t}$ 为第 $t$ 个HFEB的输出.

2.2 提取及掩模(EM)模块

在每个HFEB中, 使用EM模块选择和提取高频特征信息. EM模块主要由特征预处理单元、特征提取模块和局部像素级注意力模块3个部分组成, 如图2所示.

图 2 提取及掩膜模块

Fig. 2 The extract and mask block

如前所述, 第 $t$ 个EM模块的输入来自两部分: 1)当前HFEB中, 经过两个3 × 3卷积层的输出 $I_{i n}^{t}$ , 乘上对应的自适应参数 $α_{t}$ 后的积; 2)前面所有HFEB的输出与对应的自适应参数相乘后的和 $I_{i n t e r_i n}^{t}$ . 二者之和为当前EM模块的输入. EM模块的输入可表示如下:

(3)

(4)

式中, $I_{s u m_i n}^{t}$ 是第 $t$ 个EM模块最终的输入, $I_{S R}^{i}$ 是第 $i$ 个EM模块输出, 同时也是第 $i$ 个HFEB的输出, $Φ_{i}^{t - i}$ 是第 $i$ 个HFEB输出输入到第 $t$ 个EM模块时, 对应的自适应参数.

为了缓解梯度消失的问题, 在EM模块外增加了局部残差连接. 第 $t$ 个HFEB中EM模块的输出可表示如下:

(5)

下面详细介绍EM模块的各个组成部分.

2.2.1 特征预处理单元

为了初步选择信息更丰富的特征, 先在EM模块中, 使用类似于Hu等[12]提出的SE模块, 进行通道级的特征选择. 为了加权各个特征通道, 将SE模块中的Sigmoid门函数替换成Softmax门函数. 同时为了减少因Softmax门函数引起的信息损失, 增加了局部残差连接. 修改的SE模块, 可表示如下:

(6)

式中, $f_{S E *}$ 表示修改后的SE模块, $I_{s u m_i n}$ 和 $I_{S E *}$ 是EM模块的输入和输出.

2.2.2 特征提取模块

修改后的SE模块的输出 $I_{S E *}$ , 输入至特征提取模块, 进行高频信息的提取, 如图3所示.

图 3 特征提取模块

Fig. 3 Feature extracting block

Haris等[22]已经证明了使用递归的上下采样进行特征提取的有效性. 因此, 也使用这种采样方式进行特征提取. 输入特征 $I_{S E *}$ , 先通过4 × 4的转置卷积层上采样得到 $I_{u p}^{0}$ , 然后, 经过6 × 6的卷积层下采样得到 $I_{d o w n}^{0}$ , 如下所示:

(7)

(8)

然后使用局部残差连接将 $I_{d o w n}^{0}$ 与输入 $I_{S E *}$ 相减, 再使用转置卷积层上采样得到 $I_{u p}^{1}$ . 最后, 再次通过局部残差连接, 将 $I_{u p}^{0}$ 与 $I_{u p}^{1}$ 相加, 经卷积层下采样, 得到输出 $I_{o u t}$ :

(9)

(10)

特征提取模块中, 使用的两次转置卷积和两次卷积, 都使用了参数共享. 特征提取模块 $f_{u p_d o w n}$ 可表示如下:

(11)

2.2.3 局部像素级注意(LPA)模块

由于通道注意力机制只按通道携带的信息量多少进行选择, 对于高频信息的定位可能不够准确. 受Wang等[11]和Liu等[14]的启发, 提出局部像素级注意(LPA)模块, 进行像素级的高频信息定位. LPA模块如图4所示, 为了减小参数量, 各卷积层的参数都是共享的.

图 4 局部像素级注意力模块

Fig. 4 Local pixel-wise attention block

在压缩阶段, 使用了2个连续的3 × 3卷积层−最大池化操作. 最大池化下采样有助于扩大感受野和定位高频特征信息区域. 压缩阶段可表示如下:

(12)

$I_{S E *}$ 和 $I_{e x p}$ 分别是LPA模块的输入特征和压缩阶段的输出特征. $W_{0}$ 是卷积层的参数(省略偏差以简化符号), $f_{↓}$ 表示最大池化的下采样.

在扩张阶段, 设置与压缩阶段对称的2个连续的上采样−3 × 3卷积层, 并使用双三次插值作为上采样方式. 考虑到下采样会造成部分信息丢失, 在扩张阶段和压缩阶段的对应位置处建立了跳跃连接, 并且引入了可学习的自适应参数 $α$ , 调节从压缩阶段连接到扩张阶段的特征信息. 扩张阶段如下所示:

(13)

式中, $I_{e x t}$ 和 $I_{m a s k}$ 分别是扩张阶段的输入(即压缩阶段的输出 $I_{e x p}$ 再经过3 × 3的卷积层之后的输出)和扩张阶段的输出, $I_{m a s k}$ 同时也是LPA模块的输出. $I_{1}$ 和 $I_{2}$ 分别是压缩阶段第1次和第2次卷积层的输出, $α_{1}$ 和 $α_{2}$ 是自适应参数. $f_{↑}$ 是双三次插值上采样.

2.3 多尺度全局自适应重建(MGAR)模块

文献[4−9]大多是单尺度的重建, 受MSRN[21]的启发, 提出了多尺度重建的MGAR模块, 可以利用NLMB中提取的层次特征, 进一步改进SISR重建性能. MGAR模块与MSRN中MSRB的区别在于: MGAR模块是一个SISR重建模块, 多尺度利用之前的层次特征, 重建残差图像; MSRB是一个特征提取模块, 仅处理前一个MSRB输出的特征.

MGAR模块如图5所示. 由于NLMB中低层HFEB的感受野较小, 故在MGAR模块中使用较大的卷积核与之对应, 然后, 逐渐减少卷积核的大小. 考虑到参数量的约束, 选取最大的卷积核尺寸为9, 最小的卷积核尺寸为3. 假定NLMB中有 $T$ 个HFEB, 第 $t$ ( $1 \leq T \leq 8$ )个HFEB的输出 $I_{S R}^{t}$ 在MGAR模块中对应的卷积核的尺寸计算为:

图 5 多尺度全局自适应重建模块

Fig. 5 Multi-scale global adaptive reconstruction block

(14)

当 $T > 8$ 时, 由于此时网络已经有足够的深度, 所以设置MGAR模块中前8层的卷积核大小与 $T = 8$ 时相同, 之后的卷积核大小均设置为3.

MGAR模块的每一个输入, 与对应卷积核卷积后, 再与一个可学习的自适应参数相乘, 作为当前支路的输出. 各个分支的和, 经过亚像素卷积[19]上采样之后, 作为MGAR模块的最终输出. 对输入的LR图像进行双三次上采样后, 与MGAR模块的输出求和, 得到重构的HR图像, 用公式表示如下:

(15)

式中, $I_{S R}$ 是输出的HR图像, $I_{L R}$ 是输入的LR图像, $f_{M G A R}$ 和 $f_{u p}$ 分别表示MGAR模块和双三次插值的上采样.

3. 实验细节

3.1 设置

本文实验保持与之前的研究文献设置相同. 训练图像: DIV2k数据集[23]中800张高质量图像; 测试图像: 共同使用的Set5[24], Set14[25]、Urban100[26]、B100[27]和Manga109[28]测试集; 验证图像: DIV2k数据集中第801 ~ 810张高质量图像; 训练图像增扩: 进行90、180、270度旋转、水平翻转和随机裁剪. 训练阶段: 在RGB颜色空间上进行训练, 并且使用梯度裁剪策略稳定训练过程. 测试阶段: 所有彩色图像均转换到YCrCb颜色空间, 在亮度通道Y上进行测试. 每一个最小批训练输入: 16个48 × 48的图像. 使用Adam优化器[29]训练网络, 其中设置 $β_{1} = 0.9$ , $β_{2} = 0.999$ , $ϵ = 10^{- 8}$ . 初始学习率 $e = 10^{- 4}$ , 每经过200个回合, 学习率 $e$ 衰减一半. 使用NVIDIA GeForce RTX 2080Ti GPU (11GB内存) 和PyTorch框架构建网络.

在NLMB中, 每个HFEB的第1个卷积层, 输出通道数为128, 其余卷积层的输出通道数均为64. ACR连接中, 所有自适应参数的初始值为0.2. 在MGAR模块中, 所有的自适应参数初始化为 $1 / n$ , $n$ 是NLMB中HFEB的个数, 并且每个卷积层的输入通道数为64, 输出通道数为 $3 \times r \times r$ , 此处的 $r$ 代表放大因子. 除网络模型深度对图像重建的影响的对比实验外, 在其他所有实验中均设置 $n = 8$ 个HFEB. 使用测试图像进行客观定量比较, 使用验证图像选择模型参数及相关结构.

3.2 模型分析

3.2.1 MGAR模块中卷积核尺寸的选择

在MGAR模块中, 选择卷积核尺寸为9、7、5、3的排列顺序, 具体参见第2.3节. 下面分析不同排列顺序对重建结果的影响, MGAR模块结构见图5. MGAR模块的输入来自NLMB的HFEB, 浅层HFEB的感受野较小, 使用较大的卷积核, 以提取更加全局的背景信息; 深层HFEB的感受野较大, 使用较小的卷积核, 防止提取不相关的背景信. 在MGAR模块中, 每个卷积层的输出特征如图6所示. 浅层HFEB输出的特征包含更多连续的高频信息, 深层HFEB输出的特征包含更多分散的高频信息. 不同层次特征信息互补, 可以增强HR图像的重建效果.

图 6 非线性映射模块中每个HFEB输出特征的可视化结果

Fig. 6 Visual results of each HFEB＇s output feature in non-linear mapping

下面设置4组对比实验, 进一步量化卷积核的排列顺序对重建结果的影响. 4组实验使用的卷积核尺寸分别是: 第1组为9、7、5、3; 第2组为3、5、7、9; 第3组均为3; 第4组均为9. 实验结果如表1所示, 由于第1组实验合理设置了卷积核的尺寸, 因此获得最好的重建效果.

表 1 不同卷积核的排列顺序对重建效果的影响

Table 1 Effect of convolution kernels with different order on reconstruction performance

卷积组排列顺序	9753	3579	3333	9999
PSNR (dB)	35.569	35.514	35.530	35.523

3.2.2 不同层次特征对重建结果的影响

为分析NLMB中不同层次特征对重建结果的影响, 依次移除MGAR模块中不同大小的卷积层, 计算重建HR图像的峰值信噪比(Peak signal-to-noise ratio, PSNR). 计算结果如表2所示, 与越小卷积核对应的HFEB产生的层次特征对重建结果影响更大, 即更深层的HFEB产生的层次特征, 对重建结果的影响更大.

表 2 不同层次特征对重建效果的影响

Table 2 Impact of different hierarchical features on reconstruction performance

移除的卷积组大小	3	5	7	9
PSNR (dB)	35.496	35.517	35.541	35.556

3.2.3 MGAR模块的优势

下面分析MGAR模块相比于普通单尺度重建模块的优势. 由于使用了类似深度反向投影网络 (Deep back-projection networks, DBPN)[22]方法的采样方式, 所以在DBPN上进行实验, 并且用MGAR模块替换原有的单尺度重建模块. 在DBPN中设置 $T = 6$ , 假定原始DBPN方法称为O-DBPN; 用MGAR模块替换后的DBPN方法称为M-DBPN. 重建结果如表3所示, 使用了MGAR模块的DBPN方法, 比原始DBPN方法的重建性能更好.

表 3 原始DBPN (O-DBPN)和使用MGAR模块的DBPN (M-DBPN)的客观效果比较

Table 3 Objective comparison between original DBPN (O-DBPN) and DBPN (M-DBPN) using MGAR module

使用不同重建模块的DBPN	PSNR (dB)
O-DBPN	35.343
M-DBPN	35.399

3.2.4 LPA模块的设计考虑

LPA模块中未包含Sigmoid门函数. 为了解Sigmoid门函数的作用, 进行了LPA模块末尾包含和不包含Sigmoid门函数2种情形实验. 实验结果如表4所示, 带有Sigmoid门函数的LPA模块性能要低一些.

表 4 Sigmoid门函数的有无对LPA模块性能的影响

Table 4 Influence of Sigmoid gate function to LPA block

Sigmoid门函数	PSNR (dB)
$有$	35.569
$无$	35.497

LPA模块另一个考虑的因素是: 压缩阶段和扩张阶段对应位置的跳跃连接方式, 具体参见第2.2.3节. 本文设计了3个对比实验: 实验1是直接使用残差连接; 实验2是去掉残差连接; 实验3是带有自适应参数的残差连接. 实验结果如表5所示, 实验2比实验1效果好一些, 实验3 效果最好. 说明直接引入压缩阶段的特征确实会影响LPA模块对高频信息的定位, 并且加入自适应参数能够很好地缓解这个问题.

表 5 不同残差的连接方式对重建效果的影响

Table 5 Effect of different residual connection methods on reconstruction performance

不同种类的残差连接	PSNR (dB)
残差连接	35.515
无残差连接	35.521
带自适应参数的残差连接	35.569

3.2.5 LPA模块对重建结果的影响

为验证LPA模块对重建效果的影响, 进行以下两种情形的对比试验: 在HFEB的EM模块中, 包含和不包含LPA模块. 实验结果如表6所示, 可以看出有LPA模块效果更好. 说明LPA模块确实对重建效果有帮助.

表 6 使用和未使用LPA模块的客观效果比较

Table 6 Comparison of objective effects of ACAN with and without LPA module

LPA模块	PSNR (dB)
$使用$	35.569
$未使用$	35.489

3.2.6 ACR连接对重建结果的影响

ACR连接参见图1(a). 为了观察ACR连接的有效性, 分别在NLMB中使用ACR连接、残差连接和级联连接进行对比实验, 实验结果如表7所示.

表 7 NLMB使用3种不同连接方式对重建效果的影响

Table 7 Impact of using three different connection methods on NLMB on reconstruction performance

使用的跳跃连接	PSNR (dB)
残差连接	35.542
级联连接	35.502
自适应级联残差连接	35.569

从表7可以看出, 残差连接优于级联连接, ACR连接效果最好. 由此可见, 使用自适应的级联残差能更有利地进行特征重用, 改进了SISR的重建性能.

3.3 网络模型深度选择

为了探索NLMB中HFEB的个数(表示为 $T$ ), 对于重建性能的影响. 设置了4组对比实验: 在放大因子为2的情况下, $T = 1, 3, 6, 8$ , 对应的训练曲线及测试曲线如图7和图8所示. 可以看出, HFEB的多次级联有利于提高重建效果.

图 7 包含不同个数的HFEB的ACAN在验证集上的性能比较

Fig. 7 Performance comparison of ACAN on validation set with different numbers of HFEB

图 8 包含不同个数的HFEB的ACAN在Set5测试集上的性能比较

Fig. 8 Performance comparison of ACAN on Set5 testing set with different number of HFEB

为了进一步精确 $T$ 的选择, 在放大因子为2的情况下设置 $T = 6, 7, 8, 9$ 进行对比实验. 由表8可以看出, $T = 8$ 是合理的选择.

表 8 不同网络模型深度对重建性能的影响

Table 8 Impact of different network depths on reconstruction performance

T	6	7	8	9
PSNR (dB)	35.530	35.538	35.569	35.551

3.4 与当前先进的方法比较

本文ACAN方法与高分辨率图像 (High resolution, HR)、双三次插值 (Bicubic interpolation, Bicubic)、SRCNN、LapSRN、SRFBN-S、CARN、FSRCNN、VDSR和SRMDNF 9个方法进行主观效果比较.

1)客观定量结果. 本文ACAN方法与SRCNN[4]、快速超分辨率卷积神经网络(Fast super-resolution convolutional neural networks, FSRCNN)[18]、极深卷积神经网络(Very deep convolutional networks, VDSR)[16]、DRCN[6]、拉普拉斯金字塔超分辨率网络(Laplacian pyramid super-resolution network, LapSRN)[30]、DRRN[7]、MemNet[8]、用于多重无噪衰减的超分辨率网络(Super-resolution network for multiple noise-free degradations, SRMDNF)[31]、CARN[9]和SRFBN-S[5]10个当前类似的先进方法进行比较, 同时采用自组方法[32], 进一步提高ACAN的性能(称为ACAN+). 采用共同的客观度量标准: 平均峰值信噪比(PSNR) 和结构相似性(Structural similarity index, SSIM)[33], 计算结果如表9所示. 最好结果与次好结果分别用加粗和下划线标出. ACAN+的平均PSNR和SSIM度量显著优于其他方法, 包括之前最好的方法CARN, 而在 × 2情况下参数量大约只有其一半. 即使未使用自组方法, 本文ACAN方法也优于其他所有的方法. 本文方法性能提升的原因主要有: ACR连接、LPA模块和MGAR模块发挥了作用. LPA模块能够更加精准地选择高频特征信息, MGAR模块能够充分利用多尺度的特征信息, ACR连接更有效地进行特征重用, 这些因素导致了本文ACAN方法性能的显著提高.

表 9 各种SISR方法的平均PSNR值与SSIM值

Table 9 Average PSNR/SSIM of various SISR methods

放大倍数	模型	参数量	Set5 PSNR / SSIM	Set14 PSNR / SSIM	B100 PSNR / SSIM	Urban100 PSNR / SSIM	Manga109 PSNR / SSIM
$\times$ 2	SRCNN	57 K	36.66 / 0.9524	32.42 / 0.9063	31.36 / 0.8879	29.50 / 0.8946	35.74 / 0.9661
	FSRCNN	12 K	37.00 / 0.9558	32.63 / 0.9088	31.53 / 0.8920	29.88 / 0.9020	36.67 / 0.9694
	VDSR	665 K	37.53 / 0.9587	33.03 / 0.9124	31.90 / 0.8960	30.76 / 0.9140	37.22 / 0.9729
	DRCN	1774 K	37.63 / 0.9588	33.04 / 0.9118	31.85 / 0.8942	30.75 / 0.9133	37.63 / 0.9723
	LapSRN	813 K	37.52 / 0.9590	33.08 / 0.9130	31.80 / 0.8950	30.41 / 0.9100	37.27 / 0.9740
	DRRN	297 K	37.74 / 0.9591	33.23 / 0.9136	32.05 / 0.8973	31.23 / 0.9188	37.92 / 0.9760
	MemNet	677 K	37.78 / 0.9597	33.28 / 0.9142	32.08 / 0.8978	31.31 / 0.9195	37.72 / 0.9740
	SRMDNF	1513 K	37.79 / 0.9600	33.32 / 0.9150	32.05 / 0.8980	31.33 / 0.9200	38.07 / 0.9761
	CARN	1592 K	37.76 / 0.9590	33.52 / 0.9166	32.09 / 0.8978	31.92 / 0.9256	38.36 / 0.9765
	SRFBN-S	282K	37.78 / 0.9597	33.35 / 0.9156	32.00 / 0.8970	31.41 / 0.9207	38.06 / 0.9757
	本文 ACAN	800 K	38.10 / 0.9608	33.60 / 0.9177	32.21 / 0.9001	32.29 / 0.9297	38.81 / 0.9773
	本文 ACAN+	800 K	38.17 / 0.9611	33.69 / 0.9182	32.26 / 0.9006	32.47 / 0.9315	39.02 / 0.9778
$\times$ 3	SRCNN	57 K	32.75 / 0.9090	29.28 / 0.8209	28.41 / 0.7863	26.24 / 0.7989	30.59 / 0.9107
	FSRCNN	12 K	33.16 / 0.9140	29.43 / 0.8242	28.53 / 0.7910	26.43 / 0.8080	30.98 / 0.9212
	VDSR	665 K	33.66 / 0.9213	29.77 / 0.8314	28.82 / 0.7976	27.14 / 0.8279	32.01 / 0.9310
	DRCN	1774 K	33.82 / 0.9226	29.76 / 0.8311	28.80 / 0.7963	27.15 / 0.8276	32.31 / 0.9328
	DRRN	297 K	34.03 / 0.9244	29.96 / 0.8349	28.95 / 0.8004	27.53 / 0.8378	32.74 / 0.9390
	MemNet	677 K	34.09 / 0.9248	30.00 / 0.8350	28.96 / 0.8001	27.56 / 0.8376	32.51 / 0.9369
	SRMDNF	1530 K	34.12 / 0.9250	30.04 / 0.8370	28.97 / 0.8030	27.57 / 0.8400	33.00 / 0.9403
	CARN	1592 K	34.29 / 0.9255	30.29 / 0.8407	29.06 / 0.8034	27.38 / 0.8404	33.50 / 0.9440
	SRFBN-S	376 K	34.20 / 0.9255	30.10 / 0.8372	28.96 / 0.8010	27.66 / 0.8415	33.02 / 0.9404
	本文ACAN	1115 K	34.46 / 0.9277	30.39 / 0.8435	29.11 / 0.8055	28.28 / 0.8550	33.61 / 0.9447
	本文 ACAN+	1115 K	34.55 / 0.9283	30.46 / 0.8444	29.16 / 0.8065	28.45 / 0.8577	33.91 / 0.9464
$\times$ 4	SRCNN	57 K	30.48/0.8628	27.49 / 0.7503	26.90 / 0.7101	24.52 / 0.7221	27.66 / 0.8505
	FSRCNN	12 K	30.71 / 0.8657	27.59 / 0.7535	26.98 / 0.7150	24.62 / 0.7280	27.90 / 0.8517
	VDSR	665 K	31.35 / 0.8838	28.01 / 0.7674	27.29 / 0.7251	25.18 / 0.7524	28.83 / 0.8809
	DRCN	1774 K	31.53 / 0.8854	28.02 / 0.7670	27.23 / 0.7233	25.14 / 0.7510	28.98 / 0.8816
	LapSRN	813 K	31.54 / 0.8850	28.19 / 0.7720	27.32 / 0.7280	25.21 / 0.7560	29.09 / 0.8845
	DRRN	297 K	31.68 / 0.8888	28.21 / 0.7720	27.38 / 0.7284	25.44 / 0.7638	29.46 / 0.8960
	MemNet	677 K	31.74 / 0.8893	28.26 / 0.7723	27.40 / 0.7281	25.50 / 0.7630	29.42 / 0.8942
	SRMDNF	1555 K	31.96 / 0.8930	28.35 / 0.7770	27.49 / 0.7340	25.68 / 0.7730	30.09 / 0.9024
	CARN	1592 K	32.13 / 0.8937	28.60 / 0.7806	27.58 / 0.7349	26.07 / 0.7837	30.47 / 0.9084
	SRFBN-S	483 K	31.98 / 0.8923	28.45 / 0.7779	27.44 / 0.7313	25.71 / 0.7719	29.91 / 0.9008
	本文ACAN	1556 K	32.24 / 0.8955	28.62 / 0.7824	27.59 / 0.7366	26.17 / 0.7891	30.53 / 0.9086
	本文 ACAN+	1556 K	32.35 / 0.8969	28.68 / 0.7838	27.65 / 0.7379	26.31 / 0.7922	30.82 / 0.9117

2)主观效果比较: 如图9所示: 第1组图是Urban 100数据集中的image 024在 ×4下的比较结果; 第2组图是Urban 100数据集中的image 061在 ×4下的比较结果; 第3组图是Urban 100数据集中的img 092在 ×4下的比较结果. ACAN方法显著优于其他方法. 以Urban 100中的img 061图像为例, 在放大因子为4的情况下, 对于图中玻璃上难以恢复的网格细节, SRFBN-S、CARN和SRMDNF方法都遭遇了严重的失真, SRCNN方法的重建图像遭遇到严重模糊. 而ACANCAN几乎完美地恢复了原HR图像中纹理和网格信息. 在放大因子为4的情况下, 另外两个图像的结果也与img 061图像的结果类似. 本文方法之所以能够更好地重建纹理和网格信息, 主要得益于ACR连接、LPA模块和MGAR模块. ACR连接能够有效地重用特征; LPA模块能够准确定位特征中的高频信息; MGAR模块能够利用多尺度层次特征. 因此, 能够更好地恢复规则的形状和结构[34]. 由于Urban 100数据集中, 包含较多建筑物的规则结构[22], 本文方法性能提升显著. 如何进一步提升不规则的形状和结构重建效果, 仍是有待研究和解决的问题.

图 9 视觉比较结果

Fig. 9 Visual comparison of images

4. 结束语

本文提出了一个新的轻量级单图像超分辨率方法, 使用自适应级联的注意力网络(ACAN) 能够高质量重建超分辨率图像. 本文的局部像素级注意力(LPA)模块, 通过对输入特征进行像素级的高频信息定位, 加强了特征流动过程中对高频特征信息的选择能力; 本文的多尺度全局自适应重建(MGAR)模块, 使用不同尺寸的卷积核, 能够自适应地选择和组合多尺度的特征信息; 本文的自适应级联残差(ACR)连接, 能够自适应地组合不同层次特征. 充分的实验结果也验证了ACAN方法的良好性能.

关键字：优秀论文

上一篇：一种基于概率关联的局部高斯过程回归算法
下一篇：DoS攻击下具备隐私保护的多智能体系统均值趋同控制

栏目分类

热门排行

推荐信息

期刊知识