Res2-Unet深度学习网络的RGB-高光谱图像重建

作者：宋蓓蓓马穗娜何帆孙文方来源：《光学精密工程》日期：2022-09-03人气：5290

高光谱图像（Hyperspectral Image，HSI）的光谱分辨率在0.01 $λ$ 量级，在电磁波谱的可见光和近红外区域内其谱段数达几十甚至数百个。高光谱图像具有图谱合一和空谱相关性较强等特性，因此在军事^［1-2］、农业^［3］、海洋^［4］、环境监测^［5］和医学物理研究^［6-7］等领域越来越受到重视。与传统的RGB三谱段多光谱成像相比，高光谱图像的主要优势在于能够在更宽的光谱响应范围内以更高的光谱高分辨率捕获更多细节。然而，相对普遍装备的低成本RGB成像相机，高光谱成像设备价格昂贵，难以广泛应用，因此，从RGB图像重建高光谱图像的技术引起学术界和工业界的关注^［8-9］。

由计算机视觉和模式识别领域的顶级学术会议CVPR（IEEE Conference on Computer Vision and Pattern Recognition）组织的NTIRE（New Trends in Image Restoration and Enhancement）挑战赛^［8］是近年来计算机视觉领域非常有影响力的赛事，其内容包括图像去模糊、去雾、去噪及超分辨率重建等。RGB-高光谱图像重建（Challenge on Spectral Reconstruction from an RGB Image）是NTIRE挑战赛的项目之一，于2018年和2020年成功主办过两次^［8-9］。RGB-高光谱图像重建挑战赛提供了较大的数据集，参赛者基于数据集构建从RGB图像到高光谱图像的映射方法，以获得高质量的高光谱重建图像。

较早的图像重建方法主要集中在建立稀疏表示与压缩感知（Compressive Sensing，CS），以及浅层网络学习模型上^［10-13］，泛化能力有限，重建图像质量较差。在2018年的RGB-高光谱图像重建挑战赛上，主办方提供了包含256个RGB-高光谱图像对的BGU HS数据集。在大数据背景下，深度学习神经网络在RGB-高光谱图像重建方面得到了大量应用。Xiong等^［14］提出了一种由自适应残差块组成的深度残差网络HSCNN-R。为了进一步提高性能，他们设计了一种基于密集连接结构的更深层次HSCNN-D模型和基于融合的后处理方案，重建精度有所提升，但是网络参数量和计算量却大幅增加。Stiebel等^［15］将语义分割中常用的Unet网络^［16］引入到这项工作中，考虑到光谱重建的特殊性，删除了Unet网络中的池化层和批量归一化（Batch Normalization，BN）^［17］处理，最终获得第四名的好成绩。为了解决近红外光谱段信息难以重建的问题，Zhou等构建了包括一个生成器和两个鉴别器的生成对抗网络^［18］，其中一个鉴别器关注全光谱段信息，另外一个鉴别器仅关注近红外光谱段信息，但需要在训练集中删除与测试集不匹配的部分数据，以避免训练过程中出现振荡现象，因此网络的鲁棒性较差。

在2020年的RGB-高光谱图像重建挑战赛上，一个更大的数据集ARAD HS被公开，参赛算法的性能获得显著提升。Li等^［19］提出了一种自适应加权注意力机制网络（Adaptive Weighted Attention Network，AWAN），其中的长短跳跃连接有助于建立远程像素的相关性，有效提高了重建精度，但需要预先已知光谱响应曲线，实用性较差。Zhao等^［20］提出了一个4级分层回归网络（Hierarchical Regression Network，HRNet），使用残差模块和密集连接方法，有助于去除重建噪声和减少重建伪影。Peng等^［21］为光谱重建设计了一个残差像素注意网络（Residual Pixel Attention Network，RPAN），可以自适应地重新缩放每个通道中的像素级特征。

综上所述，现有的光谱重建主要通过加深网络、加宽网络，以及多网络融合等方法提升重建性能，但模型参数量和计算量会成倍增加。由于图像高频纹理特征信息会随着网络加深而丢失，当网络结构不能充分保护这些高频信息时将限制网络的性能。因此，本文提出了一种基于类Unet结构的RGB-高光谱图像重建网络（Res2-Unet）。整个网络以Unet架构为基础，引入Res2Net^［22］模块构建其骨干网络，利用Res2Net的残差连接、多尺度融合等特性可更加细粒度地提取图像的局部和全局特征，同时加入通道注意力机制^［23-24］能自适应调节通道特征响应，编解码间的跳跃连接可充分融合不同尺度的高频信息。最后，在NTIRE 2020挑战赛提供的ARAD HS数据集上进行性能测试，结果表明，Res2-Unet方法无论在客观评价还是主观视觉方面均具有较好的结果。

2 Res2-Unet深度学习网络

2.1　Res2-Unet网络设计思路

RGB-高光谱重建属于图像恢复范畴，而回归是解决图像恢复的常用方法。Unet^［16］网络是一种回归网络，最早用于医疗影像分割，包括编码网络和解码网络两部分。编码网络对输入图像进行多次卷积和池化操作，特征图的分辨率逐步变低，但特征图的通道数量不断增加，以达到整合多尺度上下文信息的目的。解码网络对特征图进行多次上采样和卷积操作，特征图的分辨率不断提高，最终恢复到原始图像的分辨率。不同于Segnet网络^［25］，Unet网络利用图像的多尺度信息在编码和解码通道之间使用跳跃连接融合图像的浅层与深层特征。Unet的编码网络部分采用VGG16作为主干网络，但是VGG16网络层数多、参数多，所以具有计算量大、训练收敛慢的缺点。为了解决这一问题，近年来一种结合ResNet^［26］和Unet的Res-Unet^［27］被提出，ResNet网络的残差结构不仅在不降低精度的情况下拥有较少的网络参数，而且可以克服梯度发散问题得到更快的收敛速度。

Res2Net是一种新颖的卷积神经网络模块架构^［22］，其结构如图1所示。它使用3×3群卷积层代替ResNet模块中的一个3×3卷积层，在物体检测、面部分析、边缘检测、语义分割、显著性物体检测和骨架检测中都能有效提升性能。在Res2Net模块中，输入经过1×1卷积后将特征图按通道平均分为s个子集。除了第一个子集外，其他每个特征图子集都要经过3×3卷积层处理。由于子集之间的连接操作，每一个3×3卷积层均接收到它之前所有特征图子集的信息，因此可以得到更大的感受野。Res2Net模块的输出包含了多种大小、尺度和数量的感受野及其组合。这种分组、合并的策略使得卷积层以更细粒度级别表达多尺度特征，能够更有效地处理特征图信息。参数s用于控制尺度维度，更大的s能提供更多不同尺寸的感受野，但同时也会增加计算量和内存消耗，一般选择s=4。

图1 Res2Net模块

Fig.1 Res2Net module

本文结合Unet和Res2Net的优势，提出了一种称为Res2-Unet的深度学习网络以解决RGB-高光谱重建问题。

2.2　Res2-Unet网络描述

Res2-Unet网络结构如图2所示，左侧是编码网络，右侧是解码网络，共4个尺度。在编码网络部分主要使用3×3卷积、Res2Net-SE和PixelUnShuffle^［28］等3种模块。

图2 Res2-Unet网络结构

Fig.2 Network architecture of Res2-Unet

首先，采用3×3卷积模块提取图像浅层特征。输入RGB图像x，进行128个通道的3×3卷积，即：

（1）

用卷积建模的多通道之间具有固定的隐式和局部性关系，而高光谱的多通道特性期望以显式方式改变通道之间的相互依赖性来增强对卷积特征的学习，以增强网络对捕获特征的敏感性。由于SE（Squeeze and excitation networks）模块^［23］具备全局信息嵌入和自适应激励调节功能，能有效解决通道依赖性问题，因此提出网络采用Res2Net-SE模块进行特征映射。Res2Net-SE模块结构如图3（a）所示，它在Res2Net模块基础上增加了SE模块。

图3 Res2Net-SE模块和SE模块

Fig. 3 Res2Net-SE module and SE block

SE模块首先使用全局平均池化层将全局空间信息压缩到通道域以实现空间信息的聚合。

（2）

其中：z（c）是通道c的全局平均池化结果，o（c，i，j）是通道c特征图在空间（i，j）处的值，H和W分别为特征图在行列方向的数据量。然后，使用ReLU和Sigmoid函数来获得通道之间的依赖关系，即：

（3）

其中：δ是ReLU函数，σ是Sigmoid激活函数，W₁∈R^C^/^r^×^C和W₂∈R^C^×^C^/^r是线性映射函数，r为压缩比，取32。

SE模块具备通道注意力机制，可以保护重要的通道特征。由于高光谱图像具备多通道特性，引入SE模块对高光谱图像的多通道数据重建调节具有一定的作用。因此，Res2Net-SE模块不仅可以在更加细粒度级别捕捉局部和全局的图像特征，同时残差连接也有助于增强上下文信息，且具备多通道自适应调节能力。于是Res2-Unet编码网络的第一尺度特征映射函数可表示为：

（4）

其中：F_map（1）（·）为第一尺度特征映射函数，它由两个Res2Net-SE模块级联得到，每个通道的特征图与原始输入图像具有相同的分辨率；F_Res2Net-SE（·）是Res2Net-SE模块的特征映射函数。不同于Unet，在Res2-Unet网络的第二尺度特征映射中采用PixelUnShuffle取代Maxpooling进行下采样。PixelUnShuffle的优势在于每经过一次操作后特征总量不发生变化，虽然特征图的分辨率降低1倍，但特征通道的数量会变为原先的4倍。Res2-Unet编码网络的第二尺度特征映射函数可表示为：

（5）

其中：F_map（2）（·）为第二尺度特征映射函数，F_PUS（·）为PixelUnShuffle操作。x₃每个通道特征图的分辨率为x₂的一半，通道数却增加了一倍。Res2-Unet网络的第三、四尺度特征映射采用与第二尺度特征映射一样的处理方法。

在解码网络部分，首先使用一个1×1的无填充卷积操作，对所有通道进行加权处理可获得更佳的深层特征信息表示。另外，使用PixelShuffle层进行上采样处理，与传统的最邻近或双线性上采样插值不同，PixelShuffle每经过一次操作后特征总量不发生变化，特征图分辨率提升1倍，特征通道数量变为原先的1/4，这样能有效地保留特征。网络的最后部分使用两个3×3卷积层将特征图映射到目标高光谱图像。

由于L₁损失函数对异常值不敏感，具有稳定的梯度，且相对其他传统损失函数产生较弱的空间纹理模糊现象，因此Res2-Unet网络使用L₁损失函数进行网络训练。L₁损失函数定义为：

（6）

其中：x和y分别是输入的RGB图像和参考的高光谱图像，G（·）是以上提出的重建网络Res2-Unet。

3 实验与结果分析

3.1　实验数据集

采用来自NTIRE 2020挑战赛提供的ARAD HS数据集^［8］对网络进行训练和测试。ARAD HS数据集分为两部分，一部分用于Clean赛道，另一部分用于Real World赛道。每个赛道均包含由450个RGB-HS图像对组成的训练集、10个RGB-HS图像对组成的验证集，而测试集中仅提供了10幅RGB图像，但与之对应的高光谱数据不可下载。因此，实验中将验证集中的10个RGB-HS图像对作为测试集。其中，高光谱图像由400~700 nm中31个波段的光谱图像组成，每个波段的图像尺寸为482×512像素，每个波段带宽为10 nm。Clean赛道中的RGB图像由对应的高光谱图像经过固定的光谱响应函数生成，如下：

（7）

其中： $R$ 为31×3的矩阵，是由相机的RGB三色光谱响应曲线^［29］离散化处理得到。Real World赛道中的RGB图像不仅由对应的高光谱图像经过固定的光谱响应函数进行变换处理，而且叠加了一定强度的高斯噪声用于模拟相机的电子噪声，并最终通过了去马赛克效应运算，整个处理流程更接近实际的RGB成像过程。以上所有的高光谱数据均经过归一化处理，数值为0~1。

3.2　评价方法

NTIRE 2020挑战赛主要采用平均相对绝对误差（Mean of Relative Absolute Error，MRAE）和均方根误差（Root Mean Square Error，RMSE）来评价网络的高光谱图像重建性能，MRAE和RMSE的计算公式如下：

（8）

（9）

其中： $\hat{y} = G (x)$ 为网络生成的高光谱图像，y（b，i，j）是高光谱图像中第 $b$ 个谱段图像中（i，j）位置的像素值， $B$ 是所有谱段数。为了避免因y（b，i，j）值为0而出现计算异常，在式（8）基础上增加一个小值 $ε$ ，取值为10^-¹⁰。除此之外，峰值信噪比（Peak Signal-to-Noise Ratio，PSNR）和光谱角制图平均值（Mean of Spectral Angle Mapper，MSAM）也是常用的评价指标。

（10）

（11）

其中：SAM（i，j）为图像（i，j）位置的光谱角：

（12）

MRAE，RMSE和MSAM越小，重建性能越好，而PSNR值越大表示重建性能越好。

除此之外，统计网络参数量用于评价网络计算空间复杂度。网络参数量越多表明存储网络所用内存空间越大。网络浮点运算数（Floating Point Operations，FLOPs）用于评价网络计算时间复杂度，FLOPs越大，网络运算耗时越长。

3.3　实验环境和网络参数

设计的网络使用Leaky-ReLU^［30］类型的激活函数，它相比ReLU具有更好的非线性性并可加速收敛。整个过程未采用BN操作，这是因为BN操作会破坏图像的对比度信息，不利于图像重建，且会导致训练速度缓慢，甚至训练发散。网络中的每个卷积层采用镜像填充的边缘填充方式，可以有效降低边界效应。

实验的所有网络训练和测试均是基于Pytorch深度学习平台，GPU是NVIDIA GeForce RTX 3090，每个网络训练10 000个Epoch，初始学习率为10^-⁴，每经过2 000个Epoch后学习率减半。训练过程中，Batch Size设置为16，参数优化算法使用Adam优化器，其中β₁=0.5，β₂=0.999，e=10^-⁸。

3.4　实验结果

3.4.1　结果比较

与NTIRE 2020挑战赛最优秀的两种网络AWAN^［19］和HRNet^［20］进行对比实验，Clean和Real World两个赛道的测试集各10组数据分别进行高光谱图像重建，将重建图像与参考图像代入式（8）~式（12），计算得到MRAE，RMSE，PSNR和MSAM的均值和标准偏差，结果如表1和表2所示。在评价结果均值相当的情况下，其标准偏差越小表明算法鲁棒性越好；而标准偏差较大则说明模型对某些数据的重建效果较好，对其他一些数据的重建效果较差。

表1 Clean赛道测试结果比较

Tab.1 Comparison of test results for Clean track

Method	MRAE		RMSE		PSNR		MSAM
Method	Mean value	Standard deviation	Mean value	Standard deviation	Mean value	Standard deviation	Mean value	Standard deviation
AWAN	0.034 3	0.017 2	0.011 8	0.007 5	40.260 1	5.814 4	2.349 1	1.046 1
HRNet	0.039 6	0.017 6	0.014 1	0.009 0	38.610 9	5.747 0	2.680 0	1.061 8
Res2-Unet	0.034 0	0.012 2	0.011 7	0.008 2	40.348 0	5.759 8	2.267 6	0.787 4

表2 Real World赛道测试结果比较

Tab.2 Comparison of test results for Real World track

Method	MRAE		RMSE		PSNR		MSAM
Method	Mean value	Standard deviation	Mean value	Standard deviation	Mean value	Standard deviation	Mean value	Standard deviation
AWAN	0.066 1	0.019 4	0.017 8	0.009 7	36.119 1	4.614 9	3.336 6	1.181 1
HRNet	0.071 4	0.020 2	0.018 1	0.009 5	35.867 2	4.405 5	3.636 8	1.202 9
Res2-Unet	0.066 1	0.019 0	0.016 1	0.008 2	36.840 0	4.233 9	3.240 1	1.005 8

与AWAN和HRNet两种优秀的方法相比，提出的方法无论是在Clean赛道还是在Real World赛道中各项评价都取得了最好的统计结果。两个赛道中，提出方法与AWAN方法的MRAE均值相当，但是MRAE的标准偏差更小，表明提出方法在处理各种场景数据时性能更为稳定。对于PSNR和MSAM两种评价方法，无论是在均值结果还是标准偏差结果方面，提出方法均获得较为显著的优势。在Clean赛道中，提出方法的PSNR平均值相比AWAN，HRNet分别高出0.08 dB和1.73 dB；在Real World赛道中，PSNR平均值分别高出0.72 dB和0.97 dB。

AWAN，HRNet和提出网络的网络参数量分别为17.421M，31.705M和34.651M，网络浮点运算数分别为1.142T，164.013G和117.481G，单幅图像的网络运行时间分别为4.600 8，2.605 8和2.144 7 s。AWAN的网络参数量最少，但是网络浮点运算数最多且运算时间最长。提出网络的参数量较其他方法稍多，但网络浮点运算数最少且运算时间最短，表明提出网络的计算空间复杂度适中，计算时间复杂度最低。

表3和表4分别给出了AWAN，HRNet和提出网络在10组测试数据中测得MRAE，RMSE，PSNR和MSAM的相关系数。当两种评价方法获得结果数据的相关系数越大，说明两者的关系越强，即两者评价的一致性越好。在3种网络中，MRAE与MSAM之间的相关系数均大于0.93，表现出极强的正相关性，评价结果的一致性好。PSNR与RMSE之间的相关系数均小于-0.94，表现出极强的负相关性，显然印证了式（10）所表示两者的负相关关系，它们评价结果的一致性好。因此，MRAE，RMSE，PSNR和MSAM均是有效的评价方法。

表3 Clean赛道测试结果相关系数

Tab.3 Correlation coefficients of test results on Clean track

Index	AWAN				HRNet				Res2-Unet
Index	MRAE	RMSE	PSNR	MSAM	MRAE	RMSE	PSNR	MSAM	MRAE	RMSE	PSNR	MSAM
MRAE	1.000 0	0.759 0	-0.751 1	0.964 5	1.000 0	0.800 1	-0.739 2	0.977 9	1.000 0	0.644 3	-0.541 3	0.958 3
RMSE	0.759 0	1.000 0	-0.958 0	0.743 3	0.800 1	1.000 0	-0.947 9	0.752 6	0.644 3	1.000 0	-0.957 0	0.653 5
PSNR	-0.751 1	-0.958 0	1.000 0	-0.758 8	-0.739 2	-0.947 9	1.000 0	-0.728 5	-0.541 3	-0.957 0	1.000 0	-0.518 0
MSAM	0.964 5	0.743 3	-0.758 8	1.000 0	0.977 9	0.752 6	-0.728 5	1.000 0	0.958 3	0.653 5	-0.518 0	1.000 0

表4 Real World赛道测试结果相关系数

Tab.4 Correlation coefficients of test results on Real World track

Index	AWAN				HRNet				Res2-Unet
Index	MRAE	RMSE	PSNR	MSAM	MRAE	RMSE	PSNR	MSAM	MRAE	RMSE	PSNR	MSAM
MRAE	1.000 0	0.373 7	-0.265 5	0.943 9	1.000 0	0.371 7	-0.251 5	0.951 4	1.000 0	0.184 2	-0.069 6	0.938 9
RMSE	0.373 7	1.000 0	-0.983 1	0.521 4	0.371 7	1.000 0	-0.986 3	0.488 4	0.184 2	1.000 0	-0.987 1	0.377 7
PSNR	-0.265 5	-0.983 1	1.000 0	-0.438 7	-0.251 5	-0.986 3	1.000 0	-0.396 5	-0.069 6	-0.987 1	1.000 0	-0.286 2
MSAM	0.943 9	0.521 4	-0.438 7	1.000 0	0.951 4	0.488 4	-0.396 5	1.000 0	0.938 9	0.377 7	-0.286 2	1.000 0

对比表1和表2，相同网络在Real World赛道测试结果均差于Clean赛道。对比表3和表4，Real World赛道测试结果相关系数的绝对值普遍低于Clean赛道。这表明由于Real World赛道的测试数据引入了噪声和JPEG压缩效应，所有网络更难以重建光谱信息，且重建结果的稳定性较差。

图4~图7是两个赛道中两组测试数据通过AWAN，HRNet和Res2-Unet 3种网络获得重建光谱图像与参考光谱图像的光谱角制图的比较。图4（a）是输入的RGB三通道彩色图像，图4（b）是二值图，亮处表明该处由Res2-Unet网络获得的SAM值比AWAN网络获得的SAM值小，即由Res2-Unet网络获得的重建光谱数据更接近参考光谱信息；暗处表明该处由Res2-Unet网络获得的SAM值比AWAN网络获得的SAM值大，即由AWAN网络获得的重建光谱数据更接近参考光谱信息。图4（c）所示二值图是Res2-Unet网络与HRNet网络获得SAM相比较的可视化图像，图4（d）所示二值图是AWAN网络与HRNet网络获得SAM相比较的可视化图像。

图4 Clean赛道ARAD_HS_0451数据测试结果的SAM比较

Fig.4 SAM comparison of ARAD_HS_0451 data on Clean track

图5 Clean赛道ARAD_HS_0463数据测试结果的SAM比较

Fig.5 SAM comparison of ARAD_HS_0463 data on Clean track

图6 Real World赛道ARAD_HS_0451数据测试结果的SAM比较

Fig.6 SAM comparison of ARAD_HS_0451 data on Real World track

图7 Real World赛道ARAD_HS_0463数据测试结果的SAM比较

Fig.7 SAM comparison of ARAD_HS_0463 data on Real World track

图8~图11是两个赛道中两组测试数据通过AWAN，HRNet及Res2-Unet 3种网络获得的重建光谱图像与参考光谱图像在5个均匀分布位置处的光谱曲线比较。图8（a）是输入的RGB三通道彩色图像，并在图中标注了5个位置点。图8（b）~图8（f）依次给出了这5个位置处的光谱数据曲线。

图8 Clean赛道ARAD_HS_0451数据光谱曲线比较

Fig.8 Spectral curve comparison of ARAD_HS_0451 on Clean track

图9 Clean赛道ARAD_HS_0463数据光谱曲线比较

Fig.9 Spectral curve comparison of ARAD_HS_0463 on Clean track

图10 Real World赛道ARAD_HS_0451数据光谱曲线比较

Fig.10 Spectral curve comparison of ARAD_HS_0451 on Real World track

图11 Real World赛道ARAD_HS_0463数据光谱曲线比较

Fig.11 Spectral curve comparison of ARAD_HS_0463 on Real World track

对照图4和图8所测试的Clean赛道ARAD_HS_0451数据结果，由图4（b）和图4（c）可知提出方法在房屋纹理区获得更好的SAM评价性能。图8（d）和图8（e）分别描绘的位置3和位置4均属于纹理区，提出方法获得的重建光谱数据曲线更接近参考光谱数据曲线。虽然提出方法在天空所在的平坦区获得的SAM评价性能不及AWAN，但是如图8（b）和8（c）所示，两种方法重建得到的光谱曲线十分接近，重建结果相当。

对照图5和图9所测试的Clean赛道ARAD_HS_0463数据结果，由图5（b）和图5（c）可知提出方法在大部分区域的SAM评价均不及AWAN和HRNet。但如图9所示，3种方法重建得到的光谱曲线在400~600 nm十分接近，重建结果相当，提出方法仅在600~700 nm的重建结果较差。

对照图6和图10所测试的Real World赛道ARAD_HS_0451数据结果，以及图7和图11测试的Real World赛道ARAD_HS_0463数据结果，由图6（b）~6（c）和图7（b）~7（c）可见提出方法在大部分区域获得了更好的SAM评价性能。在图10和图11所示的重建光谱曲线比较中，提出方法重建得到的光谱数据整体上更接近于参考光谱数据。

综上所述，在Clean和Real World两个赛道中，无论是采用二值图进行SAM可视化比较，还是典型位置的重建光谱数据曲线比较，提出方法整体上具有优势。但3种方法对于600~700 nm近红外谱段数据的重构结果均与目标存在较大差距。

3.4.2　消融实验

对设计的网络进行两种消融实验，其一是去掉骨干网络中的SE，以检验通道注意力机制对性能的影响，其二是将骨干网络中的Res2Net-SE模块替换成3×3的卷积模块Conv3×3，以检验Res2Net模块在整个网络中的作用。两个赛道的网络消融测试结果如表5和表6所示，除此之外Conv3×3，Res2Net和Res2Net-SE 3种模块为主构成骨干网络的网络参数量分别为55.580M，34.477M和34.651M，而FLOPs分别为182.549G，117.449G和117.481G。结果表明，相对于Conv3×3模块，采用Res2Net模块后不仅减少了21.103M个网络参数，而且重建图像的4种评价结果均显著提升，证明了Res2Net模块的有效性。其性能提升的主要原因在于Res2Net模块的多尺度处理，以及多子集融合方式更有利于提取局部和全局信息。

表5 Clean赛道网络消融测试结果比较

Tab.5 Comparison of test results of network ablation on Clean track

Method	MRAE		RMSE		PSNR		SAM
Method	Mean value	Standard deviation	Mean value	Standard deviation	Mean value	Standard deviation	Mean value	Standard deviation
Conv3×3	0.071 3	0.022 3	0.019 9	0.011 0	35.143 6	4.692 7	4.093 8	1.168 4
Res2Net	0.043 9	0.021 8	0.015 7	0.011 3	38.041 5	6.152 4	2.972 8	1.272 3
Res2Net-SE	0.034 0	0.012 2	0.011 7	0.008 2	40.348 0	5.759 8	2.267 6	0.787 4

表6 Real World赛道网络消融测试结果比较

Tab.6 Comparison of test results of network ablation on Real World track

Method	MRAE		RMSE		PSNR		SAM
Method	Mean value	Standard deviation	Mean value	Standard deviation	Mean value	Standard deviation	Mean value	Standard deviation
Conv3×3	0.086 4	0.023 4	0.020 0	0.010 2	34.967 3	4.329 2	4.225 7	1.192 7
Res2Net	0.068 3	0.017 9	0.018 3	0.008 9	35.685 0	4.292 0	3.476 4	1.010 0
Res2Net-SE	0.066 1	0.019 0	0.016 1	0.008 2	36.840 0	4.233 9	3.240 1	1.005 8

在Res2Net上添加SE模块后，虽然网络参数量增加了大约0.2M，FLOPs增加仅0.032G，但对网络性能的提升有一定帮助。其主要原因在于SE模块是通过建立通道之间的相互依赖性来自适应地调节各通道之间的特征响应，使网络能够更好地学习一些重要性通道的特性以提高网络重建的整体性能。

4 结　论

本文提出了Res2-Unet深度学习网络用于RGB-高光谱图像重建。通过Res2Net模块内的短残差连接和整体的长残差连接增强上下文信息，提高模型重建能力。在Res2Net中引入SE模块，使网络能够更好地学习重要性通道的特性，提高了网络重建的整体性能。对比参考图像与重建图像，无论是在图像的低频平坦区还是在图像的高频纹理区，提出方法均获得了更好的视觉效果。实验结果表明，无论是所提出网络还是AWAN，HRNet网络，对于高光谱的两端光谱数据重建还是不尽如意，特别是近红外端的重建结果较差。未来将考虑设计生成对抗损失和感知损失等以进一步提高网络对光谱的重建能力。

关键字：优秀论文

上一篇：融合自注意力特征嵌入的夜间机场跑道异物入侵检测
下一篇：重定位非极大值抑制算法