Res2-Unet深度学习网络的RGB-高光谱图像重建
高光谱图像(Hyperspectral Image,HSI)的光谱分辨率在0.01量级,在电磁波谱的可见光和近红外区域内其谱段数达几十甚至数百个。高光谱图像具有图谱合一和空谱相关性较强等特性,因此在军事[
由计算机视觉和模式识别领域的顶级学术会议CVPR(IEEE Conference on Computer Vision and Pattern Recognition)组织的NTIRE(New Trends in Image Restoration and Enhancement)挑战赛[
较早的图像重建方法主要集中在建立稀疏表示与压缩感知(Compressive Sensing,CS),以及浅层网络学习模型上[
在2020年的RGB-高光谱图像重建挑战赛上,一个更大的数据集ARAD HS被公开,参赛算法的性能获得显著提升。Li等[
综上所述,现有的光谱重建主要通过加深网络、加宽网络,以及多网络融合等方法提升重建性能,但模型参数量和计算量会成倍增加。由于图像高频纹理特征信息会随着网络加深而丢失,当网络结构不能充分保护这些高频信息时将限制网络的性能。因此,本文提出了一种基于类Unet结构的RGB-高光谱图像重建网络(Res2-Unet)。整个网络以Unet架构为基础,引入Res2Net[
2 Res2-Unet深度学习网络
2.1 Res2-Unet网络设计思路
RGB-高光谱重建属于图像恢复范畴,而回归是解决图像恢复的常用方法。Unet[
Res2Net是一种新颖的卷积神经网络模块架构[
图1 Res2Net模块
Fig.1 Res2Net module
本文结合Unet和Res2Net的优势,提出了一种称为Res2-Unet的深度学习网络以解决RGB-高光谱重建问题。
2.2 Res2-Unet网络描述
Res2-Unet网络结构如
图2 Res2-Unet网络结构
Fig.2 Network architecture of Res2-Unet
首先,采用3×3卷积模块提取图像浅层特征。输入RGB图像x,进行128个通道的3×3卷积,即:
(1) |
用卷积建模的多通道之间具有固定的隐式和局部性关系,而高光谱的多通道特性期望以显式方式改变通道之间的相互依赖性来增强对卷积特征的学习,以增强网络对捕获特征的敏感性。由于SE(Squeeze and excitation networks)模块[
图3 Res2Net-SE模块和SE模块
Fig. 3 Res2Net-SE module and SE block
SE模块首先使用全局平均池化层将全局空间信息压缩到通道域以实现空间信息的聚合。
(2) |
其中:z(c)是通道c的全局平均池化结果,o(c,i,j)是通道c特征图在空间(i,j)处的值,H和W分别为特征图在行列方向的数据量。然后,使用ReLU和Sigmoid函数来获得通道之间的依赖关系,即:
(3) |
其中:δ是ReLU函数,σ是Sigmoid激活函数,W1∈RC/r×C和W2∈RC×C/r是线性映射函数,r为压缩比,取32。
SE模块具备通道注意力机制,可以保护重要的通道特征。由于高光谱图像具备多通道特性,引入SE模块对高光谱图像的多通道数据重建调节具有一定的作用。因此,Res2Net-SE模块不仅可以在更加细粒度级别捕捉局部和全局的图像特征,同时残差连接也有助于增强上下文信息,且具备多通道自适应调节能力。于是Res2-Unet编码网络的第一尺度特征映射函数可表示为:
(4) |
其中:Fmap(1)(·)为第一尺度特征映射函数,它由两个Res2Net-SE模块级联得到,每个通道的特征图与原始输入图像具有相同的分辨率;FRes2Net-SE(·)是Res2Net-SE模块的特征映射函数。不同于Unet,在Res2-Unet网络的第二尺度特征映射中采用PixelUnShuffle取代Maxpooling进行下采样。PixelUnShuffle的优势在于每经过一次操作后特征总量不发生变化,虽然特征图的分辨率降低1倍,但特征通道的数量会变为原先的4倍。Res2-Unet编码网络的第二尺度特征映射函数可表示为:
(5) |
其中:Fmap(2)(·)为第二尺度特征映射函数,FPUS(·)为PixelUnShuffle操作。x3每个通道特征图的分辨率为x2的一半,通道数却增加了一倍。Res2-Unet网络的第三、四尺度特征映射采用与第二尺度特征映射一样的处理方法。
在解码网络部分,首先使用一个1×1的无填充卷积操作,对所有通道进行加权处理可获得更佳的深层特征信息表示。另外,使用PixelShuffle层进行上采样处理,与传统的最邻近或双线性上采样插值不同,PixelShuffle每经过一次操作后特征总量不发生变化,特征图分辨率提升1倍,特征通道数量变为原先的1/4,这样能有效地保留特征。网络的最后部分使用两个3×3卷积层将特征图映射到目标高光谱图像。
由于L1损失函数对异常值不敏感,具有稳定的梯度,且相对其他传统损失函数产生较弱的空间纹理模糊现象,因此Res2-Unet网络使用L1损失函数进行网络训练。L1损失函数定义为:
(6) |
其中:x和y分别是输入的RGB图像和参考的高光谱图像,G(·)是以上提出的重建网络Res2-Unet。
3 实验与结果分析
3.1 实验数据集
采用来自NTIRE 2020挑战赛提供的ARAD HS数据集[
(7) |
其中:为31×3的矩阵,是由相机的RGB三色光谱响应曲线[
3.2 评价方法
NTIRE 2020挑战赛主要采用平均相对绝对误差(Mean of Relative Absolute Error,MRAE)和均方根误差(Root Mean Square Error,RMSE)来评价网络的高光谱图像重建性能,MRAE和RMSE的计算公式如下:
(8) |
(9) |
其中:为网络生成的高光谱图像,y(b,i,j)是高光谱图像中第个谱段图像中(i,j)位置的像素值,是所有谱段数。为了避免因y(b,i,j)值为0而出现计算异常,在
(10) |
(11) |
其中:SAM(i,j)为图像(i,j)位置的光谱角:
(12) |
MRAE,RMSE和MSAM越小,重建性能越好,而PSNR值越大表示重建性能越好。
除此之外,统计网络参数量用于评价网络计算空间复杂度。网络参数量越多表明存储网络所用内存空间越大。网络浮点运算数(Floating Point Operations,FLOPs)用于评价网络计算时间复杂度,FLOPs越大,网络运算耗时越长。
3.3 实验环境和网络参数
设计的网络使用Leaky-ReLU[
实验的所有网络训练和测试均是基于Pytorch深度学习平台,GPU是NVIDIA GeForce RTX 3090,每个网络训练10 000个Epoch,初始学习率为10-4,每经过2 000个Epoch后学习率减半。训练过程中,Batch Size设置为16,参数优化算法使用Adam优化器,其中β1=0.5,β2=0.999,e=10-8。
3.4 实验结果
3.4.1 结果比较
与NTIRE 2020挑战赛最优秀的两种网络AWAN[
Method | MRAE | RMSE | PSNR | MSAM | ||||
---|---|---|---|---|---|---|---|---|
Mean value | Standard deviation | Mean value | Standard deviation | Mean value | Standard deviation | Mean value | Standard deviation | |
AWAN | 0.034 3 | 0.017 2 | 0.011 8 | 0.007 5 | 40.260 1 | 5.814 4 | 2.349 1 | 1.046 1 |
HRNet | 0.039 6 | 0.017 6 | 0.014 1 | 0.009 0 | 38.610 9 | 5.747 0 | 2.680 0 | 1.061 8 |
Res2-Unet | 0.034 0 | 0.012 2 | 0.011 7 | 0.008 2 | 40.348 0 | 5.759 8 | 2.267 6 | 0.787 4 |
Method | MRAE | RMSE | PSNR | MSAM | ||||
---|---|---|---|---|---|---|---|---|
Mean value | Standard deviation | Mean value | Standard deviation | Mean value | Standard deviation | Mean value | Standard deviation | |
AWAN | 0.066 1 | 0.019 4 | 0.017 8 | 0.009 7 | 36.119 1 | 4.614 9 | 3.336 6 | 1.181 1 |
HRNet | 0.071 4 | 0.020 2 | 0.018 1 | 0.009 5 | 35.867 2 | 4.405 5 | 3.636 8 | 1.202 9 |
Res2-Unet | 0.066 1 | 0.019 0 | 0.016 1 | 0.008 2 | 36.840 0 | 4.233 9 | 3.240 1 | 1.005 8 |
与AWAN和HRNet两种优秀的方法相比,提出的方法无论是在Clean赛道还是在Real World赛道中各项评价都取得了最好的统计结果。两个赛道中,提出方法与AWAN方法的MRAE均值相当,但是MRAE的标准偏差更小,表明提出方法在处理各种场景数据时性能更为稳定。对于PSNR和MSAM两种评价方法,无论是在均值结果还是标准偏差结果方面,提出方法均获得较为显著的优势。在Clean赛道中,提出方法的PSNR平均值相比AWAN,HRNet分别高出0.08 dB和1.73 dB;在Real World赛道中,PSNR平均值分别高出0.72 dB和0.97 dB。
AWAN,HRNet和提出网络的网络参数量分别为17.421M,31.705M和34.651M,网络浮点运算数分别为1.142T,164.013G和117.481G,单幅图像的网络运行时间分别为4.600 8,2.605 8和2.144 7 s。AWAN的网络参数量最少,但是网络浮点运算数最多且运算时间最长。提出网络的参数量较其他方法稍多,但网络浮点运算数最少且运算时间最短,表明提出网络的计算空间复杂度适中,计算时间复杂度最低。
Index | AWAN | HRNet | Res2-Unet | |||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|
MRAE | RMSE | PSNR | MSAM | MRAE | RMSE | PSNR | MSAM | MRAE | RMSE | PSNR | MSAM | |
MRAE | 1.000 0 | 0.759 0 | -0.751 1 | 0.964 5 | 1.000 0 | 0.800 1 | -0.739 2 | 0.977 9 | 1.000 0 | 0.644 3 | -0.541 3 | 0.958 3 |
RMSE | 0.759 0 | 1.000 0 | -0.958 0 | 0.743 3 | 0.800 1 | 1.000 0 | -0.947 9 | 0.752 6 | 0.644 3 | 1.000 0 | -0.957 0 | 0.653 5 |
PSNR | -0.751 1 | -0.958 0 | 1.000 0 | -0.758 8 | -0.739 2 | -0.947 9 | 1.000 0 | -0.728 5 | -0.541 3 | -0.957 0 | 1.000 0 | -0.518 0 |
MSAM | 0.964 5 | 0.743 3 | -0.758 8 | 1.000 0 | 0.977 9 | 0.752 6 | -0.728 5 | 1.000 0 | 0.958 3 | 0.653 5 | -0.518 0 | 1.000 0 |
Index | AWAN | HRNet | Res2-Unet | |||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|
MRAE | RMSE | PSNR | MSAM | MRAE | RMSE | PSNR | MSAM | MRAE | RMSE | PSNR | MSAM | |
MRAE | 1.000 0 | 0.373 7 | -0.265 5 | 0.943 9 | 1.000 0 | 0.371 7 | -0.251 5 | 0.951 4 | 1.000 0 | 0.184 2 | -0.069 6 | 0.938 9 |
RMSE | 0.373 7 | 1.000 0 | -0.983 1 | 0.521 4 | 0.371 7 | 1.000 0 | -0.986 3 | 0.488 4 | 0.184 2 | 1.000 0 | -0.987 1 | 0.377 7 |
PSNR | -0.265 5 | -0.983 1 | 1.000 0 | -0.438 7 | -0.251 5 | -0.986 3 | 1.000 0 | -0.396 5 | -0.069 6 | -0.987 1 | 1.000 0 | -0.286 2 |
MSAM | 0.943 9 | 0.521 4 | -0.438 7 | 1.000 0 | 0.951 4 | 0.488 4 | -0.396 5 | 1.000 0 | 0.938 9 | 0.377 7 | -0.286 2 | 1.000 0 |
对比
图4 Clean赛道ARAD_HS_0451数据测试结果的SAM比较
Fig.4 SAM comparison of ARAD_HS_0451 data on Clean track
图5 Clean赛道ARAD_HS_0463数据测试结果的SAM比较
Fig.5 SAM comparison of ARAD_HS_0463 data on Clean track
图6 Real World赛道ARAD_HS_0451数据测试结果的SAM比较
Fig.6 SAM comparison of ARAD_HS_0451 data on Real World track
图7 Real World赛道ARAD_HS_0463数据测试结果的SAM比较
Fig.7 SAM comparison of ARAD_HS_0463 data on Real World track
图8 Clean赛道ARAD_HS_0451数据光谱曲线比较
Fig.8 Spectral curve comparison of ARAD_HS_0451 on Clean track
图9 Clean赛道ARAD_HS_0463数据光谱曲线比较
Fig.9 Spectral curve comparison of ARAD_HS_0463 on Clean track
图10 Real World赛道ARAD_HS_0451数据光谱曲线比较
Fig.10 Spectral curve comparison of ARAD_HS_0451 on Real World track
图11 Real World赛道ARAD_HS_0463数据光谱曲线比较
Fig.11 Spectral curve comparison of ARAD_HS_0463 on Real World track
对照
对照
对照
综上所述,在Clean和Real World两个赛道中,无论是采用二值图进行SAM可视化比较,还是典型位置的重建光谱数据曲线比较,提出方法整体上具有优势。但3种方法对于600~700 nm近红外谱段数据的重构结果均与目标存在较大差距。
3.4.2 消融实验
对设计的网络进行两种消融实验,其一是去掉骨干网络中的SE,以检验通道注意力机制对性能的影响,其二是将骨干网络中的Res2Net-SE模块替换成3×3的卷积模块Conv3×3,以检验Res2Net模块在整个网络中的作用。两个赛道的网络消融测试结果如
Method | MRAE | RMSE | PSNR | SAM | ||||
---|---|---|---|---|---|---|---|---|
Mean value | Standard deviation | Mean value | Standard deviation | Mean value | Standard deviation | Mean value | Standard deviation | |
Conv3×3 | 0.071 3 | 0.022 3 | 0.019 9 | 0.011 0 | 35.143 6 | 4.692 7 | 4.093 8 | 1.168 4 |
Res2Net | 0.043 9 | 0.021 8 | 0.015 7 | 0.011 3 | 38.041 5 | 6.152 4 | 2.972 8 | 1.272 3 |
Res2Net-SE | 0.034 0 | 0.012 2 | 0.011 7 | 0.008 2 | 40.348 0 | 5.759 8 | 2.267 6 | 0.787 4 |
Method | MRAE | RMSE | PSNR | SAM | ||||
---|---|---|---|---|---|---|---|---|
Mean value | Standard deviation | Mean value | Standard deviation | Mean value | Standard deviation | Mean value | Standard deviation | |
Conv3×3 | 0.086 4 | 0.023 4 | 0.020 0 | 0.010 2 | 34.967 3 | 4.329 2 | 4.225 7 | 1.192 7 |
Res2Net | 0.068 3 | 0.017 9 | 0.018 3 | 0.008 9 | 35.685 0 | 4.292 0 | 3.476 4 | 1.010 0 |
Res2Net-SE | 0.066 1 | 0.019 0 | 0.016 1 | 0.008 2 | 36.840 0 | 4.233 9 | 3.240 1 | 1.005 8 |
在Res2Net上添加SE模块后,虽然网络参数量增加了大约0.2M,FLOPs增加仅0.032G,但对网络性能的提升有一定帮助。其主要原因在于SE模块是通过建立通道之间的相互依赖性来自适应地调节各通道之间的特征响应,使网络能够更好地学习一些重要性通道的特性以提高网络重建的整体性能。
4 结 论
本文提出了Res2-Unet深度学习网络用于RGB-高光谱图像重建。通过Res2Net模块内的短残差连接和整体的长残差连接增强上下文信息,提高模型重建能力。在Res2Net中引入SE模块,使网络能够更好地学习重要性通道的特性,提高了网络重建的整体性能。对比参考图像与重建图像,无论是在图像的低频平坦区还是在图像的高频纹理区,提出方法均获得了更好的视觉效果。实验结果表明,无论是所提出网络还是AWAN,HRNet网络,对于高光谱的两端光谱数据重建还是不尽如意,特别是近红外端的重建结果较差。未来将考虑设计生成对抗损失和感知损失等以进一步提高网络对光谱的重建能力。
- 2025年中科院分区表已公布!Scientific Reports降至三区
- 2023JCR影响因子正式公布!
- 国内核心期刊分级情况概览及说明!本篇适用人群:需要发南核、北核、CSCD、科核、AMI、SCD、RCCSE期刊的学者
- 我用了一个很复杂的图,帮你们解释下“23版最新北大核心目录有效期问题”。
- CSSCI官方早就公布了最新南核目录,有心的人已经拿到并且投入使用!附南核目录新增期刊!
- 北大核心期刊目录换届,我们应该熟知的10个知识点。
- 注意,最新期刊论文格式标准已发布,论文写作规则发生重大变化!文字版GB/T 7713.2—2022 学术论文编写规则
- 盘点那些评职称超管用的资源,1,3和5已经“绝种”了
- 职称话题| 为什么党校更认可省市级党报?是否有什么说据?还有哪些机构认可党报?
- 《农业经济》论文投稿解析,难度指数四颗星,附好发选题!