基于双专用注意力机制引导的循环生成对抗网络
图像到图像的转换任务一直以来都是人们的研究热点,其目标是建立图像源领域到目标领域的映射,被广泛应用于图像超分辨率重建[
2014年,基于博弈思维的生成对抗网络[
近年来,注意力机制在深度学习中的应用引起了研究人员的高度重视,为解决CycleGAN网络等算法存在的问题,研究人员相继提出了基于注意力机制的无匹配图像转换算法UAIT[
2 基本原理
为解决上述存在的问题,本文提出了一种新的用于无匹配图像转换任务的循环生成对抗网络(Dual-SAG-CycleGAN),采用不同的专用注意力模块分别引导生成器和判别器,达到提升生成图像质量同时降低模型复杂度的目的。
本文的贡献具体如下:(1)提出了一种名为SAG的改进专用注意力模块来引导生成器工作,其中,生成器结构由内容图生成子模块与注意力掩码图生成子模块组成,两者高度共享参数权重。(2)为减少生成器对无关内容的生成以及削弱判别器对背景元素的判断,本文引入了基于CAM注意力模块引导的鉴别器。(3)为了生成更加精准的掩码图来辅助图像转换,本文提出了背景掩码循环一致性损失函数约束掩码生成器的工作。
图1 不同模型在马转斑马任务上的表现。(a)原图; (b)CycleGAN;(c)UNIT;(d)MUNIT;(e)DRIT;(f)本文模型。
Fig. 1 Performance of different models on the horse to zebra task. (a) Origin image;(b) CycleGAN;(c) UNIT;(d) MUNIT;(e) DRIT;(f) Ours.
2.1 整体框架
图2 网络示意图
Fig. 2 Network diagram
图3 整体框架示意图
Fig.3 Overall framework
为了防止网络在转换过程中,出现将域(域)所有图像都映射到域(域)中同一张图片的情况,本文与CycleGAN一样,引入了两个循环一致性损失。所谓循环一致性损失就是 域的图像经过生成器转换至域后,仍然可以通过生成器恢复至原来的域中,并且经过恢复的图像与原图之间差异不能过大,即前向映射。同样,反向映射亦是如此,本文遵循了CycleGAN的整体基本原理。
由于在前向或反向循环映射过程中,需要修改各自的目标前景相同,即各自的背景掩码一致,故本文引入循环一致性损失函数约束掩码生成器的工作,使其生成更加精准的掩码图来辅助图像转换。通过两组对称的生成器与鉴别器动态博弈,最终得到相对理想的域与域之间的映射。
2.2 基于SAG专用注意力引导的生成器
图4 基于专用注意力机制引导的生成器G结构
Fig.4 Structure of generator G based on special attention mechanism-guide
与其他基于注意力机制引导的模型相比,本文设计的基于专用注意力引导的生成器高度共享模型参数的结构,模型计算复杂度更低,而且由于我们的内容生成子模块卷积输出27维图像矩阵,相较于其他模型直接输出3维图像矩阵来说,可计算的映射路径更多。对于复杂场景下的图像,由于注意力机制的引入,使得网络只需要专注于生成前景目标,所以映射更加简单,网络更容易收敛,其生成图像细节更好。
由
(1) |
(2) |
同样,在以及图像的循环一致性映射中,生成器与生成的图像可由
(3) |
(4) |
2.3 基于CAM专用注意力引导的鉴别器
为了防止判别器对生成图像的背景元素进行判断,减少生成器对无关或者虚假内容的生成,本文采用了U-GAT-IT中的鉴别器结构,如
图5 基于专用注意力机制引导的鉴别器结构
Fig.5 Structure of discriminator based on special attention mechanism-guide
鉴别器的整体由辅助鉴别器以及最终鉴别器组成,两者同样高度共享权重参数。其中,辅助鉴别器的构成与传统的判别器一致,经过多层卷积提取特征后,通过池化层计算后,再通过全连接层后输出大小为的判别结果矩阵,将两个的判别结果矩阵拼接在一起,形成大小的辅助鉴别判断矩阵输出,从全局的方式去判断图像的真伪,维持生成目标的整体形状。而最终鉴别器的构成则与CycleGAN的判别器相似,从局部的方式去判断图像中每一小块的真伪,其最终输出大小为的判断结果矩阵,能够保持生成目标纹理的高细节、高分辨率。
最终鉴别器通过辅助鉴别器的卷积层、池化层以及全连接层计算后,从全局的方式利用CAM的原理来得出对目标前景加权的矩阵,再与相应的特征矩阵相乘后得到注意力特征矩阵,进而输入到最终判别器进行进一步的特征提取,使得最终判别器进一步收敛至判断前景目标而不是背景元素。
由
(5) |
(6) |
要获得相似的样本分布,鉴别器应当分辨出真实的图像与生成器、F生成的虚假图像,也就是及的值要接近0,及接近1,即越大越好;而生成器G则应当使生成的图像尽量可以骗过鉴别器,即及的值要接近1,也即越小越好,该最优值为0.5。
最终鉴别器输出所构成的生成对抗损失函数与CycleGAN一致,其数学表达式如
(7) |
(8) |
2.4 注意力引导下的循环一致性损失函数
为了防止网络在转换图像过程中,出现将域(域)所有图像都转换到域(域)中同一张图片的情况,我们引入了CycleGAN的循环一致性损失函数,其数学表达式由
(9) |
由于在循环一致映射中,本文希望图像能够从域转换到域的背景掩码图与从域恢复至域的背景掩码图保持一致,这样注意力掩码生成子模块能引导生成器更加精确地修改需要转换的目标。受循环一致性损失函数所启发,本文提出了针对于背景掩膜的循环一致性损失函数,其数学表达式如
(10) |
2.5 优化目标
上文介绍了各部分的损失函数,而模型完整的损失函数方程由6部分组成,如
(11) |
在图像转换任务中,要获得相似的样本分布,生成器、应当使生成的图像可以骗过鉴别器,而最终鉴别器、以及辅助鉴别器、则应当准确分辨出真实的图像与由生成器、生成的虚假图像,因此,生成器与鉴别器形成了对抗的关系。对于鉴别器、、以及,本文希望其辨别真实图像与生成器生成虚假图像的能力得到最大的提升,即为最优的鉴别器。在最优鉴别器的条件下,生成器、的优化目标是最小化图像的真实分布与模型生成图像分布之间的JS散度,以获得最优的图像转换映射路径,同时本文希望循环一致性损失函数值最小。因此,本文网络的整体优化目标方程如
(12) |
3 实验分析
3.1 基准模型
本文对两大类无匹配图像转换算法进行对比,一类为无注意力机制引导的图像转换模型,包括DualGAN[
3.2 数据集
本文采用3组无匹配的图像数据集对模型进行训练与测试,各个数据集的详细情况如
数据集 | 训练集/张 | 测试集/张 | 总计/张 |
---|---|---|---|
Horse2Zerba[ | 2 041 | 260 | 2 661 |
Apple2Orange[ | 2 016 | 514 | 2 530 |
Selfie2Anime[ | 6 800 | 200 | 7 000 |
3.3 参数设置
在训练阶段,本文对训练集图像进行随机水平翻转和裁剪为大小的操作。在测试阶段,本文将测试集图像缩放至大小。与CycleGAN一样,本文使用Adam optimizer[
3.4 评价指标
3.4.1 生成图像质量评价
Kernel Inception Distance(KID)[
3.4.2 模型复杂度评价
浮点运算Floating Point Operations(FLOPs)以及乘加运算Multiply Accumulate Operations(MACs)是常用的模型复杂度统计指标,它们能够统计数据通过网络模型所需要计算量的大小,即启用该模型时所需要的计算力。Parameters模型参数量也是描述模型复杂度的指标之一, Times为模型运行时实际消耗时间而Memory为模型训练时占用的实际显存空间,三者的数值越小,代表模型越优越。
3.5 消融实验
图6 有无本文生成、鉴别器以及背景掩码循环一致性损失函数对生成图像质量的影响。(a)原图; (b)无专用注意力引导的生成器; (c)无专用注意力引导的鉴别器; (d) 无背景掩码循环一致性损失函数; (e)三者都有。
Fig. 6 Effect of the generated image’s quality that with or without our generator, discriminator and cycle consistency loss function background mask. (a) Original image; (b) Generator without special attention-mechanism guided; (c) Discriminator without special attention-mechanism guided; (d) Without cycle consistency loss function of background mask; (e) All of three factors.
由
由
设置 | 无注意力引导生成器 | 无注意力引导鉴别器 | 无背景掩码循环一致性损失 | 三者都有 |
---|---|---|---|---|
FID | 107.23 | 92.24 | 86.05 | 57.54 |
图7 不同的系数在马转斑马任务上对生成图像质量的影响
Fig. 7 Effect of different λ-factors on the quality of the generated images on the horse-to-zebra task
设置 | FID |
---|---|
86.05 | |
(本文) | 57.54 |
79.58 |
由
图8 本文模型在苹果转橘子和橘子转苹果任务上生成的注意力掩码以及生成效果
Fig. 8 Attention mask and images generated by ours model on the apple to orange and orange to apple tasks
图9 本文模型在马转斑马和斑马转马任务上生成的注意力掩码以及生成效果
Fig. 9 Attention mask and images generated by ours model on the horse to zebra and zebra to horse tasks
由
3.6 量化结果
图10 不同模型在马与斑马互换任务上的表现。(a)原图; (b)CycleGAN; (c)RA; (d)DiscoGAN; (e)UNIT; (f)DualGAN; (g)UAIT; (h)AttentionGAN; (i)本文模型。
Fig. 10 Performance of different models on the horse-zebra interchange task. (a) Original image; (b)CycleGAN; (c)RA; (d)DiscoGAN; (e)UNIT; (f)DualGAN; (g)UAIT; (h)AttentionGAN; (i) Ours.
由于UAIT等模型引入了独立的通用注意力机制结构,大幅增加了模型的复杂度。虽然AttentionGAN模型提出的注意力机制与生成器共享参数层的结构,减少了模型的参数,但是,由于无基于注意力机制引导的鉴别器,使得生成器生成了许多虚假的幻纹,而本文提出的基于专用注意力机制引导的生成对抗网络不仅能够抑制和减少虚假的幻纹的生成,并且进一步缩小了模型的结构以及提升了生成图像的质量。
图11 不同模型在自拍与动漫互换任务上的表现。(a)原图; (b)CycleGAN; (c)UNIT; (d)MUNIT; (e)DRIT; (f)U-GAT-IT; (g)AttentionGAN; (h)本文模型。
Fig. 11 Performance of different models on the selfie-anime interchange task. (a) Original image; (b)CycleGAN; (c) UNIT; (d) MUNIT; (e) DRIT; (f) U-GAT-IT; (g) AttentionGAN; (h) Ours.
模型 | 苹果转橘子 | 橘子转苹果 | 马转斑马 | 斑马转马 |
---|---|---|---|---|
DiscoGAN[ | ||||
RA[ | ||||
DualGAN[ | ||||
UNIT[ | ||||
CycleGAN[ | ||||
UAIT[ | ||||
AttentionGAN[ | ||||
Ours |
模型 | 自拍转动漫 |
---|---|
CycleGAN[ | |
UNIT[ | |
MUNIT[ | |
DRIT[ | |
U-GAT-IT[ | |
AttentionGAN[ | |
Ours |
模型 | 马转斑马 |
---|---|
UNIT[ | |
CycleGAN[ | |
DA-GAN[ | |
TransGaGa[ | |
SAT[ | |
AttentionGAN[ | |
Ours |
模型 | 参数量/M | 浮点运算量/G | 乘法累加运算量/G | 训练时间(100张)/s | 占用显存(1批量)/MiB |
---|---|---|---|---|---|
X. Chen[ | 43.94 | 102.01 | 204.02 | 55 | 5 069 |
T. Hao[ | 29.22 | 74.67 G | 149.31 | 47 | 5 463 |
Ours | 29.49 | 65.50 | 131.00 | 36 | 3 669 |
得益于本文所提出的注意力掩码生成子模块与内容生成子模块高度共享参数的生成器结构,本文的模型复杂度最小,占用硬件显存资源最少,训练速度最快。
4 结论
本文提出了一种新的用于无匹配图像转换任务的基于双专用注意力机制引导的循环生成对抗网络(Dual-SAG-CycleGAN)。生成器由端到端的、基于专用注意力机制引导的前背景掩码图生成子模块和内容图生成子模块所构成,两者高度共享权重参数。其中,前景、背景掩码图生成子模块的组成仅需要在原有的内容生成器结构中添加一个额外的卷积层以及Softmax激活函数。为了引导前背景掩码生成子模块生成更加精准的掩码图以抑制生成器生成降低生成图像质量的无关背景内容,我们提出了背景掩码循环一致性损失函数并引入了基于CAM专用注意力机制引导的判别器结构。
实验证明,本文结构不仅能够实现自动转换图像相关目标前景的功能,并且拥有更短的训练时间、更低的硬件开销、更好的生成图像质量。本文方法与现有同类模型相比,网络模型参数量降低近32.8%,训练速度快34.5%,KID与FID最低分别可达1.13、57.54,拥有更高的成像质量。
但是,由于本文的基于CAM专用注意力机制引导的判别器不能非常精确地关注到感兴趣的区域,在某些复杂的场景上会以背景物作为判别依据,所以会导致生成器生成虚假的幻纹,这也是限制生成图像质量进一步提升的重要因素,所以,在后续的工作中,我们会重新设计一种新的判别器结构,设计一种识别能力更加精准的注意力机制模块来引导判别器,以提升判别器识别感兴趣区域的能力,使得网络生成图像的质量有更进一步提升。
- 2025年中科院分区表已公布!Scientific Reports降至三区
- 官方认定!CSSCI南大核心首批191家“青年学者友好期刊名单”
- 2023JCR影响因子正式公布!
- 国内核心期刊分级情况概览及说明!本篇适用人群:需要发南核、北核、CSCD、科核、AMI、SCD、RCCSE期刊的学者
- 我用了一个很复杂的图,帮你们解释下“23版最新北大核心目录有效期问题”。
- 重磅!CSSCI来源期刊(2023-2024版)最新期刊目录看点分析!全网首发!
- CSSCI官方早就公布了最新南核目录,有心的人已经拿到并且投入使用!附南核目录新增期刊!
- 北大核心期刊目录换届,我们应该熟知的10个知识点。
- 注意,最新期刊论文格式标准已发布,论文写作规则发生重大变化!文字版GB/T 7713.2—2022 学术论文编写规则
- 盘点那些评职称超管用的资源,1,3和5已经“绝种”了