AI 简报 - 增强版 GAN 图像超分:ESRGAN
1. 意图
ESRGAN: Enhanced Super-Resolution Generative Adversarial Networks (RRDBNet)
分析了 SRGAN 算法结果与真实图片(GT)之间的差距,特别是感知 Loss 可能会产生不可预知的人造的纹理。提出三个方面的改进
在生成网络中加入 Residual-in-Residual Dense Block (RDDB) 使得网络容量更大更好训练。同时移除了 BN,
在判别网络中采用 Relativistic average GAN(RaGAN),不只是判断是否是真实的图片,而是判断是否更真实
在 perceptual loss 的特征选择上,采用了 VGG 特征 在 activate 之前的特征
2. 网络结构
2.1 总体结构图
其中basic blocks
可以是残差 residual block, dense block 或者 Residual-in-Residual Dense Block
2.2 Residual in Residual Dense Block (RRDB)
residual block 中去除的 BN, BN 中保留了训练数据的均值和方差,研究表明训练和测试在均值方差存在差异的情况,模型会产生异常的人造纹理。论文实验表明 BN 在更深的网络和 GAN 训练这种现象比较明显。同时还可以降低计算量
在 residual block 中加入 dense block
3 Relativistic Discriminator(RaGAN)
RaGAN 不只是判断是否是真实的图片,而是判断是否更真实, 预测的是真实图片相对于假的图片更真实的程度概率。论文实验表明能够生成更锐化的边缘和真实的纹理。图中 E 是表示训练 batch 中图片的均值操作。
2.4 Perceptual Loss 选择
采用了 VGG 特征 在 activate 之前的特征, 论文指出 activate 之后的特征很稀疏,导致提供较弱的监督,另外实验表明稀疏会导致重构图像中亮度的差异。
2.5 网络插值
论文采用了 PSNR-oriented 的网络,然后再此基础上微调 GAN 的网络, 最终两个模型进行参数插值,来得到去噪的目的
3. 训练
mini-batch size:16
HR:128*128
训练分为两个阶段
PSNR-oriented model with the L1 loss:lr=2e-4
PSNR-oriented model as an initialization for the generator: lr=1e-4 halved 50k 100k 200k 300k
优化器:Adam 0.9/0.999
RRDB 数量:23 个
RD 数据:16 个
训练数据:DIV2K, 后期加入 Flickr2K,更多的数据能够学习到更丰富的纹理
4.结果
对比实验
版权声明: 本文为 InfoQ 作者【AIWeker-人工智能微客】的原创文章。
原文链接:【http://xie.infoq.cn/article/4bac7bcd98c51d0953dc79a83】。文章转载请联系作者。
评论