AI 简报 - 视频超分 BasicVSR
1.意图
basicVSR:The Search for Essential Components in Video Super-Resolution and Beyond,作根据前人的工作,将视频超分的拆分成 4 个组成部分:
propagation: 信息的传递,视频超分的特点就是可以前后多帧的信息,如果有效利用多帧信息
alignment:矫正操作,由于需要聚合,多帧之间是存在像素位差,直接需要矫正匹配之后再聚合
aggregation:聚合,可以理解为多帧的信息聚合操作
upsampling:上采样,这个是所有超分基本操作
作者通过研究这 4 个部分如何更加有效,从而提高 VSR 的性能,之所以称之为 basicVSR,是因为作者认为可以以此分析方法为基础,改进和优化更多的 4 个部分,得到更好的模型。
2.basicVSR 如何修改
basicVSR 指出在 propagation 和 alignment 做出调整,可以有效的提高性能,具体如下:
propagation:采用双向的传播能更好的融合序列帧的信息(这在 RNN 其实很普遍),文章做了实验对比,如果是单向的信息传递,会造成不同位置的帧信息不同,造成效果不均衡,如第一帧只能利用自己的信息,最后一帧可以利用前面所有的信息。
alignment:矫正其实也比较好理解,文章研究不矫正和图片矫正,指出这两种结果的 PSNR 的降低,文章中采用特征矫正
调整后双向传播的结构如下:
可以看出模型输入是序列(比如 15 帧),经过一个正向(forward)信息流(当前值帧和前一帧),又有一个反向(backward)信息流(当前帧和后一帧),两路流经过聚合,经过上采样得到当前帧的超分图。
双向的信息流的结构如下:
每个信息流包括三个部分光流估计 S,矫正 W 和 R 是多个残差模块
3.训练
训练数据集:REDS 和 Vimeo-90K,这两个都是视频数据集
测试集:Vid4 UDM10 和 Vimeo-90K-T
降质操作:BI 和 BD 即 4x bicubic 和 blur+下采样
Adam optimizer 和 Cosine Annealing
光流估计预训练网络 Spynet
学习率:光流估计预训练网络 Spynet(10e-4),其他为 2*10e-4
迭代次数:300K, 前 5000 次,Spynet 预训练权重不变
batch size 为 8, LR 大小为 64
输入为 15 帧(5 维数组 batch,15,channel, h, w)
输出为 15 帧
loss 为:l2 loss 加入正则项(Charbonnier loss),loss 为 15 帧的 loss
github:https://github.com/xinntao/BasicSR
4.结果
怎么说呢,结果是和视频超分的做了比较,没有和单图的超分做比较,其实有必要做一个比较,单独超分用在视频中和直接用视频利用多帧信息到底有没有有效利用到多帧的信息。
5.BasicVSR++
在 basicvsr 基础上,又出了一个 BasicVSR++(BasicVSR++: Improving Video Super-Resolution with Enhanced Propagation and Alignment)。也是在帧信息利用上和矫正上做了增强调整。
解决了 BasicVSR 的两个局限问题:(1) 我们采用网格方式集成更多样的双向传播;(2) 放松了 BasicVSR 中的一阶马尔可夫属性假设,将二阶连接引入到网络中。这种改进可以改善信息流动,提升模型对于遮挡的鲁棒性;BasicVSR 验证了光流对于时序对齐的重要性。然而,光流对于遮挡不够鲁棒。形变对齐在 VSR 中表现出了优异性能,但难以训练。为充分利用形变对齐的特性并客服训练不稳定问题,提出了光流引导形变对齐的方式提高性能。
github:https://github.com/open-mmlab/mmediting
版权声明: 本文为 InfoQ 作者【AIWeker-人工智能微客】的原创文章。
原文链接:【http://xie.infoq.cn/article/26020049124b8acdf485e2047】。文章转载请联系作者。
评论