OctConv:八度卷积复现
本文分享自华为云社区《OctConv:八度卷积复现》,作者:李长安 。
论文解读
八度卷积于 2019 年在论文《Drop an Octave: Reducing Spatial Redundancy in Convolutional Neural Networks with Octave Convol》提出,在当时引起了不小的反响。八度卷积对传统的 convolution 进行改进,以降低空间冗余。其中“Drop an Octave”指降低八个音阶,代表频率减半。
不同于传统的卷积,八度卷积主要针对图像的高频信号与低频信号。首先,我们回忆一下数字图像处理中的高频信号与低频信号的概念。图像中的低频信号和高频信号也叫做低频分量和高频分量。图像中的高频分量,指的是图像强度(亮度/灰度)变化剧烈的像素点,例如边缘(轮廓)、图像的细节处、噪声(即噪点)(该点之所以称为噪点,是因为它与周边像素点灰度值有明显差别,也就是图像强度有剧烈的变化,所以噪声是高频部分)。图像中的低频分量,指的是图像强度(亮度/灰度)变换平缓的像素点,例如大片色块的地方。例如当我们在读书的时候,我们会聚焦于书上的文字而不是书纸本身,这里的文字就是高频分量,白纸即为低频分量。
下图是论文中给出的例子,左图是原图,中图表示低频信号,右图表示高频信号。
在论文中,作者提出较高的频率通常用精细的细节编码,较低的频率通常用全局结构编码。所以作者认为那么既然图像分为高低频,那么卷积产生的特征图自然也存在高低频之分。在图像处理中,模型通过高频特征图去学习图像包含的信息,因为它包含了轮廓、边缘等的信息,有助于进行显著性检测。相反,低频特征图包含的信息较少。如果我们用相同的处理方法来处理高频特征图和低频特征图,显然,前者的效益是远大于后者的。这就是特征图的冗余信息:包含信息较少的低频部分。所以在论文中作者提出了一种分而治之的方法,称之为 Octave Feature Representation,对高频特征图与低频特征图分离开来进行处理。如下图所示,作者将低频特征图的分辨率降为 1/2,这不仅有助于减少冗余数据,还有利于得到全局信息。
根据尺度空间理念,我们可以知道特征具有尺度不变性和旋转不变性。
尺度不变性:人类在识别一个物体时,不管这个物体或远或近,都能对它进行正确的辨认,这就是所谓的尺度不变性。
旋转不变性:当这个物体发生旋转时,我们照样可以正确地辨认它,这就是所谓的旋转不变性。
当用一个机器视觉系统分析未知场景时,计算机没有办法预先知识图像中物体尺度,因此,我们需要同时考虑图像在多尺度下的描述,获知感兴趣物体的最佳尺度。例如,高分辨率的图是人近距离的观察得到的,低分辨率的图是远距离观察得到的。
2、复现详情
2.1 Oct-Conv 复现
为了同时做到同一频率内的更新和不同频率之间的交流,卷积核分成四部分:
高频到高频的卷积核
高频到低频的卷积核
低频到高频的卷积核
低频到低频的卷积核
下图直观地展示了八度卷积的卷积核,可以看出四个部分共同组成了大小为 k*k 的卷积核。其中,in 和 out 分别表示输入和输出特征图的相关属性,在这篇文章中,输入的低频占比、通道数量都和输出的一致。
在了解了卷积核之后,下面介绍输入如何进行八度卷积操作得到输出结果。如下图所示,低频和高频的输入经过八度卷积操作得到了低频和高频的输出。红色表示高频,蓝色表示低频。绿色的箭头表示同一频率内的更新,红色的箭头表示不同频率之间的交流。
H 和 W 分别表示特征图的长宽,可以看出低频特征图的长宽都是高频特征图的一半。因为分辨率不同,所以不同频率之间交流之前需要进行分辨率的调整:高频到低频需要进行池化(降采样)操作;低频到高频需要进行上采样操作。
2.2 Oct-Mobilnetv1 复现
Oct-Mobilnetv1 的复现即将 Mobilnetv1 中的原始的 Conv2D 替换为 Oct-Conv,其他均保持不变,在后面打印了 Oct-Mobilnetv1 的网络结构以及参数量,方便大家查看。
2.3 OctResNet 的复现
Oct-ResNet 的复现即将 ResNet 中的原始的 Conv2D 替换为 Oct-Conv,其他均保持不变,在后面打印了 Oct-ResNet 的网络结构以及参数量,方便大家查看。
3、对比实验
实验数据:Cifar10
CIFAR-10 是由 Hinton 的学生 Alex Krizhevsky 和 Ilya Sutskever 整理的一个用于识别普适物体的小型数据集。一共包含 10 个类别的 RGB 彩色图 片:飞机( a 叩 lane )、汽车( automobile )、鸟类( bird )、猫( cat )、鹿( deer )、狗( dog )、蛙类( frog )、马( horse )、船( ship )和卡车( truck )。图片的尺寸为 32×32 ,数据集中一共有 50000 张训练圄片和 10000 张测试图片。 CIFAR-10 的图片样例如图所示。
3.1 Oct_MobilNetv1 模型网络结构可视化
3.2 Oct_MobilNetV1 模型训练
3.3 MobileNetV1 模型网络结构可视化
3.4 MobileNetV1 模型训练
3.5 Oct_ResNet50 模型网络结构可视化
3.6 Oct_ResNet50 模型训练
3.7 ResNet50 模型网络结构可视化
3.8 ResNet50 模型训练
3.9 实验结果
本小节提供消融实验的结果以及可视化训练结果,共计包含四个实验,分别为 octmobinetv1、mobinetv1、octresnet50 以及 resnet50 在数据集 Cifar10 上的结果对比。
<style> table { margin: auto; } </style>
图 1:Oct_MobileNetV1 对比实验结果图
图 2:Oct_ResNet50 对比实验结果图
4、参考资料
Drop an Octave: Reducing Spatial Redundancy in Convolutional Neural Networks with Octave Convolution
5、总结
目前我们得到的结论与论文中的结论不符,论文提供的代码为 MXnet 框架,本复现参考了 PyTorch 版本的复现,不能确定是否为框架原因,或者一些训练设置原因,比如初始化方式或模型迭代次数不够,有待查证,大家感兴趣的也可以就这个问题与我在评论区进行交流。
版权声明: 本文为 InfoQ 作者【华为云开发者联盟】的原创文章。
原文链接:【http://xie.infoq.cn/article/0a177e10fc92c8fdbefd10110】。文章转载请联系作者。
评论