聊聊池化层和步长为 2 的卷积层
本文分享自华为云社区《对于池化层和步长为2的卷积层的一些思考》,作者: 李长安。
引言
对于池化层和步长为 2 的卷积层的思考源于前一段时间对于 2.0 文档 API 的评估。自从 ResNet 开始,大家逐渐使用步长为 2 的卷积层替代 Size 为 2 的池化层,二者都是对特征图进行下采样的操作。池化层的主要意义(目前的主流看法,但是有相关论文反驳这个观点)在于 invariance(不变性),这个不变性包括平移不变性、尺度不变性、旋转不变形。其过程如下图所示。
对于池化层和步长为 2 的卷积层来说,个人的理解是这样的,池化层是一种先验的下采样方式,即人为的确定好下采样的规则;而对于步长为 2 的卷积层来说,其参数是通过学习得到的,采样的规则是不确定的。下面对两种下采样方式进行一组对比实验,实验设计的可能不够严谨,欢迎大家在评论区讨论。
实验设计
本次对比实验采用 LeNet 进行对比,目的在于简单的说明池化层与步长为 2 的卷积层之前的区别。采用 MNIST 数据集。
1、导入 paddle,使用 2.0 版本的 paddle
2、导入训练数据和测试数据
3、查看数据
4、构建 LeNet5 网络
5、模型封装与配置
6、模型训练,这里进行 10 次迭代
7、验证模型
8、构建使用步长为 2 的卷积层替代池化层的 LeNet5
9、模型配置与训练
10、模型验证
实验结果分析
从两者在 MNIST 测试集上的结果来看,使用步长为 2 的卷积层替代池化层,其模型的表现略高于原始的 LeNet5。表明使用卷积层代替池化层是对模型表现有较好的提升。但是改进之后的 LeNet5 在参数量上是高于原始的 LeNet5 的,
11、参数量对比
总结
(1)从图像成像角度来看,图像在成像过程中接收模拟信号变成电信号再存储的阵列都不是同时的。即图片上每一点都是有时序的。结合图像的时域信息进行多模态训练可能会有突破。
(2)在图像中应用香农定理,下采样越多,信息丢失越多,对于 CNN 中池化层的讨论,大家可以参考:CNN 真的需要下采样(上采样)吗?
(3)对于池化层不一样的看法,证伪:CNN 中的图片平移不变性
(4)实际上已经有众多大佬对这个进行过论证,但是对于大家来说,自己动手永远比听别人讲来得更好,希望能和大家一起成长。
版权声明: 本文为 InfoQ 作者【华为云开发者联盟】的原创文章。
原文链接:【http://xie.infoq.cn/article/74ea2f578fe636ed31dea94bd】。文章转载请联系作者。
评论