CoordConv:给你的卷积加上坐标
本文分享自华为云社区《CoordConv:给你的卷积加上坐标》,作者: 李长安。
一、理论介绍
CoordConv 理论详解
这是一篇考古的论文复现项目,在 2018 年 Uber 团队提出这个 CoordConv 模块的时候有很多文章对其进行批评,认为这个不值得发布一篇论文,但是现在重新看一下这个 idea,同时再对比一下目前 Transformer 中提出的位置编码(Position Encoding),你就会感概历史是个圈,在角点卷积中,为卷积添加两个坐标编码实际上与 Transformer 中提出的位置编码是同样的道理。
众所周知,深度学习里的卷积运算是具有平移等变性的,这样可以在图像的不同位置共享统一的卷积核参数,但是这样卷积学习过程中是不能感知当前特征在图像中的坐标的,论文中的实验证明如下图所示。通过该实验,作者证明了传统卷积在卷积核进行局部运算时,仅仅能感受到局部信息,并且是无法感受到位置信息的。CoordConv 就是通过在卷积的输入特征图中新增对应的通道来表征特征图像素点的坐标,让卷积学习过程中能够一定程度感知坐标来提升检测精度。
传统卷积无法将空间表示转换成笛卡尔空间中的坐标和 one-hot 像素空间中的坐标。卷积是等变的,也就是说当每个过滤器应用到输入上时,它不知道每个过滤器在哪。我们可以帮助卷积,让它知道过滤器的位置。这一过程需要在输入上添加两个通道实现,一个在 i 坐标,另一个在 j 坐标。通过上面的添加坐标的操作,我们可以的出一种新的卷积结构–CoordConv,其结构如下图所示:
二、代码实战
本部分根据 CoordConv 论文并参考飞桨的官方实现完成 CoordConv 的复现。
CoordConv 类代码实现
首先继承 nn.Layer 基类,其次使用paddle.arange
定义gx``gy
两个坐标,并且停止它们的梯度反传gx.stop_gradient = True
,最后将它们 concat 到一起送入卷积即可。
总结
相信通过之前的教程,相信大家已经能够熟练掌握了迅速开启训练的方法。所以,之后的教程我都会关注于具体的代码实现以及相关的理论介绍。如无必要,不再进行对比实验。本次教程主要对 CoordConv 的理论进行了介绍,对其进行了复现,并展示了其在网络结构中的用法。大家可以根据的实际需要,将其移植到自己的网络中。
一些需要注意的点
CoordConv 的位置在网络中应该尽量靠前
最好的应用方向是姿态估计等对位置高度敏感的 CV 任务
版权声明: 本文为 InfoQ 作者【华为云开发者联盟】的原创文章。
原文链接:【http://xie.infoq.cn/article/f3d2b83255a264f5ea21be6e7】。文章转载请联系作者。
评论