深度学习应用篇 - 计算机视觉 - 图像分类 [2]:LeNet、AlexNet、VGG、GoogleNet、DarkNet 模型结构、实现、模型特点详细介绍
深度学习应用篇-计算机视觉-图像分类[2]:LeNet、AlexNet、VGG、GoogleNet、DarkNet 模型结构、实现、模型特点详细介绍
1.LeNet(1998)
LeNet 是最早的卷积神经网络之一<sup>[1]</sup>,其被提出用于识别手写数字和机器印刷字符。1998 年,Yann LeCun 第一次将 LeNet 卷积神经网络应用到图像分类上,在手写数字识别任务中取得了巨大成功。算法中阐述了图像中像素特征之间的相关性能够由参数共享的卷积操作所提取,同时使用卷积、下采样(池化)和非线性映射这样的组合结构,是当前流行的大多数深度图像识别网络的基础。
1.1 LeNet 模型结构
LeNet 通过连续使用卷积和池化层的组合提取图像特征,其架构如 图 1 所示,这里展示的是用于 MNIST 手写体数字识别任务中的 LeNet-5 模型:
第一模块:包含 5×5 的 6 通道卷积和 2×2 的池化。卷积提取图像中包含的特征模式(激活函数使用 Sigmoid),图像尺寸从 28 减小到 24。经过池化层可以降低输出特征图对空间位置的敏感性,图像尺寸减到 12。
第二模块:和第一模块尺寸相同,通道数由 6 增加为 16。卷积操作使图像尺寸减小到 8,经过池化后变成 4。
第三模块:包含 4×4 的 120 通道卷积。卷积之后的图像尺寸减小到 1,但是通道数增加为 120。将经过第 3 次卷积提取到的特征图输入到全连接层。第一个全连接层的输出神经元的个数是 64,第二个全连接层的输出神经元个数是分类标签的类别数,对于手写数字识别的类别数是 10。然后使用 Softmax 激活函数即可计算出每个类别的预测概率。
提示:
卷积层的输出特征图如何当作全连接层的输入使用呢?
卷积层的输出数据格式是,在输入全连接层的时候,会自动将数据拉平,
也就是对每个样本,自动将其转化为长度为的向量,
其中,一个 mini-batch 的数据维度变成了的二维向量。
1.2 LeNet 模型实现
LeNet 网络的实现代码如下:
1.3 LeNet 模型特点
卷积网络使用一个 3 层的序列组合:卷积、下采样(池化)、非线性映射(LeNet-5 最重要的特性,奠定了目前深层卷积网络的基础);
使用卷积提取空间特征;
使用映射的空间均值进行下采样;
使用或进行非线性映射;
多层神经网络(MLP)作为最终的分类器;
层间的稀疏连接矩阵以避免巨大的计算开销。
1.4 LeNet 模型指标
LeNet-5 在 MNIST 手写数字识别任务上进行了模型训练与测试,论文中提供的模型指标如 图 2 所示。使用 distortions 方法处理后,error rate 能够达到 0.8%。
参考文献
[1] Gradient-based learn- ing applied to document recognition.
2.AlexNet(2012)
AlexNet<sup>[1]</sup>是 2012 年 ImageNet 竞赛的冠军模型,其作者是神经网络领域三巨头之一的 Hinton 和他的学生 Alex Krizhevsky。
AlexNet 以极大的优势领先 2012 年 ImageNet 竞赛的第二名,也因此给当时的学术界和工业界带来了很大的冲击。此后,更多更深的神经网络相继被提出,比如优秀的 VGG,GoogLeNet,ResNet 等。
2.1 AlexNet 模型结构
AlexNet 与此前的 LeNet 相比,具有更深的网络结构,包含 5 层卷积和 3 层全连接,具体结构如 图 1 所示。
1)第一模块:对于的彩色图像,先用 96 个的卷积核对其进行卷积,提取图像中包含的特征模式(步长为 4,填充为 2,得到 96 个的卷积结果(特征图);然后以大小进行池化,得到了 96 个大小的特征图;
2)第二模块:包含 256 个的卷积和池化,卷积操作后图像尺寸不变,经过池化后,图像尺寸变成;
3)第三模块:包含 384 个的卷积,卷积操作后图像尺寸不变;
4)第四模块:包含 384 个的卷积,卷积操作后图像尺寸不变;
5)第五模块:包含 256 个的卷积和的池化,卷积操作后图像尺寸不变,经过池化后变成 256 个大小的特征图。
将经过第 5 次卷积提取到的特征图输入到全连接层,得到原始图像的向量表达。前两个全连接层的输出神经元的个数是 4096,第三个全连接层的输出神经元个数是分类标签的类别数(ImageNet 比赛的分类类别数是 1000),然后使用 Softmax 激活函数即可计算出每个类别的预测概率。
2.2 AlexNet 模型实现
基于 Paddle 框架,AlexNet 的具体实现的代码如下所示:
2.3 AlexNet 模型特点
AlexNet 中包含了几个比较新的技术点,也首次在 CNN 中成功应用了 ReLU、Dropout 和 LRN 等 Trick。同时 AlexNet 也使用了 GPU 进行运算加速。
AlexNet 将 LeNet 的思想发扬光大,把 CNN 的基本原理应用到了很深很宽的网络中。AlexNet 主要使用到的新技术点如下:
成功使用 ReLU 作为 CNN 的激活函数,并验证其效果在较深的网络超过了 Sigmoid,成功解决了 Sigmoid 在网络较深时的梯度弥散问题。虽然 ReLU 激活函数在很久之前就被提出了,但是直到 AlexNet 的出现才将其发扬光大。
训练时使用 Dropout 随机忽略一部分神经元,以避免模型过拟合。Dropout 虽有单独的论文论述,但是 AlexNet 将其实用化,通过实践证实了它的效果。在 AlexNet 中主要是最后几个全连接层使用了 Dropout。
在 CNN 中使用重叠的最大池化。此前 CNN 中普遍使用平均池化,AlexNet 全部使用最大池化,避免平均池化的模糊化效果。并且 AlexNet 中提出让步长比池化核的尺寸小的观点,这样池化层的输出之间会有重叠和覆盖,提升了特征的丰富性。
提出了 LRN 局部响应归一化层,对局部神经元的活动创建竞争机制,使得其中响应比较大的值变得相对更大,并抑制其他反馈较小的神经元,增强了模型的泛化能力。
使用 CUDA 加速深度卷积网络的训练,利用 GPU 强大的并行计算能力,处理神经网络训练时大量的矩阵运算。AlexNet 使用了两块 GTX 580 GPU 进行训练,单个 GTX 580 只有 3GB 显存,这限制了可训练的网络的最大规模。因此作者将 AlexNet 分布在两个 GPU 上,在每个 GPU 的显存中储存一半的神经元的参数。因为 GPU 之间通信方便,可以互相访问显存,而不需要通过主机内存,所以同时使用多块 GPU 也是非常高效的。同时,AlexNet 的设计让 GPU 之间的通信只在网络的某些层进行,控制了通信的性能损耗。
使用数据增强,随机地从 大小的原始图像中截取大小的区域(以及水平翻转的镜像),相当于增加了倍的数据量。如果没有数据增强,仅靠原始的数据量,参数众多的 CNN 会陷入过拟合中,使用了数据增强后可以大大减轻过拟合,提升泛化能力。进行预测时,则是取图片的四个角加中间共 5 个位置,并进行左右翻转,一共获得 10 张图片,对他们进行预测并对 10 次结果求均值。同时,AlexNet 论文中提到了会对图像的 RGB 数据进行 PCA 处理,并对主成分做一个标准差为 0.1 的高斯扰动,增加一些噪声,这个 Trick 可以让错误率再下降 1%。
2.4 AlexNet 模型指标
AlexNet 作为 ImageNet 2012 比赛的冠军算法,在 ImageNet 测试集上达到了 15.3% 的 top-5 error rate,远远超过第二名(SIFT+FVs)的 26.2% 。如 图 2 所示。
参考文献
[1] Imagenet classification with deep convolutional neural networks.
3.VGG(2012)
随着 AlexNet 在 2012 年的 ImageNet 大赛上大放异彩后,卷积神经网络进入了飞速发展的阶段。2014 年,由 Simonyan 和 Zisserman 提出的 VGG<sup>[1]</sup>网络在 ImageNet 上取得了亚军的成绩。VGG 的命名来源于论文作者所在的实验室 Visual Geometry Group,其对卷积神经网络进行了改良,探索了网络深度与性能的关系,用更小的卷积核和更深的网络结构,取得了较好的效果,成为了 CNN 发展史上较为重要的一个网络。VGG 中使用了一系列大小为 3x3 的小尺寸卷积核和池化层构造深度卷积神经网络,因为其结构简单、应用性极强而广受研究者欢迎,尤其是它的网络结构设计方法,为构建深度神经网络提供了方向。
3.1 VGG 模型结构
图 1 是 VGG-16 的网络结构示意图,有 13 层卷积和 3 层全连接层。VGG 网络的设计严格使用的卷积层和池化层来提取特征,并在网络的最后面使用三层全连接层,将最后一层全连接层的输出作为分类的预测。
VGG 中还有一个显著特点:每次经过池化层(maxpooling)后特征图的尺寸减小一倍,而通道数增加一倍(最后一个池化层除外)。
在 VGG 中每层卷积将使用 ReLU 作为激活函数,在全连接层之后添加 dropout 来抑制过拟合。使用小的卷积核能够有效地减少参数的个数,使得训练和测试变得更加有效。比如使用两层 卷积层,可以得到感受野为 5 的特征图,而比使用的卷积层需要更少的参数。由于卷积核比较小,可以堆叠更多的卷积层,加深网络的深度,这对于图像分类任务来说是有利的。VGG 模型的成功证明了增加网络的深度,可以更好的学习图像中的特征模式。
3.2 VGG 模型实现
基于 Paddle 框架,VGG 的具体实现如下代码所示:
3.3 VGG 模型特点
整个网络都使用了同样大小的卷积核尺寸和最大池化尺寸。
卷积的意义主要在于线性变换,而输入通道数和输出通道数不变,没有发生降维。
两个的卷积层串联相当于 1 个的卷积层,感受野大小为。同样地,3 个的卷积层串联的效果则相当于 1 个的卷积层。这样的连接方式使得网络参数量更小,而且多层的激活函数令网络对特征的学习能力更强。
VGGNet 在训练时有一个小技巧,先训练浅层的的简单网络 VGG11,再复用 VGG11 的权重来初始化 VGG13,如此反复训练并初始化 VGG19,能够使训练时收敛的速度更快。
在训练过程中使用多尺度的变换对原始数据做数据增强,使得模型不易过拟合。
3.4 VGG 模型指标
VGG 在 2014 年的 ImageNet 比赛上取得了亚军的好成绩,具体指标如 图 2 所示。图 2 第一行为在 ImageNet 比赛中的指标,测试集的 Error rate 达到了 7.3%,在论文中,作者对算法又进行了一定的优化,最终可以达到 6.8% 的 Error rate。
参考文献
[1] Very deep convolutional networks for large-scale image recognition.
4.GoogLeNet(2014)
GoogLeNet<sup>[1]</sup>是 2014 年 ImageNet 比赛的冠军,它的主要特点是网络不仅有深度,还在横向上具有“宽度”。从名字 GoogLeNet 可以知道这是来自谷歌工程师所设计的网络结构,而名字中 GoogLeNet 更是致敬了 LeNet。GoogLeNet 中最核心的部分是其内部子网络结构 Inception,该结构灵感来源于 NIN(Network In Network)。
4.1 GoogLeNet 模型结构
由于图像信息在空间尺寸上的巨大差异,如何选择合适的卷积核来提取特征就显得比较困难了。空间分布范围更广的图像信息适合用较大的卷积核来提取其特征;而空间分布范围较小的图像信息则适合用较小的卷积核来提取其特征。为了解决这个问题,GoogLeNet 提出了一种被称为 Inception 模块的方案。如 图 1 所示:
说明:
Google 的研究人员为了向 LeNet 致敬,特地将模型命名为 GoogLeNet。
Inception 一词来源于电影《盗梦空间》(Inception)。
图 1(a)是 Inception 模块的设计思想,使用 3 个不同大小的卷积核对输入图片进行卷积操作,并附加最大池化,将这 4 个操作的输出沿着通道这一维度进行拼接,构成的输出特征图将会包含经过不同大小的卷积核提取出来的特征,从而达到捕捉不同尺度信息的效果。Inception 模块采用多通路(multi-path)的设计形式,每个支路使用不同大小的卷积核,最终输出特征图的通道数是每个支路输出通道数的总和,这将会导致输出通道数变得很大,尤其是使用多个 Inception 模块串联操作的时候,模型参数量会变得非常大。
为了减小参数量,Inception 模块使用了图(b)中的设计方式,在每个 3x3 和 5x5 的卷积层之前,增加 1x1 的卷积层来控制输出通道数;在最大池化层后面增加 1x1 卷积层减小输出通道数。基于这一设计思想,形成了上图(b)中所示的结构。下面这段程序是 Inception 块的具体实现方式,可以对照图(b)和代码一起阅读。
提示:
可能有读者会问,经过 3x3 的最大池化之后图像尺寸不会减小吗,为什么还能跟另外 3 个卷积输出的特征图进行拼接?这是因为池化操作可以指定窗口大小,stride=1 和 padding=1,输出特征图尺寸可以保持不变。
Inception 模块的具体实现如下代码所示:
GoogLeNet 的架构如 图 2 所示,在主体卷积部分中使用 5 个模块(block),每个模块之间使用步幅为 2 的 3 ×3 最大池化层来减小输出高宽。
第一模块使用一个 64 通道的 7 × 7 卷积层。
第二模块使用 2 个卷积层:首先是 64 通道的 1 × 1 卷积层,然后是将通道增大 3 倍的 3 × 3 卷积层。
第三模块串联 2 个完整的 Inception 块。
第四模块串联了 5 个 Inception 块。
第五模块串联了 2 个 Inception 块。
第五模块的后面紧跟输出层,使用全局平均池化层来将每个通道的高和宽变成 1,最后接上一个输出个数为标签类别数的全连接层。
说明:在原作者的论文中添加了图中所示的 softmax1 和 softmax2 两个辅助分类器,如下图所示,训练时将三个分类器的损失函数进行加权求和,以缓解梯度消失现象。
4.2 GoogLeNet 模型实现
GoogLeNet 的具体实现如下代码所示:
4.3 GoogLeNet 模型特色
采用不同大小的卷积核意味着不同大小的感受野,最后通过拼接实现不同尺度特征的融合;
之所以卷积核大小采用 1、3 和 5,主要是为了方便对齐。设定卷积步长 stride=1 之后,只要分别设定 pad=0、1、2,那么卷积之后便可以得到相同维度的特征,然后这些特征就可以直接拼接在一起了;
网络越到后面,特征越抽象,而且每个特征所涉及的感受野也更大了,因此随着层数的增加,3x3 和 5x5 卷积的比例也要增加。但是,使用 5x5 的卷积核仍然会带来巨大的计算量。 为此,文章采用 1x1 卷积核来进行降维。
4.4 GoogLeNet 模型指标
GoogLeNet 在 2014 年的 ImageNet 比赛上取得了冠军的好成绩,具体指标如 图 3 所示。在测试集上 Error rate 达到了 6.67%。
参考文献
[1] Going deeper with convolutions.
5.DarkNet(YOLOv2、3)
在目标检测领域的 YOLO 系列算法中,作者为了达到更好的分类效果,自己设置并训练了 DarkNet 网络作为骨干网络。其中,YOLOv2<sup>[1]</sup>首次提出 DarkNet 网络,由于其具有 19 个卷积层,所以也称之为 DarkNet19。后来在 YOLOv3<sup>[2]</sup>中,作者继续吸收了当前优秀算法的思想,如残差网络和特征融合等,提出了具有 53 个卷积层的骨干网络 DarkNet53。作者在 ImageNet 上进行了实验,发现相较于 ResNet-152 和 ResNet-101,DarkNet53 在分类精度差不多的前提下,计算速度取得了领先。
5.1 DarkNet 模型结构
5.1.1 DarkNet19
DarkNet19 中,借鉴了许多优秀算法的经验,比如:借鉴了 VGG 的思想,使用了较多的卷积,在每一次池化操作后,将通道数翻倍;借鉴了 network in network 的思想,使用全局平均池化(global average pooling)做预测,并把的卷积核置于的卷积核之间,用来压缩特征;同时,使用了批归一化层稳定模型训练,加速收敛,并且起到正则化作用。DarkNet19 的网络结构如 图 1 所示。
DarkNet19 精度与 VGG 网络相当,但浮点运算量只有其 左右,因此运算速度极快。
5.1.2 DarkNet53
DarkNet53 在之前的基础上,借鉴了 ResNet 的思想,在网络中大量使用了残差连接,因此网络结构可以设计的很深,并且缓解了训练中梯度消失的问题,使得模型更容易收敛。同时,使用步长为 2 的卷积层代替池化层实现降采样。DarkNet53 的网络结构如 图 2 所示。
考虑到当前 Darknet19 网络使用频率较低,接下来主要针对 Darknet53 网络进行实现与讲解。
5.2 DarkNet 模型实现
基于 Paddle 框架,DarkNet53 的具体实现的代码如下所示:
5.3 DarkNet 模型特点
DarkNet53 模型使用了大量的残差连接,缓解了训练中梯度消失的问题,使得模型更容易收敛。
DarkNet53 模型使用步长为 2 的卷积层代替池化层实现降采样。
5.4 DarkNet 模型指标
在 YOLOv3 论文中,作者在 ImageNet 数据集上对比了 DarkNet 网络与 ResNet 网络的精度及速度,如图 3 所示。可以看到 DarkNet53 的 top-5 准确率可以达到 93.8%,同时速度也明显超过了 ResNet101 和 ResNet152。
更多文章请关注公重号:汀丶人工智能
参考文献
[1] YOLO9000: Better, Faster, Stronger
版权声明: 本文为 InfoQ 作者【汀丶人工智能】的原创文章。
原文链接:【http://xie.infoq.cn/article/4ca74dc7244fec0e42a2e28f3】。
本文遵守【CC-BY 4.0】协议,转载请保留原文出处及本版权声明。
评论