恒源云 _【Object Detection 20 年】小结

作者：恒源云

2022 年 1 月 25 日
本文字数：2376 字
阅读完需：约 8 分钟

文章来源 | 恒源云社区

原文地址 | “Salute！” Object Detection 20年前三章小结

原文作者 | 小幸运

Object Detection 20 年

这是 19 年末发表的一篇文章，里面提到的有些技术以现在眼光来看可能有些过时，但是我个人认为依然是一篇很好的启蒙时读物。倘若将里面每个知识点掰开嚼碎，一点点吸收。这有助于你对目标检测有一个系统性了解。

第一章目标检测的里程碑

可以用一张很经典的图来表示目标检测的发展史

1.概要

2012 年是深度学习的元年，那一年 AlexNet 使用卷积神经网络，打破机器学习的极限。从此开启深度学习年代。

2.技术总结

2014 年 RCNN 的发布开启了目标检测的时代，然后目标检测开启三分天下的局面，一是以RCNN为代表的 two-stage detector，一是以 yolo 为代表的one-stage detector，最后是以 ssd 为代表的中间派，准确度介于两者之间。

第二章

2.SPPNET

2014 年， K. He 等人提出了空间金字塔网络(SPPNet)。以前的 CNN 模型需要一个固定大小的输入，例如，AlexNet 的 224x224 图像。SPPNet 的主要贡献是引入了 Spatial Pyramid Pooling (SPP)层，这使得 CNN 可以生成固定长度的输出形式，而与输入的图像大小无关，而无需对其进行重新缩放。使用 SPPNet 进行目标检测分割时，只需要进行一次特征提取，然后生成任意尺寸的特征层，用于训练，有效的避免了重复计算卷积特征。SPPNet 比 R-CNN 快 20 倍以上，而且不牺牲任何探测精度(VOC07 mAP = 59.2%)。

尽管 SPPNet 有效地提高了检测速度，但仍然存在一些**缺点**：首先，训练仍然是多阶段的，其次，SPPNet 仅微调其全连接的层，而忽略了先前的所有层。第二年以后，Fast R-CNN 提出并解决了这些问题。

2.1.1 传统检测器

N. Dalal 和 B. Triggs [12]最初于 2005 年提出了定向梯度直方图（HOG）特征描述器。 HOG 可被认为是其时间尺度不变特征变换[33，34]和形状上下文[35]的重要改进。为了平衡特征不变性（包括平移，缩放，照度等）和非线性（区分不同的对象类别），将 HOG 描述符设计为在均匀间隔的像元的密集网格上进行计算，并使用重叠的局部对比度归一化（在“块”上）以提高准确性。尽管 HOG 可用于检测各种对象类别，但它主要是由行人检测问题引起的。为了检测不同大小的物体，HOG 检测器会多次缩放输入图像，同时保持检测窗口的大小不变。多年来，HOG 检测器一直是许多对象检测器[13、14、36]和各种计算机视觉应用的重要基础。

HOG （转至https://zhuanlan.zhihu.com/p/40960756）

2.1.2 Milestones: CNN based Two-stage Detectors

在 2012 年，世界见证了卷积神经网络的重生[40]。由于深度卷积网络能够学习图像的鲁棒（鲁棒性代表这该模型的稳定性以及扛干扰性，如果在迁移学习中还可以代表该模型的可迁移性）。有一个例子可以加深理解且高级的特征表示，因此自然而然的问题是,我们是否可以将其用于对象检测？ R. Girshick 等通过提出 Regions with CNN features（RCNN）来检测物体，率先打破了僵局。从那时起，物体检测开始以前所未有的速度发展。

在深度学习时代，对象检测可以分为两类：“Two-stage 检测”和“One-stage 检测”，其中前者将检测过程称为“从粗到精”过程，而后者则将其视为“一步完成”。

RCNN 背后的思想很简单：它始于通过 selective search 提取一组object proposals(object candidate boxes)[42]。然后将每个 proposal 重新缩放为固定大小的图像，并输入到 ImageNet 上训练的 CNN 模型中（例如 AlexNet [40]）以提取特征。最后，线性 SVM 分类器用于预测每个区域内对象的存在并识别对象类别.

尽管 RCNN 取得了长足的进步，但它的缺点也很明显：对大量重叠的 proposals（从一张图像中提取 2000 多个框）进行冗余特征计算会导致极慢的检测速度（使用 GPU，每张图像 14s）。同年晚些时候，SPPNet 提出并克服了这个问题。

总结：

selective search ——> rescale proposal ——> CNN 提取特征 ——> SVM 分类

参考：

目标检测(1)Selective Search

2.1.3 Milestones: CNN based One-stage Detectors

3 FAST R-CNN

在 2015 年，R，Girshick 提出了 Fast R-CNN 检测器，这是对 R-CNN 和 SPPNet 的进一步改进。Fast R-CNN 使我们能够在相同的网络配置下同时训练一个 detector 和一个 bounding box regressor。在 VOC07 数据集上，Fast RCNN 将 mAP 从 58.5％（R-CNN）提高到 70.0％，同时检测速度比 R-CNN 快 200 倍。

尽管 Fast-RCNN 成功地集成了 R-CNN 和 SPPNet 的优点，但其检测速度仍然受到提议检测的限制。然后，自然会产生一个问题：“我们可以使用 CNN 模型生成 object proposals 吗？” 后来，Faster R-CNN 回答了这个问题。

4 FASTER R-CNN

2015 年，S.Ren 等人在 Fast RCNN 之后不久，提出了 Faster RCNN 检测器。Faster RCNN 是第一个端到端和第一个近实时深度学习探测器。Faster-RCNN 的主要贡献是引入了 Region Proposal Newwork（RPN），该网络使几乎无代价的 region proposal 成为可能。从 R-CNN 到 Faster RCNN，对象检测系统的大多数独立模块，例如提议检测，特征提取，边界框回归等，已逐步集成到统一的端到端学习框架中。

尽管 Faster RCNN 突破了 Fast RCNN 的速度瓶颈，但在后续检测阶段仍存在计算冗余。后来，人们提出了各种改进措施，包括 RFCN 和 Light head RCNN 。

5 FEATURE PYRAMID NETWORKS（FPN）

2017 年，T.-Y.Lin 等人提出了基于 Faster RCNN 的特征金字塔网络(FPN)。在 FPN 之前，大多数基于深度学习的检测器只在卷积网络的顶层进行特征提取。尽管卷积神经网络深层特征有利于类别识别，但不利于对象的定位。因此，开发了具有横向连接的自顶向下架构 FPN，用于在所有规模上构建高级特征。由于 CNN 通过其前向传播自然形成一个特征金字塔，FPN 在多尺度下检测目标方面显示了巨大的进步。在一个基本的快速 R-CNN 系统中使用 FPN，它在(COCO mAP@.5 = 59.1% ，COCO mAP@[.5，.95] = 36.2%)的情况下，实现了最先进的单模型检测结果。FPN 现在已经成为许多最新探测器的基本组成部分。FPN faster-RCNN的训练过程以及关键点总结

未完待续……

发布于: 刚刚阅读数: 2

恒源云

关注

专注人工智能云GPU服务器训练平台 2020.12.25 加入

还未添加个人简介

发布

暂无评论

创作场景