写点什么

ABCNet:端到端的可训练框架的原理应用及优势对比

  • 2022-11-07
    上海
  • 本文字数:3261 字

    阅读完需:约 11 分钟

ABCNet


ABCNet(Adaptive Bezier Curve Network)是一个端到端的可训练框架,用于识别任意形状的场景文本。直观的 pipeline 如图所示。采用了单点无锚卷积神经网络作为检测框架。移除锚定箱可以简化我们任务的检测。该算法在检测头输出特征图上进行密集预测,检测头由 4 个步长为 1、填充为 1、3×3 核的叠层卷积层构成。

接下来,分两部分介绍拟议的 ABCNet 的关键组成部分:

1) 贝塞尔曲线检测

2) bezier align 和识别分支。


ABCNet 算法原理:

Bezier Curve Detection

为了简化任意形状的场景文本检测,采用回归方法,我们认为贝塞尔曲线是曲线文本参数化的理想概念。Bezier 曲线表示一个以伯恩斯坦多项式为基的参数曲线 c (t)。其定义如式(1)所示。


式中,n 表示度数,bi 表示第 i 个控制点,表示伯恩斯坦基多项式,如式(2)所示:


其中


是二项式系数。为了用贝塞尔曲线确定文本的任意形状,我们从现有的数据集中全面地观察任意形状的场景文本。在现实世界中,我们通过经验证明,三次贝塞尔曲线(即 n 为 3)在实践中对不同类型的任意形状的场景文本是足够的。三次贝塞尔曲线如图所示。



Bezier Ground Truth Generation

在本节中,将简要介绍如何基于原始注释生成贝塞尔曲线地面真值。任意形状的数据集,例如 Total text 和 CTW1500,对文本区域使用多边形注释。给定曲线边界上的注记点,其中 pi 表示第 i 个注记点,主要目标是获得方程(1)中三次 Bezier 曲线 c(t)的最佳参数。为此,可以简单地应用标准最小二乘法,如等式(4)所示:


这里 m 表示曲线边界的注释点数量。对于 total-text 和 ctw1500,m 分别为 5 和 7。t 是通过使用累积长度与多段线周长的比率来计算的。根据方程(1)和方程(4),我们将原始的多段线注释转换为参数化的贝塞尔曲线。注意,我们直接使用第一个和最后一个注释点分别作为第一个(b0)和最后一个(b4)控制点。可视化比较如图 5 所示,其结果表明,生成的结果在视觉上甚至比原始地面真实性更好。此外,基于结构化的 Bezier 曲线边界框,可以很容易地使用前文中描述的 Bezier 对齐将曲线文本扭曲成水平格式,而不会产生明显的变形。Bezier 曲线生成结果的更多示例如图所示。ABCNet 方法的简单性允许它在实践中推广到不同类型的文本。




Bezier Curve Synthetic Dataset


对于端到端的场景文本识别方法,总是需要大量的自由合成数据,如表 2 所示。然而,现有的 800k SynText 数据集只为大多数直文本提供四边形边界框。为了丰富和丰富任意形状的场景文本,我们尝试用 VGG 合成方法合成了 150k 个合成数据集(94723 个图像包含大部分直线文本,54327 个图像包含大部分曲线文本)。特别地,从 COCO 文本中过滤出 40k 个无文本背景图像,然后用[32]和[17]准备每个背景图像的分割遮罩和场景深度,用于以下文本渲染。为了扩大合成文本的形状多样性,对 VGG 合成方法进行了改进,将场景文本与各种艺术字体和语料库合成,并对所有文本实例生成多边形标注。然后使用注释通过 Bezier Ground Truth Generation 中描述的生成方法生成 Bezier Ground Truth 。综合数据的示例如图 8 所示。


Bezier Align

为了实现端到端训练,以往的大多数方法都采用了各种采样(特征对齐)的方法来连接识别分支。通常,一个采样方法表示一个网络内的区域裁剪过程。换句话说,给定一个特征图和感兴趣区域(RoI),使用抽样方法来选择 RoI 的特征,并有效地输出一个固定大小的特征图。 然而,以往基于非分割的方法的采样方法,如 RoI Pooling , RoIRotate , Text-Align-Sampling or RoI Transform ,都不能正确地对齐任意形状文本的特征(RoISlide 大量预测片段)。利用一个紧凑的贝塞尔曲线边界盒的参数化性质,ABCNet 提出了用于特征采样的 BezierAlign。Bezieralign 是从 RoIAlign 扩展而来的。与 RoIAlign 不同,BezierAlign 的采样网格的形状不是矩形的。相反,任意形状的网格中的每一列都与文本的贝塞尔曲线边界正交。采样点的宽度和高度分别具有等距间隔,它们相对于坐标进行双线性插值形式化地给出输入特征映射和 Bezier 曲线控制点,同时处理 hout×wout 大小的矩形输出特征映射的所有输出像素。以具有位置(giw,gih)的像素 gi(来自输出的特征图)为例,通过公式(5)计算 t:


然后用 t 和方程(1)计算上 Bezier 曲线的边界点 tp 和下 Bezier 曲线的边界点 bp。利用 tp 和 bp,我们可以通过方程(6)对采样点 op 进行线性索引:


利用 op 的位置,可以很容易地应用双线性插值来计算结果。


识别分支


得益于共享的主干特性和 BezierAlign,设计了一个轻量级的识别分支,如表 1 所示,以便更快地执行。 它由 6 个卷积层、1 个双向 LSTM 层和 1 个全连接层组成。基于输出分类分数,使用一个经典的 CTC Loss 来进行文本字符串(GT)对齐。请注意,在训练过程中,直接使用生成的 Bezier 曲线 GT 来提取 RoI 特征。因此,检测分支并不影响识别分支。在推理阶段,RoI 区域被检测 Bezier 曲线所取代。实验部分的消融研究表明,所提出的 BezierAlign 可以显著提高识别性能。


实验结果:


ABCNets 在两个最近引入的任意形状的场景文本基准上评估了方法,即 Total-Text 和 CTW1500,它们也包含大量的连续文本。ABCNets 还在 Total-Text 进行了简化研究,以验证方法的有效性。数据集。Total-Text 数据集是在 2017 年提出的最重要的任意形状场景文本基准之一。它收集了各种场景,包括类文本复杂场景和低对比度的背景。它包含 1555 张图像,其中 1255 张用于训练,300 张用于测试。为了模拟真实的场景,这个数据集的大多数图像都包含大量的常规文本,同时保证每个图像至少有一个弯曲文本。文本实例使用多边形进行单词级注释。它的扩展版本改进了训练集的注释,按照文本识别序列为每个文本实例添加了一个固定的 10 点注释。数据集只包含英文文本。为了评估端到端的结果,我们使用与以前相同的度量方法,即使用 F-measure 来测量单词的准确性。简化研究:BezierAlign。为了评估提出的组件的有效性,实验对这个数据集进行简化研究。首先对采样点的数量如何影响端到端的结果进行敏感性分析,如表 4 所示。从结果中可以看出,采样点的数量对最终的性能和效率有很大的影响。实验发现在(7,32)F-measure 与 FPS 之间达到最佳平衡,在接下来的实验中作为最后的设置。进一步评估 BezierAlign,表 3 中显示的结果表明,BezierAlign 可以显著改善端到端结果。定性的例子如图 9 所示




简化研究:

贝塞尔曲线检测。 另一个重要的组成部分是贝塞尔曲线检测,它可以实现任意形状的场景文本检测。因此,也进行了实验来评估的时间消耗贝塞尔曲线检测。表 5 中的结果表明与标准边界盒检测相比,贝塞尔曲线检测没有引入额外的计算。


先进性对比。

ABCNet 的一些结果质量如图 10 所示。结果表明,该方法能准确地检测和识别任意形状的文本。此外,ABCNe 的方法还可以很好地处理直文本,具有近似四边形的紧密边界框和正确的识别结果。图中也出现了一些错误,这些错误主要是由于错误地识别了其中一个字符。


CTW1500 实验结果数据集。

CTW1500 是 2017 年提出的另一个重要的任意形状场景文本基准。与 Total-Text 相比,该数据集包含中英文文本。此外,注释是基于文本行级别的,它还包括一些类似文档的文本,即,无数可以堆叠在一起的小文本。CTW1500 包含 1k 训练图像,500 张测试图像。实验。由于该数据集中中文文本的占用非常小,训练时直接将所有中文文本视为“未见”类。实验结果如表 6 所示,表明在端到端场景文本定位方面,ABCNet 可以显著地超越以前最先进的方法。此数据集的示例结果如图 11 所示。从图中,可以看到一些长文本行实例包含许多单词,这使得完全匹配单词准确性变得非常困难。也就是说一个字符识别错误将导致整个文本零分。



结论:

提出了 ABCNet,一种基于贝塞尔曲线的任意形状场景文本实时端到端定位方法。利用参数化的贝塞尔曲线重新构造任意形状的场景文本,ABCNet 可以用贝塞尔曲线检测任意形状的场景文本,与标准边框盒检测相比引入的计算成本可以忽略不计。使用这种规则的 Bezier 曲线边框,可以通过一个新的 BezierAlign 层自然地连接一个轻量级的识别分支。


另外,通过利用 Bezier curve 合成数据集和公开数据集,在两个任意形状的场景文本基准测试集(Total-Text 和 CTW1500)证明了 ABCNet 可以实现最先进的性能,同时也比以前的方法快得多。

发布于: 刚刚阅读数: 4
用户头像

上海合合信息科技股份有限公司人工智能团队 2022-08-01 加入

在上海市领军人才合合信息董事长镇立新博士带领下,于复杂场景文字识别、智能图像处理、自然语言处理等人工智能领域拥有10 余年研发创新与技术积累,具备专业的行业理解与技术成果。

评论

发布
暂无评论
ABCNet:端到端的可训练框架的原理应用及优势对比_人工智能_合合技术团队_InfoQ写作社区