写点什么

「文本检测与识别白皮书-3.2」第三节:常用的文本识别模型

  • 2022-11-03
    上海
  • 本文字数:10746 字

    阅读完需:约 35 分钟

3.2.3 常用的文本识别模型

CRNN

2017 年华中科技大学在发表的论文《An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition》提出了一个识别文本的方法,这种方法就是 CRNN。该模型主要用于解决基于图像的序列识别问题,特别是场景文本识别问题。


CRNN 算法原理:

CRNN 的网络架构如图 1 所示,由卷积层、循环层和转录层三个组成部分组成。在 CRNN 的底部,卷积层自动从每个输入图像中提取一个特征序列。在卷积网络的基础上,建立一个递归网络,由卷积层输出,对特征序列的每一帧进行预测。采用 CRNN 顶部的转录层,将循环层的每帧预测转化为标签序列。虽然 CRNN 是由不同类型的网络架构组成的。CNN 和 RNN),它可以用一个损失函数进行联合训练。文本识别是对序列的预测方法,所以采用了对序列预测的 RNN 网络。通过 CNN 将图片的特征提取出来后采用 RNN 对序列进行预测,最后通过一个 CTC 的转录层得到最终结果。

所以 CRNN 算法主要采用的是 CNN+RNN+CTC 三层网络结构,从下到上,依次为:

(1)卷积层,使用 CNN,从输入图像中提取特征序列;

(2)循环层,使用 RNN,预测从卷积层获取的特征序列的标签(真实值)分布;

(3)转录层,使用 CTC,把从循环层获取的标签分布通过去重整合等操作转换成最终的识别结果。


CNN(即卷积层)

在 CRNN 模型中,卷积层的分量是通过从标准 CNN 模型中提取卷积层和最大池化层(去掉全连接层)。该组件用于从输入图像中提取序列特征表示。在被输入网络之前,所有的图像都需要缩放到相同的高度。然后从卷积层的分量生成的特征映射中提取出一个特征向量序列,作为递归层的输入。具体来说,特征序列的每个特征向量在特征映射上从左到右依次生成。这意味着第 i 个特征向量是所有映射的第 i 个列的连接。在 CRNN 的设置中,每一列的宽度都被固定为单个像素。这意味着第 i 个特征向量是所有映射的第 i 个列的连接。在 CRNN 的设置中,每一列的宽度都被固定为相同像素。


由于卷积层、最大池化层和元素激活函数层作用于局部区域,因此它们是平移不变的。因此,特征映射的每一列对应原始图像的矩形区域(称为接受域),这些矩形区域与特征映射上对应列的排列顺序相同。如图 2 所示,特征序列中的每个向量都与一个感受域相关联,可以考虑作为该区域的图像描述符。


2.RNN(即循环层)

一个深度双向递归神经网络建立在卷积层的顶部,作为递归层。循环层预测特征序列 x = x1,……,xt 中每一帧 xt 的标签分布 yt。循环层的优点有三方面。首先,RNN 具有很强的捕获序列中的上下文信息的能力。使用上下文线索进行基于图像的序列识别比独立处理每个符号更稳定和更有帮助。以场景文本识别为例,宽字符可能需要连续几帧进行充分描述(参见图 2)。此外,一些模糊的字符在观察上下文时更容易区分,例如,对比角色高度更容易识别“il”,而不是单独识别“il”。其次,RNN 可以将误差差分反向传播到其输入端,即卷积层,允许我们在一个统一的网络中联合训练循环层和卷积层。


LSTM 是定向的,它只使用过去的上下文。在基于图像的序列中,两种方法的上下文是有用的和互补的。然后,CRNN 将两个 LSTM,一个向前,一个向后,组合成一个双向 LSTM。此外,可以堆叠多个双向 LSTM,产生深度双向 LSTM,如图 3.b 所示。深度结构比浅层结构具有更高层次的抽象性,并在语音识别[17]任务中取得了显著的证明性能。在循环层中,误差差分与图 3.b 所示的箭头方向相反,即时间反向传播(BPTT)。在循环层的底部,将传播的差分序列连接成映射,将特征映射转换为特征序列的操作,并反馈到卷积层。在实践中,我们创建了一个自定义的网络层,称为“映射到序列”,作为卷积层和循环层之间的桥梁。


3.CTC(即转录层或翻译层)转录是将 RNN 对每帧的预测转换为标签序列的过程。在数学上,转录是指在每帧预测的条件下找到具有最高概率的标签序列。在实践中,存在两种转录模式,即无词汇的转录和基于词汇的转录。词典是预测所约束的一组标签序列,例如一个拼写检查字典。在无词汇模式下,没有任何词汇即可进行预测。在基于词汇的模式下,通过选择概率最高的标签序列来进行预测。


实验结果:

CRNN 选择 Synth 作为模型训练的数据集,选择 ICDAR 2003(IC03), ICDAR 2013 (IC13), IIIT 5k-word (IIIT5k), 和 Street View Text (SVT)作为测试数据。其中 IC03 测试数据集包含 251 个带有标记文本边界框的场景图像。IC13 测试数据集继承了 IC03 的大部分数据。它包含 1015 个经过裁剪的单词图像。IIIT5k 包含从互联网上收集的 3000 张经过裁剪的单词测试图像。SVT 测试数据集由从 Google street view 收集的 249 张街景图像组成。


表 2 显示了通过提议的 CRNN 模型和最新技术(包括基于深度模型的方法)获得的上述四个公共数据集的所有识别精度【(《Deep features for text spotting》)、(《Reading text in the wild with convolutional neural networks.》)、(《Deep structured output learning for unconstrained text recognition.》)】。在词汇受限的情况下,CRNN 的方法始终优于大多数最先进的方法,并且平均优于[22]中提出的最佳文本阅读器。具体而言,CRNN 在 IIIT5k 上获得了优异的性能,SVT 与《Reading text in the wild with convolutional neural networks.》相比,在 IC03 上只有“完整”词典的性能较低。请注意,《Reading text in the wild with convolutional neural networks.》中的模型是在特定词典上训练的,即每个单词都与一个类标签相关联。与《Reading text in the wild with convolutional neural networks.》不同,CRNN 不局限于识别已知词典中的单词,并且能够处理随机字符串(如电话号码)、句子或其他脚本,如中文单词。因此,CRNN 的结果在所有测试数据集上都具有竞争力。在无约束词典的情况下,CRNN 的方法在 SVT 上取得了最好的性能,但仍然落后于 IC03 和 IC13 上的一些方法。请注意,表 2“无”列中的空白表示这种方法无法应用于没有词典的识别,或者在无约束的情况下没有报告识别精度。CRNN 的方法仅使用带有单词级标签的合成文本作为训练数据,这与 PhotoOCR 非常不同,后者使用 790 万个带有字符级注释的真实单词图像进行训练。文献《Reading text in the wild with convolutional neural networks.》报告的最佳性能是在无约束词典的情况下,得益于其大词典,然而,它并不是前面提到的对词典严格无约束的模型。从这个意义上讲,CRNN 在无约束词典案例中的结果仍然很有希望。得到的实验结果如下:


结论:

提出了一种新的神经网络结构,称为卷积递归 神经网络(CRNN),它综合了卷积神经网络(CNN)和递归神经网络(RNN)的优点。CRNN 能够获取不同尺寸的输入图像,并生成不同长度的预测。例如,在每个阶段中,每个详细元素都会直接运行(例如,在每个阶段中,每个详细元素都会运行注释)。此外,由于 CRNN 放弃了传统神经网络中使用的完全连接层,因此可以得到更紧凑、更高效的模型。所有这些特性使得 CRNN 成为基于图像的序列识别的一种优秀方法。

在场景文本识别基准上的实验表明,与传统方法以及其他基于 CNN 和 RNN 的算法相比,CRNN 取得了优越或极具竞争力的性能。这证实了该算法的优越性。此外,在光学音乐识别(OMR)的基准测试中,CRNN 显著优于其他竞争对手,这验证了 CRNN 的通用性。因此,CRNN 实际上可以应用于其他领域的汉字识别。进一步加快 CRNN 的速度,使其在实际应用中更加实用,是未来值得探索的另一个方向。


Text

Snake2018 年的论文《TextSnake: A Flexible Representation for Detecting Text of Arbitrary Shapes 》提出了一种灵活的任意形状场景文本检测方法 TextSnake。

其主要贡献有三个方面:

(1)提出了一种灵活的任意形状场景文本的通用表示方法;

(2) 在此基础上,提出了一种有效的场景文本检测方法;

(3) 提出的文本检测算法在多个基准上实现了最先进的性能,包括不同形式(水平、定向和弯曲)的文本实例


现有文本检测方法有一个共同的假设:

本实例的形状大体上是线性的;因此采用相对简单的表征方法(轴对齐矩形、旋转矩形四边形);处理不规则形状的文本实例时,依然会暴露问题;对于带有透视变形(perspective distortion)的曲形文本(curved text)传统方法在精确估计的几何属性方面力不从心;文本实例不同表征方法的对比,图 a 是轴对齐矩形,图 b 是旋转矩形,图 c 是四边形;图 d 是 TextSnake。



TextSnake 算法原理:

TextSnake 图示


如图 1 所示,场景文本的常规表示(如轴对齐矩形、旋转矩形和四边形)不能精确描述不规则形状的文本实例的几何属性,因为它们通常假设文本实例大致为线性形式,这对于曲线文本不成立。为了解决这个问题,提出了一个灵活的和通用的方法:TextSnake。如图 2 所示,TextSnake 将一个文本实例表示为一个重叠的圆盘序列,每个圆盘都位于中心线上,并与一个半径和一个方向相关联。直观地说,TextSnake 能够改变其形状,以适应文本实例的变化,如旋转、缩放和弯曲。


从数学上讲,由几个字符组成的文本实例 t 可以视为一个有序列表 S (t)。S (t) = {D0、D1、···、Di、···、Dn},其中 Di 代表第 i 个圆盘,n 为圆盘的数量。每个圆盘 D 都与一组几何属性相关联,即 D =(c、r、θ),其中 c、r 和θ分别为圆盘 D 的中心、半径和方向。半径 r 定义为其局部宽度 t 的一半,而方向θ是中心线围绕中心 c 的切向方向。在这个意义上,通过计算 S (t)中圆盘的并集,可以很容易地重建文本区域 t。请注意,圆盘与 t 对应的字符不一致。但是,S (t)中的几何属性可以用于修正不规则形状的文本实例,并将其转换为矩形的直形图像区域,这对文本识别器更友好


方法 Pipeline:


为了检测具有任意形状的文本,TextSnake 使用了一个 FCN 模型来预测文本实例的几何属性。该方法的管道流程如图 3 所示。基于 FCN 的网络预测文本中心线(TCL)和文本区域(TR)的得分图,以及几何属性,包括 r、cosθ和 sinθ。TCL map 被 TR map 进一步掩盖,因为 TCL 自然是 TR 的一部分。为了执行实例分割,鉴于 TCL 彼此不重叠,使用不相交集。采用跨越式算法提取中轴点列表,最后对文本实例进行重构。


网络架构:


整个网络如图 4 所示。受 FPN 和 U-net 的启发,TextSnake 采用了一种逐步合并主网络不同层次特征的方案。主干网络可以是被提出的用于图像分类的卷积网络,如 VGG-16/19 和 ResNet。这些网络可以分为 5 个卷积阶段和一些额外的全连接(FC)层。TextSnake 删除 FC 层,并在每个阶段后将特征映射提供给特征合并网络。TextSnake 选择 VGG-16 作为主干网络,以便与其他方法进行直接公平的比较。


推理:馈送之后,网络输出 TCL,TR 以及几何图,对于 TCL 和 TR,阈值分别设为 Ttcl 和 Ttr,然后,通过 TR 和 TCL 的交点,给出了 TCL 的最终预测。使用不相交集,可以有效地将 TCL 像素分离为不同的文本实例。最后,设计了一种跨步算法,提取出表示文本实例的形状和过程的有序点列表,并对文本实例区域进行重构。采用两种简单的启发式方法来过滤出 false positive 文本实例:1)TCL 像素的数量应至少为其平均半径的 0.2 倍;2)在重建的文本区域中,至少有一半的像素应该被归类为 TR。


跨步算法的执行过程如图 5 所示。它具有 3 个主要动作,即 Act (a)、Act (b)和 Act (c),如图 6 所示。首先,随机选择一个像素作为起点,并将其集中起来。然后,搜索过程分叉到两个相反的方向,大步前进和集中化,直到它到达终点。这个过程将在两个相反的方向上生成两个有序的点列表,它们可以组合起来产生最终的中心轴列表,它遵循文本的过程,并精确地描述形状。这 3 个动作的细节如下所示


实验结果:

本文中用于实验的数据集如下:SynthText 是一个大型 sacle 数据集,包含约 800K 个合成文本图像。这些图像是通过将自然图像与随机字体、大小、颜色和方向呈现的文本混合而成的,因此这些图像非常逼真。我们使用这个数据集对模型进行预训练。


TotalText 是一个新发布的文本检测基准。除了水平和面向多个方向的文本实例之外,该数据集还特别具有曲线文本,这在其他基准数据集中很少出现,但实际上在实际环境中非常常见。该数据集分为训练集和测试集,分别包含 1255 张和 300 张图像。CTW1500 是另一个主要由曲线文本组成的数据集。它由 1000 个训练图像和 500 个测试图像组成。文本实例使用具有 14 个顶点的多边形进行注释。


ICDAR 2015 被提议作为 Challenge 4 of the 2015 Robust Reading Competition 中偶然场景文本检测的挑战 4。该数据集中的场景文本图像由谷歌眼镜拍摄,不考虑位置、图像质量和视点。该数据集具有小的、模糊的、多方向的文本实例。有 1000 张图片用于培训,500 张图片用于测试。此数据集中的文本实例标记为单词级四边形。MSRA-TD500 是一个具有多语言、任意定向和长文本行。它包括 300 个训练图像和 200 个带有文本的测试图像行级注释。在之前的工作[3,10]之后,实验还将来自 HUST-TR400[39]的图像作为训练数据,在对该数据集进行调整时,因为其训练集非常小。


在 ICDAR 2015 和 MSRA-TD500 上的实验中,实验根据方法的输出文本区域确定了最小边界矩形。得到了如下图示的实验结果:为了进行比较,Textsnake 还对 Total Text 和 CTW1500 上的 EAST 和 SegLink 模型进行了评估。表 1 和表 2 显示了这两个数据集上不同方法的定量结果。如表 1 所示,TextSnake 所提出的方法在总文本的准确率、召回率和 F-measure 上分别达到 82.7%、74.5%和 78.4%,显著优于以前的方法。请注意,TextSnake 方法的 F- measure 是原始 Total Text 论文[12]中提供的 Baseline 的两倍以上。


在 CTW1500 上,该方法的准确率、召回率和 F-measure 分别达到 67.9%、85.3%和 75.6%。与 CTW1500 数据集一起提出的 CTD+TLOC 相比,TextSnake 算法的 F-measure 高出 2.2%(75.6%对 73.4%)。该方法在全文本和 CTW1500 上的优异性能验证了该方法能够处理自然图像中的曲线文本。


ICDAR 2015 的微调将在大约 30k 次迭代时停止。在测试中,所有图像的大小都调整为 1280×768。Ttr、Ttcl 设置为(0.4、0.9)。考虑到 ICDAR 2015 中的图像包含许多未标记的小文本,将过滤掉短边小于 10 像素或面积小于 300 的预测矩形。ICDAR 2015 上不同方法的定量结果如表 3 所示。仅通过单尺度测试,TextSnake 的方法优于大多数竞争对手(包括多尺度评估的方法)。这表明所提出的表示 TextSnake 是通用的,可以很容易地应用于复杂场景中的面向多个方向的文本。


MSRA-TD500 上的微调将在大约 10k 次迭代时停止。Ttr、Ttcl 的阈值为(0.4、0.6)。在测试中,所有图像的大小都调整为 1280×768。结果如表 4 所示,TextSnake 方法的 F- Measure(78.3%)高于其他方法。


分析与讨论:TextSnake 的方法与其他方法的区别在于,它能够预测文本实例的形状和过程的精确描述(见图 8)。


TextSnake 将这种能力归因于 TCL 机制。文本中心线可以看作是一种支撑文本实例的骨架,以及提供更多细节的地理属性。文本,作为一种书面语言的形式,可以看作是一个映射到二维表面上的信号流。当然,它应该遵循一条需要延伸的路线。因此,TextSnake 建议预测 TCL,它比整个文本实例要窄得多。它有两个优点: (1)一个细长的 TCL 可以更好地描述过程和形状;(2)直观地看,TCL 彼此不重叠,因此实例分割可以以一种非常简单和直接的方式完成,从而简化了 TextSnake 的 pipeline。此外,如图 9 所示,TextSnake 可以利用局部几何图形来绘制文本实例的结构,并将预测的弯曲文本实例转换为规范形式,这可能在很大程度上促进了识别阶段


为了进一步验证 TextSnake 的方法的泛化能力,在没有弯曲文本的数据集上训练和微调 TextSnake 的模型,并在两个具有弯曲文本的基准测试上对其进行评估。具体来说,在 ICDAR 2015 上调整了 TextSnake 的模型,并在目标数据集上对它们进行了评估。我们以 EAST 、SegLink 和 PixelLink 的模型作为 baseline,因为这两种方法也在 ICDAR 2015 上进行了训练。


如表 5 中所示,TextSnake 的方法在弯曲文本上仍然表现良好,并且明显优于三个强大的竞争对手 SegLink,EAST 和 PixelLink,而没有对弯曲文本进行微调。TextSnake 将这种优秀的泛化能力归因于所提出的灵活表示。表示不是将文本作为一个整体,而是将文本视为局部元素的集合,并将它们集成在一起以做出决策。局部属性在形成一个整体时被保留。此外,它们是相互独立的。因此,TextSnake 的方法的最终预测可以保留文本的形状和过程的大部分信息。这是所提出的文本检测算法能够搜索具有不同形状的文本实例的主要原因。


结论:

TextSnake 提出了一种新颖、灵活的表示方法,用于描述具有任意形状的场景文本的属性,包括水平、多向和曲线文本实例。TextSnake 提出的文本检测方法在两个新发布的曲线文本数据集(Total text 和 SCUT-CTW1500)以及两个在该领域广泛使用的数据集(ICDAR 2015 和 MSRA-TD500)上获得了最先进或可比的性能,证明了方法的有效性。


EAST2017 年的论文《EAST: An Efficient and Accurate Scene Text Detector》提出了一个高效和准确的场景文本检测 pipeline 文本检测模型 EAST。典型的文本检测模型一般是会分多个阶段(multi-stage)进行,在训练时需要把文本检测切割成多个阶段(stage)来进行学习,这种把完整文本行先分割检测再合并的方式,既影响了文本检测的精度又非常耗时,对于文本检测任务上中间过程处理得越多可能效果会越差。那么现在我们来学习又快、又准的检测模型。


EAST 的贡献:

1.提出了一个由两阶段组成的场景文本检测方法:全卷积网络阶段和 NMS 阶段。

2.该 pipeline 可灵活生成 word level 或 line level 上文本框的预测,预测的几何形状可为旋转框或水平框。

3.算法在准确性和速度上优于此前最先进的方法。


EAST 算法原理:EAST 模型简介该算法的关键组成部分是一个神经网络模型,它被训练来直接从完整的图像中预测文本实例及其几何形状的存在。该模型是一个完全卷积的神经网络,适用于文本检测,它可以输出对单词或文本线的密集的每像素预测。该模型是一个完全卷积的神经网络,适用于文本检测,它可以输出对单词或文本行的密集的每像素预测。这就消除了诸如候选提案、文本区域的形成和文字的划分等中间步骤。后处理步骤只包括对预测的几何形状的阈值化和 NMS。该探测器被称为 EAST,因为它是一个高效和精确的场景文本检测 pipeline。


图 2(e)显示了 EAST 的管道的高级概述。该算法遵循 DenseBox 的一般设计,将图像输入 FCN,生成多个像素级文本评分图和几何图形通道。其中一个预测的通道是一个像素值在[0,1]范围内的评分图。其余的通道表示包含在每个像素视图中的单词的几何图形。这个分数代表了在同一位置上预测的几何形状的置信度。EAST 实验了文本区域的两种几何形状,旋转框(RBOX)和四边形(QUAD),并为每个几何图形设计了不同的损失函数。然后将阈值应用于每个预测区域,其中分数超过预先定义的阈值的几何图形被认为是有效的,并保存为以后的非最大抑制。NMS 之后的结果被认为是管道的最终输出。


EAST 模型网络结构 EAST 模型的网络结构,如下图:


在设计用于文本检测的神经网络时,必须考虑到几个因素。由于单词区域的大小,如图 5 所示,变化很大,确定大单词的存在需要神经网络后期的特征,而预测包含一个小单词区域的准确几何形状在早期阶段需要低水平的信息。因此,网络必须使用来自不同级别的特性来满足这些需求。HyperNet 在特征图上满足这些条件,但在大型特征图上合并大量通道将显著增加后期阶段的计算消耗。为此,我们采用 u 型的思想,逐步合并特征图,同时保持上采样分支较小。我们一起得到了一个网络,它既可以利用不同级别的特性,又可以保持较小的计算成本。我们的模型的示意图如图 3 所示。该模型可分解为特征提取主干、特征合并分支和输出层三部分。主干可以是一个在 ImageNet 数据集上预先训练好的卷积网络,具有交错的卷积层和池化层。从主干中提取出四级特征图,分别表示为 fi,其大小分别为输入图像的 1/32、1/16、1/8 和 1/4。图 3 中描述为 PVANet 。在实验中,我们还采用了众所周知的 VGG16 模型,其中提取了 pooling-2 到 pooling-5 之后的特征映射。在特征合并分支中,我们逐步合并它们:


其中 gi 是合并基,hi 是合并的特征映射,操作符[·;·]表示沿通道轴的连接。在每个合并阶段中,来自最后一个阶段的特征映射首先被输入到一个非池化层,以使其大小加倍,然后与当前的特征映射相连接。接下来,一个 conv1×1 瓶颈减少了通道的数量并减少了计算,然后是一个 conv3×3,它融合信息,最终产生这个合并阶段的输出。在最后一个合并阶段之后,一个 conv3×3 层生成合并分支的最终特征图,并将其提供给输出层。每个卷积的输出通道数如图 3 所示。我们保持分支中卷积的通道数很小,这只增加了主干上的一小部分计算消耗,使网络的计算效率很高。最终的输出层包含几个 conv1×1 操作,以将 32 个通道的特征映射投影到 1 个通道的分数映射 Fs 和一个多通道几何映射 Fg 中。几何输出可以是 RBOX 或 QUAD 中的一个,在表 1 中总结。


对于 RBOX,几何形状由 4 个通道的轴对齐的边界框(AABB)R 和 1 个通道的旋转角度θ表示。R 的公式与(《Unifying landmark localization with end to end object detection》)相同,其中 4 个通道分别表示从像素位置到矩形的上、右、下、左边界的 4 个距离。对于 QUAD Q,使用 8 个数字来表示从四边形的四个角顶点{pi|i∈{1,2,3,4}}到像素位置的坐标位移。由于每个距离偏移量包含两个数字(∆xi,∆yi),因此几何图形输出包含 8 个通道。


标签生成(Label generation)Score Map Generation for Quadrangle:只考虑几何是四边形的情况。得分图上的四边形的正面积大致被设计为原始地图的缩小版本,如图 4 (a).所示对于一个四边形 Q = {pi|i∈{1,2,3,4}},其中 pi = {xi,yi}是按顺时针顺序在四边形上的顶点。为了缩小 Q,首先计算每个顶点 p 的参考长度 ri 为


式中,D(pi,pj)是 pi 和 pj 之间的 l2 距离。我们首先缩小一个四边形的两条较长的边,然后缩小那两个较短的边。对于每一对两个相反的边,我们通过比较它们的长度的平均值来确定“较长的”对。对于每条边< pi,p(i mod 4)+1i >,我们通过沿边移动其两个端点向内分别移动 0.3ri 和 0.3r(i mod 4)+1 来收缩它。Geometry Map Generation:


几何图是 RBOX 或 QUAD 之一。RBOX 的生成过程如图 4(c-e)所示。对于那些文本区域以 QUAD 风格进行注释的数据集(例如,ICDAR 2015),我们首先生成一个旋转的矩形,它覆盖了具有最小面积的区域。然后对于每个得分为正的像素,我们计算它到文本框的 4 个边界的距离,并将它们放到 RBOX 地面真相的 4 个通道中。对于 QUAD 地面真相,在 8 通道几何地图中每个得分为正的像素的值是它从四边形的 4 个顶点的坐标偏移。


实验结果:定性结果:图 5 描述了该算法的几个检测示例。它能够处理各种具有挑战性的场景,如不均匀的照明,低分辨率,不同的方向和透视失真。此外,由于 NMS 过程中的投票机制,所提出的方法在具有不同形式的文本实例的视频上显示出较高的稳定性 2。该方法的中间结果如图 6 所示。可以看出,训练后的模型产生了高度精确的几何图和得分图,其中很容易检测出不同方向的文本实例。


定量结果:

如表 3 和表 4 所示,EAST 的方法在 IC-DAR 2015 和 COCO 文本上大大优于以前的最先进方法。在 ICDAR 2015 挑战 4 中,当图像以原始比例馈送时,所提出的方法的 F -score 达到 0.7820。当使用同一网络在多个量表 3 上进行测试时,EAST 的方法的 F-score 达到 0.8072,就绝对值而言,这比最佳方法高出了近 0.16(0.8072 vs.0.6477)。比较使用 VGG16 网络的结果,当使用四路输出时,该方法的性能也比之前的最佳工作好 0.0924,当使用 RBOX 输出时,该方法的性能也比之前的最佳工作好 0.116。


同时,这些网络的效率相当高。在 COCO text 中,所提出的算法的所有三种设置都比之前的 top-performer(《Scene text detection via holistic, multi-channel prediction. 》)具有更高的精度。具体而言,F -score 比(《Scene text detection via holistic, multi-channel prediction. 》)提高了 0.0614,召回得分提高了 0.053,这证实了该算法的优势,因为 COCO text 是迄今为止最大、最具挑战性的基准。请注意,实验还将(《Coco-text: Dataset and benchmark for text detection and recognition in natural images. 》)中的结果作为参考,但这些结果实际上不是有效的 Baseline,因为方法(A、B 和 C)用于数据注释。


与以前的方法相比,该算法的改进证明了一个简单的文本检测 pipeline,它直接针对最终目标并消除冗余过程,可以击败复杂的 pipeline,甚至是那些与大型神经网络模型集成的 pipeline。如表 5 所示,在 MSRA-TD500 上,EAST 方法的所有三种设置都取得了优异的结果。最佳工作的 F-score(Ours+PVANET2x)略高于《Scene text detection via holistic, multi-channel prediction. 》。


与之前发布的最先进系统 Zhang 等人(《Multi-oriented text detection with fully convolutional networks》)的方法相比,最佳执行者(Ours+PVANET2x)的 F-score 提高了 0.0208,精确度提高了 0.0428。请注意,在 MSRA-TD500 上,配备 VGG16 的算法的性能比配备 PVANET 和 PVANET2x 的算法差得多(0.7023 比 0.7445 和 0.7608),主要原因是 VGG16 的有效感受野小于 PVANET 和 PVANET2x 的有效感受野,而 MSRA-TD500 的评估协议需要文本检测算法的输出行级别,而不是单词级别的预测。此外,实验还根据 ICDAR 2013 基准评估了 Ours+PVANET2x。该方法在查全率、查准率和 F 得分方面分别达到 0.8267、0.9264 和 0.8737,与之前的最先进方法相比,前者的查全率、查准率和 F 得分分别为 0.8298、0.9298 和 0.8769。





EAST 模型的优势在于简洁的检测过程,高效、准确,并能实现多角度的文本行检测。但也存在着不足之处,例如(1)在检测长文本时的效果比较差,这主要是由于网络的感受野不够大;(2)在检测曲线文本时,效果不是很理想


参考文献:

Liu C Y, Chen X X, Luo C J, Jin L W, Xue Y and Liu Y L. 2021. Deep learning methods for scene text detection and recognition. Journal of Image and Graphics,26(06):1330-1367(刘崇宇,陈晓雪,罗灿杰,金连文,薛洋,刘禹良. 2021. 自然场景文本检测与识别的深度学习方法. 中国图象图形学报,26(06):1330-1367)[DOI:10. 11834 / jig. 210044]Shi B G, Bai X and Yao C. 2017a. An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(11): 2298-2304 [DOI: 10. 1109 / TPA-MI. 2016. 2646371]Zhou X Y, Yao C, Wen H, Wang Y Z, Zhou S C, He W R and Liang J J. 2017. EAST: an efficient and accurate scene text detector/ / Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 5551-5560 [DOI: 10. 1109 / CVPR. 2017. 283]Long S B, Ruan J Q, Zhang W J, He X, Wu W H and Yao C. 2018. TextSnake: a flexible representation for detecting text of arbitrary shapes/ / Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer: 19-35 [DOI: 10. 1007 / 978-3-030-01216-8_2]

发布于: 刚刚阅读数: 3
用户头像

上海合合信息科技股份有限公司人工智能团队 2022-08-01 加入

在上海市领军人才合合信息董事长镇立新博士带领下,于复杂场景文字识别、智能图像处理、自然语言处理等人工智能领域拥有10 余年研发创新与技术积累,具备专业的行业理解与技术成果。

评论

发布
暂无评论
「文本检测与识别白皮书-3.2」第三节:常用的文本识别模型_人工智能_合合技术团队_InfoQ写作社区