写点什么

【技术白皮书】第二章:OCR 智能文字识别回顾——自然语言文本发展历程

  • 2022 年 8 月 03 日
  • 本文字数:4505 字

    阅读完需:约 15 分钟

【技术白皮书】第二章:OCR智能文字识别回顾——自然语言文本发展历程

本文篇幅较长,建议配合目录食用分次阅读。

本文首发于 CSDN 平台 链接:【技术白皮书】第二章:OCR智能文字识别回顾——自然语言文本发展历程_合合技术团队的博客-CSDN博客


2.发展历程与现状

2.1 信息抽取技术发展历程

从自然语言文本中获取结构化信息的研究最早开始于 20 世纪 60 年代中期,这被看作是信息抽取技术的初始研究,它以两个长期的、研究性的自然语言处理项目为代表。


美国纽约大学开展的 Linguistic String 项目[3]开始于 60 年代中期并一直延续到 80 年代。该项目的主要研究内容是建立一个大规模的英语计算语法,与之相关的应用是从医疗领域的 X 光报告和医院出院记录中抽取信息格式(Information Formats),这种信息格式实际上就是现在我们所说的模板(Templates)。

另一个相关的长期项目是由耶鲁大学 Roger Schank 及其同事在 20 世纪 70 年代开展的有关故事理解的研究。由他的学生 Gerald De Jong 设计实现的 FRUMP 系统是根据故事脚本理论建立的一个信息抽取系统。该系统从新闻报道中抽取信息,内容涉及地震、工人罢工等很多领域或场景。该系统采用了期望驱动(top-down,脚本)与数据驱动(bottom-up,输入文本)相结合的处理方法。这种方法被后来的许多信息抽取系统采用。


从 20 世纪 80 年代末开始,信息抽取研究蓬勃开展起来,这主要得益于消息理解系列会议(MUC,Message Understanding Conference)的召开。正是 MUC 系列会议使信息抽取发展成为自然语言处理领域一个重要分支,并一直推动这一领域的研究向前发展。


从 1987 年开始到 1998 年,MUC 会议共举行了七届,它由美国国防高级研究计划委员会(DARPA,the Defense Advanced Research Projects Agency)资助。MUC 的显著特点并不是会议本身,而在于对信息抽取系统的评测[5]。只有参加信息抽取系统评测的单位才被允许参加 MUC 会议。在每次 MUC 会议前,组织者首先向各参加者提供样例消息文本和有关抽取任务的说明,然后各参加者开发能够处理这种消息文本的信息抽取系统。在正式会议前,各参加者运行各自的系统处理给定的测试消息文本集合。由各个系统的输出结果与手工标注的标准结果相对照得到最终的评测结果。最后才是所谓的会议,由参与者交流思想和感受。后来,这种评测驱动的会议模式得到广泛推广,如 1992 年开始举行的文本检索会议 TREC2 等。


从历次 MUC 会议,可以清楚地看到信息抽取技术发展的历程。
  • 1987 年 5 月举行的首届 MUC 会议基本上是探索性的,没有明确的任务定义,也没有制定评测标准,总共有 6 个系统参加,所处理的文本是海军军事情报,每个系统的输出格式都不一样。

  • MUC-2 于 1989 年 5 月举行,共有 8 个系统参加,处理的文本类型与 MUC-1 一样。MUC-2 开始有了明确的任务定义,规定了模板以及槽的填充规则,抽取任务被明确为一个模板填充的过程。

  • MUC-3 于 1991 年 5 月举行,共有 15 个系统参加,抽取任务是从新闻报告中抽取拉丁美洲恐怖事件的信息,定义的抽取模板由 18 个槽组成。从 MUC-3 开始引入正式的评测标准,其中借用了信息检索领域采用的一些概念,如召回率和准确率等。

  • MUC-4 于 1992 年 6 月举行,共有 17 个系统参加,任务与 MUC-3 一样,仍然是从新闻报告中抽取恐怖事件信息。但抽取模板变得更复杂了,总共由 24 个槽组成。从这次会议开始 MUC 被纳入 TIPSTER 文本项目。

  • MUC-5 于 1993 年 8 月举行,共有 17 个系统参加:美国 14 个,英国、加拿大、日本各一个。此次会议设计了两个目标场景:金融领域中的公司合资情况、微电子技术领域中四种芯片制造处理技术的进展情况。除英语外,MUC-5 还对日语信息抽取系统进行了测试。在本次会议上,组织者尝试采用平均填充错误率(ERR, Error Per Response Fill)作为主要评价指标。与以前相比,MUC-5 抽取任务的复杂性更大,比如公司合资场景需要填充 11 种子模板总共 47 个槽,光任务描述文档就有 40 多页。MUC-5 的模板和槽填充规范是 MUC 系列评测中最复杂的。

MUC-5 的一个重要创新是引入了嵌套的模板结构。信息抽取模板不再是扁平结构(flat structure)的 单个模板,而是借鉴面向对象和框架知识表示的思想,由多个子模板组成。模板中每个槽的取值除了可 以是文本串(如公司名)、格式化串(如将日期、时间、金额等文本描述转化为某种规范形式)、有限 集合中的元素(如组织类型可以分为公司、政府部门、研究机构等)外,还可以是指向另一个子模板的 指针。

  • MUC-6 于 1995 年 9 月举行,训练时的目标场景是劳动争议的协商情况,测试时的目标场景是公司管理人员的职务变动情况,共有 16 家单位参加了这次会议。MUC-6 的评测更为细致,强调系统的可移植性以及对文本的深层理解能力。除了原有的场景模板(Scenario Templates)填充任务外,又引入三个新的评测任务:命名实体(Named Entity)识别、共指(Coreference)关系确定、模板元素(Template Element)填充等。

其中命名实体识别即 NER 这个术语首次出现在 MUC 会议中,其任务主要是要识别出文本中出现的专有名称和有意义的数量短语并加以归类;共指关系确定任务是要识别出给定文本中的参照表达式,并确定这些表达式之间的共指关系;模板元素填充任务是要识别出特定类型的所有实体以及它们的属性特征。

  • 最后一届 MUC 会议——MUC-7 于 1998 年 4 月举行。训练时的目标场景是飞机失事事件,测试时的目标场景是航天器(火箭/导弹)发射事件。除 MUC-6 已有的四项评测任务外,MUC-7 又增加了一项新任务——模板关系任务,它意在确定实体之间与特定领域无关的关系。共有 18 家单位参加了 MUC-7 评测。值得注意的是,在 MUC-6 和 MUC-7 中开发者只允许用四周的时间进行系统的移植,而在先前的评测中常常允许有 6-9 个月的移植时间。

  • 1998 年在 MUC-7 会议上第1次正式提出实体关系抽取任务。当时,这一任务主要利用模板的方式抽取出实体之间的关系,抽取的关系模板主要有 location_of, employee_of, manufacture_of 这三大类。在关系抽取方面,该会议主要以商业活动内容为主题,通过人工构建知识工程的方法,针对英语完成关系分类.研究人员利用 Linguistic Data Consortium 提供的 New York Times News Service Corpus 训练集和测试集构建关系抽取模型,并完成模型的性能评估。


在 MUC 中,衡量信息抽取系统的性能主要根据两个评价指标:召回率和准确率。

召回率等于系统正确抽取的结果占所有可能正确结果的比例,

准确率等于系统正确抽取的结果占所有抽取结果的比例。

MUC 系列会议对信息抽取这一研究方向的确立和发展起到了巨大的推动作用。MUC 定义的信息抽取任务的各种规范以及确立的评价体系已经成为信息抽取研究事实上的标准。


ACE 于 2000 年 12 月正式启动,由美国国家安全局(NSA)、美国国家标准和技术学会(NIST)以及中央情报局(CA)共同主管。测评中需要的大量训练集和测试集均由语言资源联盟(Linguistic Data Consortium,LDC)提供。ACE 主要关注 6 个领域的信息:网络上的专线新闻(Newswire)、通过 ASR(自动语音识别)得到的广播新闻(Broadcast Conversations)、通过 OCR(光学字符识别)得到的报纸新闻(Newspaper)、新闻组(Usenet)、对话性的电话谈话(Conversational Telephone Speech)和网络日志(Webbg)。其测评任务为实体探测与识别(Entity Detection and Recognition,EDR)、价值探测与识别(Value Detection and Recognition,VAL)、时间表达识别与标准化(Time Expression Recognition and Nomalization,TERN)、关系探测与识别(Relation Detection and Recognition,RDR)以及事件探测与识别(Event Detec-161tion and Recognition, VDR)。ACE 的目标是发展包括自动识别和标识文本在内的自动内容抽取技术,以支持对语料库的自动处理。ACE 会议指出,实体关系定义的是实体之间显式或者隐式的语义联系,因此需要预先定义实体关系的类型,然后识别实体之间是否存在语义关系,进而判定属于哪一种预定义的关系类型。该会议预先定义了位置、机构、成员、整体部分、人社会五大类关系,主要使用机器学习(有监督、半监督)的方法,针对英语、阿拉伯语、西班牙语等语言完成关系抽取任务。


此外,会议提供了一定规模的标注语料(ACE2004,ACE2005)供大家研究,这为后续的研究提供了便利和支持。

与 MUC 相比, ACE 评测不针对某个具体的领域或场景,采用基于漏报(标准答案中有而系统输出中没有)和误报(标准答案中没有而系统输出中有)为基础的一套评价体系,还对系统跨文档处理(Cross-document processing)能力进行评测。这一新的评测会议将把信息抽取技术研究引向新的高度。


2009 年 ACE 由 TAC(Text Analysis Conference )正式接棒,ACE 成为 TAC 的一个子任务,同时将关系抽取任务并入 KBP (Knowledge Base Population)会议。TAC 是一系列评估研讨会,旨在促进自然语言处理和相关应用的研究。KBP 是人口知识库,旨在提高从文本自动填充知识库的能力。TAC 和 KBP 会议提供的大规模开源知识库(TAC-KBP),极大地推动了面向知识库构建过程中的信息抽取技术的研究和发展。


Fei Wu 和 Daniel S. Weld 于 2007 年选择维基百科作为初始数据源,提出了一种自我监督的机器学习系统的原型实现,他们的初步实验证明了系统提取数据的精度在一种情况下与人类相当。这种方法随后被称为远程监督算法(distant supervision algorithm)


随着深度学习技术的发展,CNN、RNN 等神经网络的方法被应用到信息抽取领域。基于深度学习的方法可以在神经网络模型中自动学习特征,将低层特征进行组合,形成更加抽象的高层特征,用来寻找数据的分布式特征表示。同时能够避免人工特征选择等步骤,减少并改善特征抽取过程中的误差积累问题。深度学习的方法使信息抽取技术进入高速发展的时代。


2.2 信息抽取技术的产业发展现状

早期受限于技术发展水平,信息抽取技术厂商通常从特定应用切入,例如证件信息抽取等,形成了一系列专用系统。近年来,越来越多的应用嵌入了信息抽取技术,并逐渐形成了完整产业链生态,也衍生出了商业信息、医学信息等一系列细分信息抽取能力,更加精准的服务于各行各业。


目前,信息抽取对商业、医学、通信、审计、媒体、政府等多种文字密集型行业应用领域已产生重要作用。未来随着传统行业的数字化转型程度进一步深入,信息抽取技术应用范围和场景将进一步扩展,市场规模将进一步增大。


其中商业信息抽取主要是通过开发专门的信息抽取系统,分析各渠道收集的商业信息大数据,抽取诸如有关公司工商信息、舆情现状、风险监控等信息,提供决策支持信息。

医疗信息抽取是医疗保健机构以及健康保险部门可以利用信息抽取系统,获取病人的症状、诊断情况、化验结果以及治疗情况,以便更好地提供医疗服务和保险服务。

政务信息抽取则是政务部门利用信息抽取系统,获取众多的政务文件中的有效信息,使政务服务更加的准确、高效。


参考文献:

  • 李冬梅,张扬,李东远,林丹琼 .实体关系抽取方法研究综述[J]. 计算机研究与发展,2020,57(7)

  • 李保利, 陈玉忠, 俞士汶. 信息抽取研究综述[J]. 计算机工程与应用, 2003, 39(10):6.

  • Compact Survey on Event Extraction: Approaches and Applications“ IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS, VOL. 14, NO. 9, NOVEMBER 2021


版权声明:本文为 CSDN 博主「合合技术团队」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。

原文链接:https://blog.csdn.net/INTSIG/article/details/125313052

发布于: 刚刚阅读数: 3
用户头像

上海合合信息科技股份有限公司人工智能团队 2022.08.01 加入

在上海市领军人才合合信息董事长镇立新博士带领下,于复杂场景文字识别、智能图像处理、自然语言处理等人工智能领域拥有10 余年研发创新与技术积累,具备专业的行业理解与技术成果。

评论

发布
暂无评论
【技术白皮书】第二章:OCR智能文字识别回顾——自然语言文本发展历程_深度学习_合合技术团队_InfoQ写作社区