写点什么

[干货] 深度学习即将攻陷的下一个领域:NLP——ACL2016 优秀论文解读(上篇)

作者:阿里技术
  • 2021 年 11 月 29 日
  • 本文字数:4844 字

    阅读完需:约 16 分钟

深度学习的出现让很多人工智能相关技术取得了大幅度的进展,比如语音识别已经逼近临界点,即将达到 Game Changer 水平;机器视觉也已经在安防、机器人、自动驾驶等多个领域得到应用。 而自然语言处理(NLP)被视为深度学习即将攻陷的下一个技术领域,在今年全球顶级的 NLP 学术会议 ACL 上,我们也看到大量的在深度学习引入 NLP 方面的探索研究。让我们跟随阿里的科学家们一起去探求深度学习给 NLP 带来些改变。


一、会议概要

ACL2016 于 2016 年 8 月 7 日至 12 日在德国柏林洪堡大学召开,本届参会人数在 1200 人左右。其中,8 月 7 日是 Tutorial 环节,8 月 8 日-10 日是正会,8 月 11 日-12 日是若干主题的 workshop。本届 ACL2016 Lifetime AchievementAward winner 是来自斯坦福的 Joan Bresnan 教授,词汇功能文法的奠基人。

                            


参会的阿里巴巴同学们


二、Tutorial 总结


1、《Computer Aided Translation》

这个 tutorial 的报告人是约翰霍普金斯大学的 Philipp Koehn 教授,他是统计机器翻译领域的领军学者之一,在基于短语的机器翻译模型方面做了很多影响深远的工作,主持了著名的开源统计机器翻译系统 Moses 的开发。最近几年,Koehn 教授重点关注如何借助机器翻译技术来帮助译员如何更有效率地完成翻译工作,即计算机辅助翻译技术(CAT),并得到了欧盟 CASMACAT 项目资助,这个 tutorial 也算是整个 CASMACAT 项目的总结。在这个报告中,Koehn 介绍了在这个项目中开发的一系列新的 CAT 技术及其实际效果。与在线术语库、记忆库、译后编辑等传统手段不同,CASMACAT 结合了 SMT 的大量研究成果,例如置信分(confidence score)、复述(paraphrasing)、可视化词对齐(visualization of word alignment)、翻译选项阵列(translationoption array)等,为译员提供了更加丰富的信息,从而为辅助翻译提供了更好的灵活性。



图 1、翻译选项阵列

 

这个项目实现了一套完整的在线 CAT 系统(CASMACAT),通过对大量译员的实际使用情况进行数据统计,并结合眼部跟踪(eye tracking)等认知分析,证明这些新的 CAT 方法的确能够提升译员的工作效率,提升产出。

 

总体上,这个报告的内容属于比较偏应用型的工作,学术上的创新工作不多,因此受到的关注不如其它学术性报告多,但它是一个非常完整的实用性工作,通过把机器翻译的新技术与 CAT 场景进行创新的结合,并通过大量真实用户的使用验证这些技术的有效性。

 

2、《NeuralMachine Translation》

这个 tutorial 的报告人是斯坦福大学的 Christopher Manning 教授、他的博士生 Thang Luong 以及纽约大学的助理教授 Kyunghyun Cho。Manning 教授在 NLP 领域的影响力非常大,是统计 NLP 领域的领军学者之一,最近几年也逐渐转向深度学习,在递归神经网络、句法分析、词向量、神经机器翻译等领域做了很多开创性工作。Luong 和 Cho 也是近几年暂露头角的青年学者,尤其是在将深度学习应用于 NLP 领域做了不少创新的研究。

 

这个 tutorial 对目前神经机器翻译的研究进展做了一个阶段性的总结。虽然 NMT 真正开始兴起的时间不到 3 年(大致从 2013 年 Kalchbrenner 和 Blunsum 发表《Recurrent continuous translation models》开始算起),但迅速在研究界掀起了新的热潮,并取得了巨大进展,在一些语言上的效果已经超越了传统的方法。报告首先回顾了最近 20 年占统治地位的 SMT 方法,然后介绍了几年之前将神经网络作为新特征集成到传统解码器的思路,接下来重点介绍了大家非常关注的端到端的神经机器翻译(End2end NMT)。报告中以一个具体的 NMT 实现为例,详细描述了一个 NMT 的序列到序列框架及相关的最大似然估计和 beam-search 解码过程。报告最后描述了 NMT 研究近期的发展趋势,包括引入 LSTM 和 attention 机制,以及如何通过 sub-word 或基于字符解码来尽量减少受限词表对最后翻译效果的影响等。



图 2、一个典型的 encoder-decoderNMT 框架

 

总的来说,这个报告对于我们更好理解 NMT 基本原理,了解当前面临的主要问题以及最新的研究成果都非常有帮助。



图 3、Manning 教授、Luong 和 Cho 在 Tutorial 上

 

3、《SemanticRepresentations of Word Senses and Concepts》

来自罗马大学的 J Camacho-Collados,I Iacobacci,R Navigli,以及剑桥大学的 MT Pilehvar 共同带来了这次《词义和概念的语义表示》的 Tutorial 分享。

 

Word(词)是句子、文章、文档的重要组部分,但是 Word Representation 有比较大的局限性,例如:一词多义以及词义消歧等,因此本文详细介绍基于语义表示(Sense Representation)技术,而此领域作为一个基础领域可以在众多领域进行广泛的应用,例如:语义相似度、语义消歧、信息挖掘、语义聚类等等领域进行应用。并且系统的通过基于知识库(knowledge-based)和无监督(unsupervised)两个不同的技术体系与方案进行相关领域成果及方法系统的介绍。整个 Topic 虽无特别创新的地方,但是实用性较高,基于知识以及无监督的方法大部分在工业场景都可以借鉴,可以一读。

Slides 下载地址:http://wwwusers.di.uniroma1.it/~collados/Slides_ACL16Tutorial_SemanticRepresentation.pdf

 

4、《UnderstandingShort Texts》

短文本理解的主题从字面意思理解就非常接地气。在日常的很多领域中都会产生大量的短文本,包括搜索、问答以及对话、推荐等领域,而短文本带来的问题也非常明显,包括稀疏问题、噪音问题以及歧义问题。因此这里就会产生大量的工作以及有意思的工作。

 

本次报告的分享人是来自前微软亚洲研究院(MSRA)的研究员王仲远(目前已经在 Facebook)以及来自 Facebook 的王海勋(前 Google 以及前 MSRA 高级研究员)。可能是因为本次 Topic 分享人来自于企业界,加上相对接地气的分享主题,因此本次分享吸引了不少产业界以及学术领域的同学前来参加,包括 Amazon、Yelp、讯飞、百度、微软等。

 

本文在短文本的理解技术上从文本语义明确(Explict)表示与隐性(Implict)表示将处理的方法技术分成了两种类型:ERM(Explict Representation Model)和 IRM(ImplictRepresentation Model)。



图 4、EMR and IMR

 

ERM 还是基于结构化知识库或者知识图谱,切分成为单实例和上下文多实例的两种类型分别进行短文本的理解;

 

单实例的处理方式:单实例的查询是否有歧义,无歧义既返回,有歧义进行基础基础的概念模型进行归一和分类,最终进行语义相似度的方法进行倾向性理解的方法;

 

多实例短文本的方式:语义分词处理与切分(文中提到了有监督和无监督 N-Gram 的方式,而在实际场景这个问题相对会更加成熟,可以参考中文分词技术),实体及结合上下文的实体识别、消歧和类型标注,到实例之间的关系标注,到最终的语义相似度计算;

 

IRM 更多基于 embedding 和 deep learning 的方法做短文的理解与计算。本文还是有不少实际工业可以借鉴的地方,可以关注并读一下。

 

slides 下载地址:

http://www.wangzhongyuan.com/tutorial/ACL2016/Understanding-Short-Texts/

 

三、会议详细内容


1、机器翻译方向

Multimodal Pivots for Image CaptionTranslation》这篇论文入选了本届会议的杰出论文,作者是德国海德堡大学的 Julian Hitschlerand ShigehikoSchamoni 和 Stefan Riezler,所做的工作比较有新意。论文工作要解决的问题是改进图片标题的翻译质量,但并不是通过扩大双语句对、优化解码器等方法实现,而是先用图像检索的方法在目标语言图片库中检索与源语言图片相似的图片,然后用其所带的标题和机器翻译输出的译文组合之后进行重排序,从而显著提升了标题翻译的质量。对于改进机器翻译质量,这个工作并没有试图直接硬碰硬地去改进核心算法,而是另辟蹊径,反而取得了更好的结果。

 

《Modeling Coveragefor Neural Machine Translation》这篇论文的作者是来自华为诺亚方舟实验室的涂兆鹏博士和李航博士,其核心思想是要解决之前基于注意力(attention)的 NMT 框架中由于缺少已翻译范围指引而导致的过翻(over-translation)或欠翻(under-translation)问题。论文引入了一个覆盖向量来跟踪 NMT 的 attention 历史,并在解码过程中反馈给 attention 模型,帮助后者不断调整未来的 attention,从而从全局上记录哪些词已翻,哪些词未翻。这个工作解决了之前 NMT 框架中一个比较明显的缺口,对于 NMT 系统的实用化具有很好的价值。

 

《Phrase-LevelCombination of SMT and TM Using Constrained Word Lattice》,这篇论文的作者是来自于都柏林大学 ADAPT 中心的刘群教授、Andy Way 和李良友。文中使用了一种受限词图结构,将输入的短语和由记忆库施加的约束条件编码到一个向量里,从而将 SMT 和 TM 在句子级实现了融合。这是众多 NMT 论文中为数不多的仍然以传统 SMT 和记忆库(TM)为主题的工作。考虑到 TM 在实用系统中仍是不可缺少的部分,这个工作也是具有一定的应用前景的。



图 5、Phrase-Level Combination of SMT and TM UsingConstrained Word Lattice


2、机器阅读与理解

机器阅读理解是约在 5、6 年前逐渐为人关注的领域,它可以说是自然语言理解的终极形态。这个领域的研究形式是让机器先处理一篇文章(新闻文章或短篇故事),然后回答跟文章内容相关的填充题,要填充的一般都是某个实体的名字。(注:为了避免利用外部资源来作弊,常用做法是把实体名字替换成’@entity1’等特殊符号。)

 

本届 ACL 会议正好有一篇优秀论文(“A Thorough Examination ofthe CNN/Daily Mail Reading Comprehension Task”)是关于阅读理解的。该论文的重点在于借助一个基于 CNN 和每日邮报新闻数据的评测数据集去探讨当前阅读理解技术所能解决的范围。论文作者实现了两个相当标准的系统,一个基于传统分类器,另一个基于神经网络,然后对两个系统的表现作抽样调研。调研结果是:(i) 只需要字面匹配就能解答的问题是两个系统都能百分百回答正确的;(ii) 大部分阅读理解问题的关键在于同义表达的理解和若干程度的文本、常识推理,这方面基于神经网络的系统能达到 90%上下的水平;(iii) 牵涉到代词指代和需要消化多个句子信息的问题,两个系统的表现都只达到 50%左右;(iv)连一般人都难以回答的问题,机器也同样没辙,只能偶尔蒙中一两题而已。换言之,这篇论文一方面印证了神经网络确实是解决同义表达和简单文本推理的一个良好框架,但同时亦指出了要机器阅读理解的未来方向在于篇章级的理解方法。

 

另外一篇论文“Text Understanding with theAttention Sum Reader Network”在这个 CNN/每日邮报数据集上使用了另外一套基于神经网络的方法,也得到几乎一样的准确率,印证了顶尖研究者都已经达到一样的水平了。

 

3、语言与视觉

这个又名“language grounding”的领域是 NLP 和 computer vision 的交叉领域,近年来也越来越受到关注。今年 ACL 有两篇论文对现实产品有相当意义。第一篇是“Learning Prototypical EventStructure from Photo Albums”。这篇论文指出不少照片簿其实都是关于一个大主题(例如婚礼),这个大主题往往由好几个小主题组成(例如交换戒指、新郎亲吻新娘、抛花球、切结婚蛋糕),而这些小主题往往也有一个时序。(见图 6)论文作者于是提出一套方法,利用照片图像之间的相似度/差异度、照片标题的相似度/差异度、主题之间的顺序关系来对照片簿进行切分,并利用图像分类和文本分类对每个切分出来的部分给出一个主题标签。



图 6、照片簿的自动切分和分类


第二篇值得注意的论文是来自微软研究院的“Generating Natural Questions about an Image”。论文指出目前的 image captioning(自动赋予图片标题)研究通常都会对照片给一个很客观但也很干巴巴、‘没有人文关怀’的标题,例如对于图 7 中的照片,一般的系统都会给出“有个人在摩托车旁边”或类似的标题。这种标题抓不住整张图片的重点,因此也不能引起读者兴趣。这篇论文应该是关于 Tay(英文版微软小冰)的一个功能,就是用户上传一张如图 7 的照片,然后聊天机器人回应一句像“发生什么意外了?”或“司机受伤了吗?”的回应。论文作者收集了并人工标注了一个相关的数据集,也提出生成式和检索式的两套方法。                   



图 7、自然与不自然的相片标题

未完待续,敬请关注《下篇》。下篇将介绍对话系统、信息抽取与情感分析、句法分析、词向量和句向量等相关方向的优秀论文。


发布于: 1 小时前阅读数: 5
用户头像

阿里技术

关注

还未添加个人签名 2021.11.22 加入

还未添加个人简介

评论

发布
暂无评论
[干货]深度学习即将攻陷的下一个领域:NLP——ACL2016优秀论文解读(上篇)