(1-23/23)Transformer 依然很强
2022.1.28 腊月二十八 晴
2017 年的一声惊雷,给 AI 界带来了 Transformer。
首先是在自然语言处理各大任务上横扫各路模型,成为孤独求败。后又继续高歌猛进,荡平图音。
2018 年,BERT 以 Transformer 为内核,启动了「大模型」时代。
2020 年,一众老学者们都惊叹,NLP 进入了第四范式: 「预训练+微调」。
时至今日,我们还在「预训练+微调」的范式的狂海怒波中沉浮、卷起滔天浪花。
大模型被各大媒体机构预测为是今后 AI 的主流。
但也有不少冷静的学者,在角落观察着这躁动的浮世绘。
这不,Transformer 的同门(谷歌)学者们,发表了一系列对 Transformer 的分析,希望打破世人对它盲目的葱白,呈现给大家更广阔的视野。
今天说的就是这么一个文章,来自 ACL2021,作者全来自谷歌,题为:《Are Pre-trained Convolutions Better than Pre-trained Transformers?》
标题就很火爆:预训练的卷积架构不比预训练的 Transformer 们更香吗?
这篇文章的行文,夹杂着学术论文中少有的「感性」。
读读这些句子:
::连 stole the hearts 这样柔情似水的表达都出来了,好风趣,好文艺,顿时让我神清气爽::。
这段话的前后文大概是说这么件事情:
对上下文关系建模这件事情的历史已经很悠久了。现在万人迷的以 Transformer 为内核的各种大模型(BERT 等)都是从爷爷辈的 ELMo、CoVE 这些来的。而这些爷爷辈的杰出代表们都是以循环网络架构为核心的。
虽然现在这些以 Transformer 为内核大模型们享受着世俗的荣光(吃着堪比挖矿的算力),虽然不明说,却在处处被认为是比爷爷辈的先驱们更领先的技术。事实真的如此吗?爷爷辈的架构们真的就不扛打吗? 加上预训练机制难道就比预训练的 Transformer 们差吗?
这个文章一开头就憋着满满的怨气,想证明「不是这样的」,把我胃口也是吊的足足的。
Transformer 最本质的厉害点在于 self-attention 机制(自注意力),如下图(a)所示。这套机制以较为低廉的代能把自然语言等这种序列性依赖的东西之间的关联关系近乎全局地得以表达。 而卷积架构,基本上是局部关系。而循环架构呢,理论上是能把前面的信息一直往下传导,但是每一步都会折损,步数(字数)一多基本上也很难能把关联关系进行全局的有效表达。
这个文章基于 2019 年提出的一个动态卷积架构(上图(b)),加上预训练,在 8 大 NLP 任务上综合对比 Transformer 的当前扛把子(T5),发现在一些特定场景具备一定优势。当然,在某些场景还是要差。
直接看结果。
实验数据集:8 个,都是些比较简单的文本分类。TREC 稍微细粒度一些。
其中「Trans」就是 Transformer 架构,其他三个是卷积架构的变种。从实验数据看,在这 7 个文本任务上,貌似卷积架构大都有比较明确的超越。
但这 7 个任务都是比较简单的分类任务。而且我觉得在真实的实践项目中,并不一定是这样。训练调优这种事情,多花点时间精力总是能让自己倾心的那个方案涨点分数的。
另外,作者也非常客观地承认了,对于跨句子关系、篇章级等需要 cross-attention 的任务场景,卷积架构会比 Transformer 架构明显::拉胯(lackluster)::。
至于卷积架构的性能优势,暂不分析。
最终,(非常不情愿地)只能说一句,Transformer 目前还没遇到本质上的颠覆者。
参考文献
2020开年解读:NLP新范式凸显跨任务、跨语言能力,语音处理落地开花
版权声明: 本文为 InfoQ 作者【mtfelix】的原创文章。
原文链接:【http://xie.infoq.cn/article/73d259b3742b25b59a3bf7760】。文章转载请联系作者。
评论