论文分享:GLM: General Language Model Pretraining
作者:京东物流 朱天文
文章来源
Du, Z., Qian, Y., Liu, X., Ding, M., Qiu, J., Yang, Z., & Tang, J. (2022, May). GLM: General Language Model Pretraining with Autoregressive Blank Infilling. In Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) (pp. 320-335).
摘要
现有的预训练体系结构:自动编码模型(例如 BERT)、自回归模型(例如 GPT)和编码器-解码器模型(例如 T5)预训练框架针对的主要任务:自然语言理解(NLU)、无条件生成和条件生成,没有一个预训练框架在三个主要类别的所有任务中都表现得最好。
•GLM:提出了一种基于自回归空白填充的通用语言模型(GLM)
2D 位置编码和允许任意顺序预测跨度来改进空白填充预训练
通过改变空白的数量和长度,可以针对不同类型的任务对 GLM 进行预训练。
•最终结果:在给定相同的模型大小和数据的情况下,GLM 优于 BERT、T5 和 GPT,并在具有 1.25 个 BERTLarge 参数的单个预训练模型中实现了最佳性能,证明了其对不同下游任务的可推广性。备注: •自然语言理解:文本分类、分词、句法分析、信息抽取等•有条件生成:根据给定的条件(例如上下文、模板等)生成新的文本,(seq-seq,如翻译任务、QA)•无条件生成:从给定的文本数据中随机采样生成新的文本•自回归模型:不能让模型看到未来的词,这种方式成为 Autogressive•介绍的几个问题
(1)GLM 作为 ChatGLM 的基座模型,是怎么训练的?
(2)目前预训练结构是怎么分类的?
(3)同一个基座模型,如何针对不同的任务进行预训练?
1、介绍
一般来说,现有的预训练框架可以分为三类:自回归模型、自动编码模型和编码器-解码器模型。•自回归模型:GPT(Radford et al.,2018a),学习从左到右的语言模型。虽然它们在长文本生成中取得了成功,并且在扩展到数十亿个参数时显示出很少的学习能力(Radford et al.,2018b;Brown et al.,2020),但其固有的缺点是单向注意力机制,无法完全捕捉 NLU 任务中上下文词之间的依赖关系。•编码器:如 BERT(Devlin 等人,2019),通过去噪目标学习双向上下文编码器,如掩蔽语言模型(MLM)。编码器产生适合自然语言理解任务的上下文化表示,但不能直接应用于文本生成。•编码器-解码器模型:编码器-解码器模型对编码器采用双向关注,对解码器采用单向关注,并在它们之间进行交叉关注(Song et al.,2019;Bi 等人,2020;Lewis 等人,2019)。它们通常部署在条件生成任务中,如文本摘要和响应生成。T5(Raffel 等人,2020)通过编码器-解码器模型统一了 NLU 和条件生成,但需要更多的参数来匹配基于 BRET 的模型(如 RoBERTa(Liu 等人,2019)和 DeBERTa(He 等人,2021))的性能。最终,这些预训练框架都不够灵活,无法在所有 NLP 任务中具有竞争力。然而,由于自动编码和自回归目标本质上不同,简单的统一无法完全继承这两个框架的优势。在本文中,提出了一个基于自回归空白填充的预训练框架 GLM(通用语言模型)。

(1)按照自动编码的思想,从输入文本中随机剔除连续跨度的标记,并按照自回归预训练的思想训练模型以顺序重建跨度。(2)虽然空白填充已在 T5(Raffel 等人,2020)中用于文本到文本的预训练,但本文提出了两种改进,即跨度混洗和 2D 位置编码。受模式开发训练(PET)(Schick 和 Schuütze,2020a)的启发,本文将 NLU 任务重新表述为模仿人类语言的手工完形填空问题。与 PET 使用的基于 BERT 的模型不同,GLM 可以通过自回归填空自然地处理完形填空问题的多标记答案。
2、算法原理
2.1 自回归填充
GLM 是通过优化自回归空白填充目标来训练的。给定输入文本 x=[x1,⋯,xn]
,多个文本跨度为 s1,⋯,sm进行采样,其中每个跨度si 对应于 x 中的一系列连续标记[si,1,⋯,si,li]。每个跨度被单个[MASK]标记替换,形成损坏的文本xcorrupt。该模型以自回归的方式从损坏的文本预测跨度中的丢失令牌,这意味着当预测跨度中丢失的令牌时,该模型可以访问损坏的文本和先前预测的跨度。为了充分捕捉不同跨度之间的相互依赖性,我们随机排列跨度的顺序,类似于排列语言模型(Yang et al.,2019)。形式上,设Zm 是长度-m 的索引序列[1;2;;m]的所有可能排列的集合,并且sz<i 是sz1,⋯,szi−1,我们将预训练目标定义为

按照从左到右的顺序在每个空白中生成标记,即生成跨度 si 的概率被分解为:

总结:前面提到过,本篇文章的核心创新点,一个是 2D 位置编码,一个是允许任意顺序预测跨度来改进空白填充预训练。
2.2 多任务训练
GLM 屏蔽短跨度,适用于 NLU 任务。然而,感兴趣的是预训练一个可以处理 NLU 和文本生成的单一模型。然后,我们研究了一种多任务预训练设置,其中生成较长文本的第二个目标与空白填充目标联合优化。我们考虑以下两个目标:•文档级别。我们对单个跨度进行采样,其长度是从原始长度的 50%-100%的均匀分布中采样的。目标是生成长文本。•句子级别。我们限制掩码跨度必须是完整的句子。对多个跨度(句子)进行采样,以覆盖 15%的原始标记。这一目标针对的是 seq2seq 任务,其预测通常是完整的句子或段落。两个新目标的定义方式与原始目标相同,即等式 1。唯一的区别是跨度的数量和跨度的长度。总结:GLM 在另一个方面的展示,多任务上取得了综合性的效果。
2.3 整体的模型架构
GLM 使用单个 Transformer,并对架构进行了几次修改:(1)我们重新排列了层规范化和残差连接的顺序,这对大规模语言模型避免数值误差至关重要(Shoeybi et al.,2019);(2) 我们使用单个线性层来进行输出令牌预测;(3) 我们用 GeLU 代替 ReLU 激活函数(Hendrycks 和 Gimpel,2016)。

补充:PART A 不可以关注到 PARTB,但是 PARTB 可以关注到 PARTA。
2.4 2D 位置编码
自回归空白填充任务的挑战之一是如何对位置信息进行编码。转换器依靠位置编码来注入令牌的绝对位置和相对位置。我们提出了 2D 位置编码来应对这一挑战。具体来说,每个令牌都使用两个位置 id 进行编码。第一个位置 id 表示损坏的文本 xcorrupt 中的位置。对于掩码跨度,它是相应[MASK]标记的位置。第二个位置 id 表示跨度内的位置。对于 A 部分中的标记,它们的第二个位置 id 为 0。对于 B 部分中的标记,它们的范围从 1 到跨度的长度。通过可学习嵌入表将两个位置 id 投影到两个向量中,这两个嵌入表都被添加到输入令牌嵌入中。我们的编码方法确保模型在重建它们时不知道掩蔽跨度的长度。与其他型号相比,这是一个重要的区别。例如,XLNet(Yang et al.,2019)对原始位置进行编码,使其能够感知丢失令牌的数量,而 SpanBERT(Joshi et al.,2020)用多个[MASK]令牌替换跨度,并保持长度不变。我们的设计适合下游任务,因为通常生成的文本的长度事先未知。总结:设计适合下游任务,因为通常生成的文本的长度事先未知。
2.5 GLM 微调
通常,对于下游 NLU 任务,线性分类器将预训练模型产生的序列或标记的表示作为输入,并预测正确的标签。实践与生成式预训练任务不同,导致预训练和微调之间不一致。相反,我们将 NLU 分类任务重新表述为空白填充的生成任务,遵循 PET(Schick 和 Schuütze,2020a)。具体来说,给定一个标记的例子(x,y),我们通过包含单个掩码标记的模式将输入文本 x 转换为完形填空题 c(x)。该模式是用自然语言编写的,用于表示任务的语义。例如,情绪分类任务可以公式化为“{SENTENCE}。。候选标签y∈Y 也被映射到完形填空的答案,称为言语化器 v(y)。在情感分类中,标签“积极”和“消极”被映射到单词“好”和“坏”。给定 x 预测 y 的条件概率为

其中 Y 是标签集。因此,句子为正或负的概率与预测空白中的“好”或“坏”成正比。然后,我们用交叉熵损失来微调 GLM(见图 3)。

对于文本生成任务,给定的上下文构成输入的 A 部分,并在末尾附加一个掩码标记。该模型自回归地生成 B 部分的文本。我们可以直接将预训练的 GLM 应用于无条件生成,也可以将其微调到下游的条件生成任务中。总结:将原始的分类器做转换,变为一种自回归生成的方式,即将原始的类别当作 mask,进行自回归生成。
2.6 不同模型的讨论分析
在本节中,我们将讨论 GLM 与其他预训练模型之间的差异。我们主要关注的是它们如何适应下游的空白填充任务。与 BERT 的比较(Devlin 等人,2019)。正如(Yang et al.,2019)所指出的,由于传销的独立性假设,BERT 未能捕捉到掩蔽的相互依赖性。BERT 的另一个缺点是它不能正确地填充多个令牌的空白。为了推断长度为 l 的答案的概率,BERT 需要执行 l 个连续预测。如果长度 l 未知,我们可能需要枚举所有可能的长度,因为 BERT 需要根据长度更改[MASK]令牌的数量。与 XLNet 的比较(Yang et al.,2019)。GLM 和 XLNet 都是用自回归目标进行预训练的,但它们之间有两个区别。首先,XLNet 在损坏之前使用原始位置编码。在推理过程中,我们需要知道或枚举答案的长度,这与 BERT 问题相同。其次,XLNet 使用了双流自注意机制,而不是右移,以避免 Transformer 中的信息泄漏。这使预训练的时间成本增加了一倍。与 T5 的比较(Raffel 等人,2020)。T5 提出了类似的空白填充目标来预训练编码器-解码器转换器。T5 对编码器和解码器使用独立的位置编码,并依赖于多个标记来区分屏蔽跨度。在下游任务中,只使用一个哨兵令牌,导致模型容量浪费以及预训练和微调之间的不一致。此外,T5 总是以固定的从左到右的顺序预测跨度。因此,如第 3.2 节和第 3.3 节所述,GLM 在 NLU 和 seq2seq 任务中可以显著优于 T5,参数和数据更少。与 UniLM 的比较(Dong et al.,2019)。UniLM 通过在双向、单向和交叉注意力之间改变注意力掩码,在自动编码框架下结合了不同的预训练目标。然而,UniLM 总是用[MASK]标记替换屏蔽跨度,这限制了它对屏蔽跨度及其上下文之间的依赖关系进行建模的能力。GLM 输入前一个令牌,并自回归生成下一个令牌。在下游生成任务上对 UniLM 进行微调也依赖于屏蔽语言建模,这效率较低。UniLMv2(Bao et al.,2020)对生成任务采用部分自回归建模,并对 NLU 任务采用自动编码目标。相反,GLM 将 NLU 和生成任务与自回归预训练相统一。总结:对比 BERT,XLNet,T5,UniLM,这些模型都有自己的训练方式,但是也存在着自己的弊端。
3、实验
3.2 SuperGLUE
为了评估我们预训练的 GLM 模型,我们在 SuperGLUE 基准测试(Wang et al.,2019)上进行了实验,并报告了标准指标。SuperGLUE 由 8 个具有挑战性的 NLU 任务组成。根据 PET,我们将分类任务重新表述为空白填充,其中填充了人工制作的完形填空问题(Schick 和 Schuütze,2020b)。然后,我们对每个任务的预训练 GLM 模型进行微调,如第 2.3 节所述。完形填空问题和其他细节见附录 B.1。
为了与 GLMBase 和 GLMLarge 进行公平的比较,我们选择 BERTBase 和 BERTLarge 作为我们的基线,它们在相同的语料库上预训练了相似的时间。我们报告了标准微调的性能(即[CLS]令牌表示上的分类)。完形填空题的 BERT 表现。为了与 GLMRoBERTa 进行比较,我们选择 T5、BARTLarge 和 RoBERTaLarge 作为基线。T5 在 BERTLarge 的参数数量上没有直接匹配,因此我们给出了 T5Base(220M 参数)和 T5Large(770M 参数)的结果。所有其他基线的大小与 BERTLarge 相似。总结:大模型的数据集是多样的,都可以通过挖词/句子的形式,进行填充。
3.1 预训练设置
为了与 BERT(Devlinetal.,2019)进行公平的比较,我们使用 BooksCorpus(Zhu et al.,2015)和英语维基百科作为我们的预训练数据。我们使用了 BERT 的无字幕单词片标记器,拥有 30k 个词汇。我们使用与 BERTBase 和 BERTLarge 相同的架构来训练 GLMBase 和 GLMLarge,分别包含 110M 和 340M 个参数。
对于多任务预训练,我们使用空白填充目标和文档级或句子级目标的混合来训练两个 Largesized 模型,表示为 GLMDoc 和 GLMSent。此外,我们通过文档级多任务预训练训练了两个较大的 GLM 模型,即 410M(30 层,隐藏大小 1024 和 16 个注意力头)和 515M(30 个层,隐藏尺寸 1152 和 18 个注意力头,参数表示为 GLM410M 和 GLM515M)。
总结:同架构模拟与效果比较。对于多任务预训练,我们使用空白填充目标和文档级或句子级目标的混合来训练两个 Largesized 模型,表示为 GLMDoc 和 GLMSent。此外,我们通过文档级多任务预训练训练了两个较大的 GLM 模型,即 410M(30 层,隐藏大小 1024 和 16 个注意力头)和 515M(30 个层,隐藏尺寸 1152 和 18 个注意力头,参数表示为 GLM410M 和 GLM515M)。为了与 SOTA 模型进行比较,我们还训练了一个具有与 RoBERTa(Liu et al.,2019)相同的数据、标记化和超参数的大型模型,表示为 GLMRoBERTa。由于资源限制,我们只对模型进行 250000 步的预训练,这是 RoBERTa 和 BART 训练步骤的一半,训练的令牌数量接近 T5。更多实验细节见。实验结果在 SuperGLUE 基准上进行测试(Wang et al.,2019),总计 8 个挑战性任务。

GLM 在大多数基本或大型架构的任务中始终优于 BERT。唯一的例外是 WiC(词义消歧)。GLMBase 平均得分 4.6%。GLMLarge 的得分比 BERTLarge 高 5.0%。结果如表 1 所示。在相同数量的训练数据下,GLM 在大多数基本或大型架构的任务中始终优于 BERT。唯一的例外是 WiC(词义消歧)。GLMBase 平均得分 4.6%。GLMLarge 的得分比 BERTLarge 高 5.0%。这清楚地表明了我们的方法在 NLU 任务中的优势。在 RoBERTaLarge 的设置中,GLMRoBERTa 仍然可以实现对基线的改进,但幅度较小。具体来说,GLMRoBERTa 的性能优于 T5Large,但只有其一半的尺寸。BERTBase 和 GLMBase具备相同的架构,包含 110M 参数,BERTLarge 和 GLMLarge具备相同的架构,包含 340M 参数
GLMDoc:文档级的训练GLMSent:句子级的训练GLM410M:30 层、隐层维度 1024,16 个注意力头GLM515M:20 层、隐层维度 1024,18 个注意力头GLMRoBERTa:与 RoBERAa 拥有相同的超参数。

FFN inner Size:深度学习模型中的前馈神经网络(Feed-Forward Network, FFN)内部隐藏层的大小 Dropout 与 Attention Dropout:Attention Dropout 是专门应用于注意机制中的注意力权重,即随机丢弃一部分权重,增强注意力机制的鲁棒性和泛化能力。
Warmup Steps:Warmup 阶段:在前 6000 步中,学习率从一个较低的初始值逐步增加到预设的学习率。例如,如果预设学习率是 (η
),初始学习率是 (η0),那么在第 ( t ) 步的学习率 (ηt) 可以表示为:
ηt=η0+6000t×(η−η0)for0≤t<6000Peak Learning Rate:学习率在训练过程中,达到的最高值。学习率的学习过程包含初始阶段,预热阶段,余弦退火(学习率按照余弦函数的形式在训练过程中周期性变化)等。WeightDecay:权重衰减,抑制模型的过拟合能力。Gradient Clipping:梯度裁剪,防止梯度爆炸问题。1.0 是 torch.optim 中设置的最大梯度范数,如果大于 1.0,则进行裁剪。
3.3 多任务预训练
然后,评估 GLM 在多任务环境中的性能。在一个训练批次中,以相同的机会对短跨度和长跨度(文档级别或句子级别)进行采样。我们评估了 NLU、seq2seq、空白填充和零样本语言建模的多任务模型。SuperGLUE. 对于 NLU 任务,我们在 SuperGLUE 基准上评估模型。结果也如表 1 所示。我们观察到,在多任务预训练中,GLMDoc 和 GLMSent 的表现略逊于 GLMLarge,但仍优于 BERTLarge 和 UniLMLarge。在多任务模型中,GLMSent 平均优于 GLMDoc 1.1%。将 GLMDoc 的参数增加到 410M(1.25 BERTLarge)比 GLMLarge 性能更好。具有 515M 参数(1.5 BERTLarge)的 GLM 性能甚至更好。Sequence-to-Sequence. 考虑到可用的基线结果,我们使用 Gigaword 数据集(Rush et al.,2015)进行抽象摘要,使用 SQuAD 1.1 数据集(Rajpurkar et al.,2016)进行问题生成(Du et al.。,2017)作为在 BookCorpus 和维基百科上预训练的模型的基准。此外,我们使用 CNN/DaylyMail(See et al.,2017)和 XSum(Narayan et al.,2018)数据集进行抽象摘要,作为在较大语料库上预训练的模型的基准。在较大语料库上训练的模型的结果如表 2 所示。GLMRoBERTa 可以实现与 seq2seq BART 模型相匹配的性能,并优于 T5 和 UniLMv2。

在 BookCorpus 和维基百科上训练的模型的结果如表 3 和表 4 所示。我们观察到,GLMLarge 可以在两个生成任务上实现与其他预训练模型的性能匹配。GLMSent 的性能比 GLMLarge 好,而 GLMDoc 的性能略差。这表明文档级目标(教导模型扩展给定上下文)对条件生成(旨在从上下文中提取有用信息)的帮助较小。将 GLMDoc 的参数增加到 410M 可以在这两项任务上获得最佳性能。

文本填充。文本填充是预测与周围上下文一致的文本缺失跨度的任务(Zhuet al.,2019;Donahue 等人,2020;Shen 等人,2020)。GLM 是用自回归填空目标训练的,因此可以直接解决这一任务。我们在 Yahoo Answers 数据集(Yang et al.,2017)上评估了 GLM,并将其与空白语言模型(BLM)(Shen et al.,2020)进行了比较,后者是一种专门设计的文本填充模型。从表 5 中的结果来看,GLM 在很大程度上优于以前的方法(1.3 到 3.9 BLEU),并在该数据集上实现了最先进的结果。我们注意到 GLMDoc 的表现略逊于 GLMLarge,这与我们在 seq2seq 实验中的观察结果一致。语言建模。大多数语言建模数据集(如 WikiText103)都是从维基百科文档构建的,我们的预训练数据集已经包含了这些文档。因此,我们在预训练数据集的一个测试集上评估语言建模的困惑,该测试集包含大约 20M 个令牌,表示为 BookWiki。我们还在 LAMBADA 数据集(Paperno et al.,2016)上评估了 GLM,该数据集测试了系统在文本中对长程依赖关系建模的能力。任务是预测一段话的最后一个单词。作为基线,我们使用与 GLMLarge 相同的数据和标记化来训练 GPTLage 模型(Radford 等人,2018b;Brown 等人,2020)。结果如图 4 所示。所有模型均在零样本设置下进行评估。由于 GLM 学习双向注意力,我们也在上下文编码为双向注意力的情况下评估 GLM。在预训练过程中,如果没有生成目标,GLMLarge 就无法完成语言建模任务,困惑度大于 100。在相同数量的参数下,GLMDoc 的性能比 GPTLage 差。这是意料之中的,因为 GLMDoc 还优化了空白填充目标。将模型的参数增加到 410M(GPTLage 的 1.25)会使性能接近 GPTLage。GLM515M(GPtlage 的 1.5)可以进一步优于 GPTLage,在参数相同的情况下,对上下文进行双向关注编码可以提高语言建模的性能。在此设置下,GLM410M 的性能优于 GPTLage。这是 GLM 相对于单向 GPT 的优势。我们还研究了二维位置编码对长文本生成的贡献。我们发现,去除二维位置编码会导致语言建模的准确性较低和较高的困惑。总结:在 SuperGLU(自然语言理解任务)、Sequence-to-Sequence、文本填充、语言建模等,在任务训练中,给出了现有模型的效果。
3.4 消融实验

BERTLarge:官方的结果BERTLarge(reproduced):GLM 作者自己做了实现、包括数据与超参进行训练BERTLarge(cloze):具有完形填空风格的 BERTGLMLarge:
-colze finetune:不使用完形填空微调
-shuffle spans:不进行 shuffle spans
+sentinel tokens:使用 sentinel_tokens,这是用于标记或分隔文本片段的特殊令牌表 6 显示了我们对 GLM 的消融分析。首先,为了提供与 BERT 的 apple-to-apple(两个相似物体的横向)比较,我们用我们的实现、数据和超参数训练了一个 BERTLarge 模型(第 2 行)。性能略低于官方 BERTLarge,明显低于 GLMLarge。这证实了 GLM 在 NLU 任务上优于掩蔽 LM 预训练。其次,我们展示了作为序列分类器(第 5 行)微调的 GLM 和具有完形填空风格微调的 BERT(第 3 行)的 SuperGLUE 性能。与带有完形填空风格微调的 BERT 相比,GLM 得益于自回归预训练。特别是在 ReCoRD 和 WSC 上,其中描述器由多个令牌组成,GLM 始终优于 BERT。这证明了 GLM 在处理可变长度坯料方面的优势。另一个观察结果是完形填空公式对 GLM 在 NLU 任务中的表现至关重要。对于大模型,完形填空技巧微调可以将性能提高 7 分。最后,我们将 GLM 变体与不同的预训练设计进行比较,以了解其重要性。第 6 行显示,去除跨度混洗(总是从左到右预测屏蔽跨度)会导致 SuperGLUE 的性能严重下降。第 7 行使用不同的 sentinel 令牌而不是单个[MASK]令牌来表示不同的掩码跨度。该模型的性能比标准 GLM 差。我们假设,学习不同的哨兵标记会浪费一些建模能力,这些标记不会在只有一个空白的下游任务中使用。在图 4 中,我们展示了删除 2D 位置编码的第二个维度会损害长文本生成的性能。我们注意到 T5 是用类似的空白填充目标进行预训练的。总结:GLM 在三个方面有所不同:(1) GLM 由单个编码器组成,(2)GLM 对掩码跨度进行混洗,以及(3)GLM 使用单个[MASK]而不是多个哨兵令牌。虽然由于训练数据和参数数量的差异,我们无法直接将 GLM 与 T5 进行比较,但表 1 和表 6 中的结果已经证明了 GLM 的优势。
3.5 相关工作
预训练语言模型。大规模语言模型的预训练显著提高了下游任务的性能。有三种类型的预训练模型。首先,自动编码模型通过去噪目标学习用于自然语言理解的双向上下文编码器(Devlin et al.,2019;Joshi et al.,2020;Yang 等人,2019;刘等人,2019 年;Lan 等人,2020;Clark 等人,2017)。其次,使用从左到右的语言建模目标来训练自回归模型(Radford 等人,2018a,b;Brown 等人,2020)。第三,对编码器-解码器模型进行序列到序列任务的预训练(Song et al.,2019;Lewis 等人,2019;Bi 等人,2020;Zhang 等人,2020)。在编码器-解码器模型中,BART(Lewis et al.,2019)通过向编码器和解码器提供相同的输入,并获取解码器的最终隐藏状态来执行 NLU 任务。相反,T5(Raffel et al.,2020)在文本到文本框架中制定了大多数语言任务。然而,这两个模型都需要更多的参数才能优于 RoBERTa 等自动编码模型(Liu et al.,2019)。UniLM(Dong et al.,2019;Bao et al.,2020)在不同关注度的掩蔽语言建模目标下统一了三种预训练模型 MASK。NLU 作为生成。以前,预训练的语言模型在学习的表示上使用线性分类器完成 NLU 的分类任务。GPT-2(Radford 等人,2018b)和 GPT-3(Brown 等人,2020)表明,生成语言模型可以通过直接预测正确答案来完成 NLU 任务,如问答,而无需微调、给定任务指令或几个标记的例子。然而,由于单向注意力的限制,生成模型需要更多的参数才能工作。最近,PET(Schick 和 Schuütze,2020a,b)提出将输入示例重新表述为完形填空题,其模式与少镜头环境中的预训练语料库相似。研究表明,与基于梯度的微调相结合,PET 可以在少数镜头设置中实现比 GPT-3 更好的性能,同时只需要其 0.1%的参数。类似地,Athiwaratkun 等人(2020)和 Paolini 等人(2020 年)将结构化预测任务(如序列标记和关系提取)转换为序列生成任务。•问题一与答案一:
问题:生成任务是不是越多参数越好,参数降低是否可以达到同样的效果?
答案:生成任务需要更多的参数才能工作。但通过梯度微调,可以实现更少的参数,达到同样的效果,但可能在少数人任务上有效。
•问题二与答案二:
问题:由于单向注意力的限制,生成模型需要更多的参数才能工作?
答案:每个位置只能访问它之前的位置的信息,而不能访问之后的位置的信息。这种限制意味着模型在每一步生成时只能基于部分上下文进行推断,而不是全局上下文。因此,模型需要更多的参数来更好地捕捉和存储序列中的信息,从而在生成过程中做出更准确的预测。
4、结论
GLM 是一种用于自然语言理解和生成的通用预训练框架。我们展示了 NLU 任务可以公式化为条件生成任务,因此可以通过自回归模型求解。GLM 将不同任务的预训练目标统一为自回归空白填充,使用混合注意力掩码和新颖的 2D 位置编码。经验上,我们表明,对于 NLU 任务,GLM 优于以前的方法,并且可以有效地共享不同任务的参数。
版权声明: 本文为 InfoQ 作者【京东科技开发者】的原创文章。
原文链接:【http://xie.infoq.cn/article/e7fcac5a545f08acd86e178fa】。文章转载请联系作者。
评论