Mega 改进序列模型,引入移动平均捕捉时空依赖
出品人:Towhee 技术团队 顾梦佳
Transformer 注意力机制的设计包括弱归纳偏置和复杂的二次计算,限制了它对长序列建模的应用。为了更好地使用单个模型捕捉序列数据中的长距离依赖,移动平均单头门控注意力(Mega)尝试沿时间维度,使用经典的指数滑动平均(EMA)方法引入偏差,并提出了一种具有线性复杂度的变体。通过在广泛的序列建模基准上进行实验,比如 Long Range Arena、神经机器翻译、自回归语言建模以及图像和语音分类,Mega 相比其他序列模型(Transformer 的变种和最近的状态空间模型)表现出了明显的改进。
Mega Architecture
Mega 是一种简单的、有理论基础的、配备有(指数)移动平均的单头门控注意力机制,将位置感知的局部依赖的归纳偏差纳入与位置无关的注意力机制。Mega 变体则进一步将输入序列划分为固定大小,同时最小化上下文信息的损失。它提供了线性的时间和空间复杂性,但只产生最小的质量损失,通过有效地将整个序列分割成具有固定长度的多个块。
相关资料:
评论