写点什么

Mega 改进序列模型,引入移动平均捕捉时空依赖

作者:Zilliz
  • 2023-01-16
    北京
  • 本文字数:476 字

    阅读完需:约 2 分钟

Mega 改进序列模型,引入移动平均捕捉时空依赖

出品人:Towhee 技术团队 顾梦佳


Transformer 注意力机制的设计包括弱归纳偏置和复杂的二次计算,限制了它对长序列建模的应用。为了更好地使用单个模型捕捉序列数据中的长距离依赖,移动平均单头门控注意力(Mega)尝试沿时间维度,使用经典的指数滑动平均(EMA)方法引入偏差,并提出了一种具有线性复杂度的变体。通过在广泛的序列建模基准上进行实验,比如 Long Range Arena、神经机器翻译、自回归语言建模以及图像和语音分类,Mega 相比其他序列模型(Transformer 的变种和最近的状态空间模型)表现出了明显的改进。


Mega Architecture


Mega 是一种简单的、有理论基础的、配备有(指数)移动平均的单头门控注意力机制,将位置感知的局部依赖的归纳偏差纳入与位置无关的注意力机制。Mega 变体则进一步将输入序列划分为固定大小,同时最小化上下文信息的损失。它提供了线性的时间和空间复杂性,但只产生最小的质量损失,通过有效地将整个序列分割成具有固定长度的多个块。


相关资料:

用户头像

Zilliz

关注

Reinvent data science 2021-10-09 加入

还未添加个人简介

评论

发布
暂无评论
Mega 改进序列模型,引入移动平均捕捉时空依赖_计算机视觉_Zilliz_InfoQ写作社区