写点什么

ICLR 2022|唯快不破!北航、NTU、百度飞桨提出面向极限压缩的全二值化 BiBERT

作者:百度大脑
  • 2022 年 3 月 03 日
  • 本文字数:2503 字

    阅读完需:约 8 分钟

近年来,预训练语言模型在自然语言处理上表现出色,但其庞大的参数量阻碍了它在真实世界的硬件设备上的部署。近日,机器学习顶会 ICLR 2022 接收论文结果已经正式公布,至少有 9 项工作展示了神经网络量化方向的相关进展。本文将介绍首个用于自然语言任务的全二值量化 BERT 模型——BiBERT,具有高达 56.3 倍和 31.2 倍的 FLOPs 和模型尺寸的节省。这项研究工作由北京航空航天大学刘祥龙教授团队、南洋理工大学和百度公司飞桨团队共同完成。

预训练语言模型在自然语言处理上表现出色,但其庞大的参数量阻碍了它在真实世界的硬件设备上的部署。现有的模型压缩方法包括参数量化、蒸馏、剪枝、参数共享等等。其中,参数量化方法高效地通过将浮点参数转换为定点数表示,使模型变得紧凑。研究者们提出了许多方案例如 Q-BERT[1]、Q8BERT[2]、GOBO[3]等,但量化模型仍旧面临严重的表达能力有限和优化困难的问题。幸运的是,知识蒸馏作为一种惯用的辅助优化的手段,令量化模型模仿全精度教师模型的特征表达,从而较好地解决精度损失问题。

在本文中,来自北航、NTU、百度飞桨的研究人员提出了 BiBERT,将权重、激活和嵌入均量化到 1 比特(而不仅仅是将权重量化到 1 比特,而激活维持在 4 比特或更高)。这样能使模型在推理时使用逐位运算操作,大大加快了模型部署到真实硬件时的推理速度。我们研究了 BERT 模型在二值化过程中的性能损失,作者在信息理论的基础上引入了一个高效的 Bi-Attention(二值注意力)机制,解决前向传播中二值化后的注意力机制的信息退化问题;提出方向匹配蒸馏(Direction-Matching Distillation)方法,解决后向传播中蒸馏的优化方向不匹配问题。

图 1 BiBERT 的整体框架图

BiBERT 首次证明了 BERT 模型全二值化的可行性,在 GLUE 数据集上的准确性极大地超越了现有的 BERT 模型二值化算法,甚至超过了更高比特表示的模型。在模型计算量和体积上,BiBERT 理论上能够带来 56.3 倍和 31.2 倍的 FLOPs 和模型尺寸的减少。

方法

Bi-Attention:二值化注意力机制

我们的研究表明,在 BERT 模型的注意力机制中,softmax 函数得到的归一化注意力权重被视为遵循一个概率分布,而直接对其进行二值化会导致完全的信息丧失,其信息熵退化为 0(见图 2)。

图 2 直接对 softmax 函数应用二值化导致完全的信息丧失

一个缓解这种信息退化的常用措施是,在应用 sign 函数之前对输入张量的分布进行移位,可以表示为:

其中,移位参数也被认为是二值化的阈值,希望能使二值化后的熵达到最大。

我们注意到,softmax 函数是保序的,这意味着存在一个固定的阈值使二值化表示的信息熵最大化。受到 Hard Attention 的启发[4],作者用 bool 函数来二值化注意力权重 A:

通过应用 bool 函数,注意权重中值较低的元素被二值化为 0,因此得到的熵值最大的注意权重可以过滤出关键部分的元素。最终二值注意力机制可以被表示为:

其中,BV 是通过 sign 函数二值化得到的 value 值,BA 是二值化注意力权重,是一个精心设计的 Bitwise-Affine 矩阵乘法(BAMM)运算器,由和位移组成,用于对齐训练和推理表征并进行有效的位计算。

DMD: 方向匹配蒸馏

作者发现,由于注意力权重是两个二值化的激活直接相乘而得,因此,处于决策边缘的值很容易被二值化到相反一侧,从而直接优化注意力权重常常在训练过程中发生优化方向失配问题。(见图 3)

图 3 优化方向失配

因此,作者设计了新的蒸馏方案,即针对上游的 Query、Key 和 Value 矩阵,构建相似性矩阵进行对激活的蒸馏:

其中,||·||表示 L2 正则化。之前的研究工作表明,以这种方式构建的矩阵被认为能够反映网络对于特定模式的语义理解,并无视尺度和数值大小影响,能够更加稳定地表示特征之间的内生相关性,更适合二值和全精度网络之间的知识传递。

因此,蒸馏损失可以表示为对隐藏层、预测结果和上述激活相似性矩阵的损失之和:

其中 L 表示 transformer 的层数,

实验

作者的实验证明了所提出的 BiBERT 能够出色地解决二值化 BERT 模型在 GLUE 基准数据集的部分任务上精度崩溃的问题,使模型能够稳定优化。表 1 表明所提出的 Bi-Attention 和 DMD 均可以显著提升模型在二值化后的表现。

表 1 消融实验

表 2 和表 3 中,作者展示了 BiBERT 优于其他 BERT 二值化方法,甚至优于更高比特的量化方案:

表 2 基于 BERT 的二值化方法对比(无数据增强)

表 3 基于 BERT 的二值化方法对比(有数据增强)

其中,50%表示要求二值化后有一半的注意力权重为 0,且表中无特殊说明均采用 12 层的 BERT 模型进行量化。此外,作者测量了在训练过程中的信息熵(见图 4),作者提出的方法有效地恢复了注意力机制中完全损失的信息熵。

图 4 训练过程中的信息熵

同时,作者绘制了训练时的 loss 下降曲线和准确率,BiBERT 相比于基线明显更快收敛、准确性更高。

图 5 训练时的 Loss 和准确率曲线

总结

作者提出的 BiBERT 作为第一个 BERT 模型的全二值化方法,为之后研究 BERT 二值化建立了理论基础,并分析了其性能下降的原因,针对性地提出了 Bi-Attention 和 DMD 方法,有效提高模型的性能表现。BiBERT 超过了现有的 BERT 模型二值化方法,甚至优于采用更多比特的量化方案,理论上 BiBERT 能够带来 56.3 倍的 FLOPs 减少和 31.2 倍的模型存储节省。希望该工作能够为未来的研究打下坚实的基础。

BiBERT 即将基于百度飞桨开源深度学习模型压缩工具 PaddleSlim 开源,尽请期待。PaddleSlim:https://github.com/PaddlePaddle/PaddleSlim

传送门

会议论文:https://openreview.net/forum?id=5xEgrl_5FAJ

Reference

[1] Sheng Shen, Zhen Dong, Jiayu Ye, Linjian Ma, Zhewei Yao, Amir Gholami, Michael W. Mahoney, and Kurt Keutzer. Q-BERT: hessian based ultra low precision quantization of BERT. In AAAI, 2020.[2] Ofir Zafrir, Guy Boudoukh, Peter Izsak, and Moshe Wasserblat. Q8BERT: quantized 8bit BERT. In NeurIPS, 2019.[3] Ali Hadi Zadeh, Isak Edo, Omar Mohamed Awad, and Andreas Moshovos. GOBO: quantizing attention-based NLP models for low latency and energy efficient inference. In MICRO, 2020.[4] Kelvin Xu, Jimmy Ba, Ryan Kiros, Kyunghyun Cho, Aaron Courville, Ruslan Salakhudinov, Rich Zemel, and Yoshua Bengio. Show, attend and tell: Neural image caption generation with visual attention. In ICML, 2015.

用户头像

百度大脑

关注

用科技让复杂的世界更简单 2020.07.15 加入

百度大脑是百度技术多年积累和业务实践的集大成,包括视觉、语音、自然语言处理、知识图谱、深度学习等 AI 核心技术和 AI 开放平台。 即刻获取百度AI相关技术,可访问 ai.baidu.com了解更多!

评论

发布
暂无评论
ICLR 2022|唯快不破!北航、NTU、百度飞桨提出面向极限压缩的全二值化BiBERT_百度大脑_InfoQ写作平台