关于深度学习量化的操作

2024-09-18
四川
本文字数：1474 字
阅读完需：约 5 分钟

0. 简介

深度学习中做量化提升运行速度是最常用的方法，尤其是大模型这类非常吃 GPU 显存的方法。一般是高精度浮点数表示的网络权值以及激活值用低精度（例如 8 比特定点）来近似表示达到模型轻量化，加速深度学习模型推理，目前 8 比特推理已经比较成熟。比如 int8 量化，就是让原来 32bit 存储的数字映射到 8bit 存储。int8 范围是[-128,127]， uint8 范围是[0,255]。

使用低精度的模型推理的优点：1. 模型存储主要是每个层的权值，量化后模型占用空间小，32 比特可以缩减至 8 比特，并且激活值用 8 比特后，减小了内存的访问带宽需求。2：单位时间内处理定点运算指令比浮点数运算指令多。

1. 量化分类

一般按照量化阶段不同分为后量化和训练时量化，用的比较多的是后量化，像 tensorRT 和 RKNN 按照量化映射方法又可以分为对称量化和非对称量化。

1.1 非对称量化（uint8 0-256）

非对称量化需要一个偏移量 Z 来完成零点的映射，即量化前的零点和量化后的零点不一致。非对称量化的一般公式为:

S=rmax−rminqmax−qminS=qmax−qminrmax−rmin

Z=qmax−Round(rmaxS)Z=qmax−Round(Srmax)

rmaxrmax和 rminrmin表示真实数据的最大值和最小值， qmaxqmax和 qminqmin表示量化后的最大值和最小值，例如 uint8 就是 0 和 256。 Round()表示取整，如果是量化为 int 型。

1.1.1 量化

q=Round(rS+Z)q=Round(Sr+Z)

1.1.2 反量化

r=(q−Z)∗Sr=(q−Z)∗S

1.2 对称量化（int8 -128-127）

对称算法是通过一个收缩因子，将 FP32 中的最大绝对值映射到 8 比特的最大值，最大绝对值的负值（注意此值不是 fp32 的最小值，是最大绝对值的相反数，故对称）映射到 8 比特的最小值。对称量化在量化前和量化后的零点保持一致，即零点对应，因此无需像非对称量化那样引入一个偏移量 Z。对称量化的一般公式为:

S=∣rmax∣∣qmax∣S=∣qmax∣∣rmax∣