0 人感兴趣 · 1 次引用
深度学习中做量化提升运行速度是最常用的方法,尤其是大模型这类非常吃GPU显存的方法。一般是高精度浮点数表示的网络权值以及激活值用低精度(例如8比特定点)来近似表示达到模型轻量化,加速深度学习模型推理,目前8比特推理已经比较成熟。比如int8量化,就
一个日语专业的程序猿。
提供全面深入的云计算技术干货
InfoQ签约作者
还未添加个人签名
专注分享阿里技术的丰富实践和前沿创新。