0 人感兴趣 · 1 次引用
编者按: 模型在生成长序列文本时,键值缓存占用的显存是否让 GPU 不堪重负?如何在保持模型性能的同时有效降低大语言模型推理阶段的内存占用?
提供全面深入的云计算技术干货
InfoQ签约作者
还未添加个人签名