写点什么

MLA

0 人感兴趣 · 1 次引用

  • 最新
  • 推荐
https://static001.geekbang.org/infoq/0b/0b612a98b4390c7d47581e3528b0aa50.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

「DeepSeek-V3 技术解析」:多头潜在注意力机制(MLA)

编者按: 模型在生成长序列文本时,键值缓存占用的显存是否让 GPU 不堪重负?如何在保持模型性能的同时有效降低大语言模型推理阶段的内存占用?

MLA_MLA技术文章_InfoQ写作社区