写点什么

PagedAttention

0 人感兴趣 · 2 次引用

  • 最新
  • 推荐
https://static001.geekbang.org/infoq/5c/5c7a766159c7779e5466ebe6048dea7f.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

Ascend 上的 PageAttention

用户头像
zjun
12-18

PageAttention的引入主要是为了解决大型语言模型(LLM)在服务过程中遇到的内存管理低效问题,具体原因如下:

PagedAttention_PagedAttention技术文章_InfoQ写作社区