PagedAttention_PagedAttention技术文章_InfoQ写作社区

全部标签 



写点什么

登录注册

PagedAttention

0 人感兴趣 · 2 次引用

关注

最新
推荐

https://static001.geekbang.org/infoq/5c/5c7a766159c7779e5466ebe6048dea7f.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

Ascend 上的 PageAttention

12-18

PageAttention的引入主要是为了解决大型语言模型（LLM）在服务过程中遇到的内存管理低效问题，具体原因如下：

大模型 Ascend PagedAttention

https://static001.geekbang.org/infoq/e6/e64eaa7a48f3a4d3f96737aff81dfb08.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

vLLM×Milvus：如何高效管理 GPU 内存，减少大模型幻觉

11-14

通过PagedAttention算法在Serving阶段高效管理内存。

Milvus LLM vLLM PagedAttention

1

热门活动

优质合集

精选文章