vLLM源码
0 人感兴趣 · 5 次引用
- 最新
- 推荐



解析 vLLM 架构及源码系列:KVCache 初始化之 V1 版本分析
今天这篇文章是源码分析系列中最难写的文章,KVCache到底怎么管理的呢? 只要看过vLLM 资料的相比都能脱口而出,PageAttention嘛,Block嘛,但是到底怎么实现的呢?

解析 vLLM 架构及源码系列 - API Server
vLLM是一个推理框架,支持在线推理和离线推理,更多的时候,在线推理的需求更多。这篇文章分析一下vLLM 在进行API推理的时候,是如何进行数据流转的。

解析 vLLM 架构及源码系列 - 整体架构
最近准备梳理一下vLLM推理框架的源码结构,网上也有不少的文章,但是并没有找到一个心仪的技术架构图。