写点什么

vLLM源码

0 人感兴趣 · 5 次引用

  • 最新
  • 推荐
https://static001.geekbang.org/infoq/79/79716d3d1460adea69bfb72a84b782b5.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

解析 vLLM 架构及源码系列:模型执行过程

用户头像
Jason黄
10 小时前

上一章讲到vLLM调度器的逻辑,本章开始介绍如何对请求进行执行。

https://static001.geekbang.org/infoq/9a/9a1940223b5c715305ec36c31f0d7b90.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

解析 vLLM 架构及源码系列:V1 调度器分析

调度器是V1 架构优化的重点,新的调度器逻辑得到了进一步的简化,例如:

https://static001.geekbang.org/infoq/4e/4e99342372d1c473fb2d5c3bfb3e550a.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

解析 vLLM 架构及源码系列:KVCache 初始化之 V1 版本分析

今天这篇文章是源码分析系列中最难写的文章,KVCache到底怎么管理的呢? 只要看过vLLM 资料的相比都能脱口而出,PageAttention嘛,Block嘛,但是到底怎么实现的呢?

https://static001.geekbang.org/infoq/b7/b7fa021d7e8e2c9ed3b447dd16d9e4b9.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

解析 vLLM 架构及源码系列 - API Server

vLLM是一个推理框架,支持在线推理和离线推理,更多的时候,在线推理的需求更多。这篇文章分析一下vLLM 在进行API推理的时候,是如何进行数据流转的。

https://static001.geekbang.org/infoq/fb/fb60cf4bde19d0d66f3807b68c8a1cb9.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

解析 vLLM 架构及源码系列 - 整体架构

最近准备梳理一下vLLM推理框架的源码结构,网上也有不少的文章,但是并没有找到一个心仪的技术架构图。

vLLM源码_vLLM源码技术文章_InfoQ写作社区