AIBrix: 专为 vLLM 打造的可扩展、高性价比控制面

2025 年 2 月 21 日,vLLM 通过官方博客宣布了由字节跳动开发的 AIBrix 大模型推理系统开源,为 vLLM 推理引擎提供可扩展且高性价比的控制面。开源 72 小时内,AIBrix 收获的 GitHub Star 数已超 1000, 96 小时突破 2000, 截至本文发布,AIBrix 仍保持在 GitHub trending 榜第一的位置。本篇为 vLLM 官方博客的中文翻译。
vLLM 博客原文:https://blog.vllm.ai/2025/02/21/aibrix-release.html
AIBrix 技术详解博客:https://aibrix.github.io/
项目 GitHub 代码仓库:https://github.com/vllm-project/aibrix
今天,我们很高兴宣布由字节跳动开发的vllm-project/aibrix项目正式发布。AIBrix 是基于 Kubernetes 的推理系统项目,旨在提供可扩展且高性价比的 vLLM 控制平面。AIBrix 自 2024 年初开始研发,已成功部署到字节跳动的多个业务场景,展示其在大规模部署中的可扩展性和高效性。
尽管 vLLM 简化了单实例的模型部署,但在实际生产环境中,大规模部署 vLLM 仍面临路由、自动扩缩容和容错等独特挑战。AIBrix 作为一个开源项目,旨在为构建可扩展的推理基础设施提供核心组件。它提供了一套云原生解决方案,专注于优化大语言模型(LLM)推理的部署、管理和扩展能力,并针对企业级需求进行了深度适配。

首版 AIBrix 聚焦以下核心功能:
高密度 LoRA 管理:简化对轻量级的、低秩模型适配的支持。
LLM 网关和路由:高效管理和分配多个模型和副本的流量。
针对 LLM 应用的自动扩展器:根据实时需求动态调整推理资源。
统一 AI 运行时:多功能 sidecar 容器,支持指标标准化、模型下载和管理。
分布式推理:可扩展架构,支持多节点大规模推理负载。
分布式 KV 缓存:支持高容量、跨引擎的 KV 重用。
高性价比异构资源调度:支持混合 GPU 推理,在保障 SLO 的前提下降低成本。
GPU 硬件故障检测:主动检测 GPU 硬件异常。
AIBrix 愿景与行业协作
AIBrix 基于“系统与推理引擎协同设计”的理念,核心目标是以云原生方式在 Kubernetes 上构建可扩展的推理系统。展望未来,我们将通过以下举措继续探索协同设计方法:
扩展分布式 KV 缓存:支持更广泛的场景,如预填充(Prefill)与解码(Decode)聚合、请求迁移、跨实例 KV 复用等,提升内存效率与推理灵活性。
引入传统资源管理原则:将 QoS(服务质量)、优先级调度、公平性等机制应用于 LLM 推理,实现请求级多租户,确保资源高效分配。
基于性能天花板的性能分析:通过性能剖析提升计算效率,为多样化负载提供强 SLO 保障的推理性能。
作为这一使命的一部分,我们积极与行业领导者合作,共同推动 LLM 服务的开放、云原生解决方案。
Google 杰出工程师、GKE 推理负责人 Clayton Coleman 评价:
“ByteDance has been a phenomenal partner in helping Google drive standardization of LLM serving in Kubernetes through Working Group Serving and contributing to the Gateway API Inference Extension. We are excited to continue collaborating on shared components that will enable AIBrix and large scale inference platforms”
“字节跳动是 Google 在 Kubernetes LLM 服务标准化(通过 WG Serving 工作组)和 Gateway API 推理扩展贡献方面的杰出合作伙伴。我们期待继续协作开发共享组件,助力 AIBrix 及大规模推理平台发展。”
Anyscale 联合创始人、Ray 框架共同创作者 Robert Nishihara 评价:
“vLLM has seen explosive growth worldwide, becoming a cornerstone of LLM inference. AIBrix is a promising project that builds on this momentum, offering powerful capabilities to productionize vLLM while driving innovation in open-source LLM inference” Robert Nishihara, Co-Founder of Anyscale & Co-Creator of Ray
“vLLM 已成为全球 LLM 推理的基石技术。AIBrix 是一个极具潜力的项目,它延续了这一势头,不仅为 vLLM 的生产化提供强大能力,更推动了开源 LLM 推理领域的创新。”
了解更多
请访问 AIBrix 的 GitHub 仓库https://github.com/vllm-project/aibrix,深入了解其架构和关键功能。此外,还可查阅白皮书和技术文档,以获取部署和集成的指导,并加入vLLM Slack频道与开发者交流。
FAQ
AIBrix 与 vLLM production stack(https://github.com/vllm-project/production-stack)有何不同?
AIBrix 是字节跳动开源的聚焦大规模场景的云原生解决方案,而由芝加哥大学 LMCache 团队维护的 vLLM Production stack 是一个开放框架,鼓励社区扩展与贡献。可以在这里访问 production stack 的roadmap。
AIBrix 体现了强大 Kubernetes 服务栈的潜力,并已在生产环境中运行超过 6 个月。而生产栈则是一个从零开始构建的实现,专注于在社区的反馈和贡献下不断优化各个组件。
Production stack 优势在于内置的 KV 缓存优化(如传输、混合、路由),尤其适用于长上下文和高预填充的负载场景。短期内,Production stack 计划借鉴 AIBrix 的组件。
AIBrix 是社区驱动的项目吗?
完全开源!将项目托管于 vLLM 组织正是为了促进开发者与研究者协作。我们规划了多项改进方向,核心团队坚信开源是未来。
AIBrix 与 KServe、KubeAI 等云原生方案有何差异?
AIBrix 与 vLLM 深度集成,专为推理引擎设计,可优先实现快速模型加载、自动扩缩容、LoRA 管理等特性。
评论