0 人感兴趣 · 2 次引用
大模型中的 PD 分离 是一种关键的推理优化架构,其核心思想是将大语言模型的一次推理过程划分为两个特性迥异的阶段,并部署到不同的硬件资源上执行,以显著提升整体性能和效率。
由字节跳动开发的vllm-project/aibrix项目正式发布。AIBrix是基于Kubernetes的推理系统项目,旨在提供可扩展且高性价比的vLLM控制平面。AIBrix自2024年初开始研发,已成功部署到字节跳动的多个业务场景,展示其在大规模部署中的可扩展性和高效性。
提供全面深入的云计算技术干货
InfoQ签约作者
还未添加个人签名