首日调用客户破 1.5 万！DeepSeek-V3/R1 上线背后的超低推理成本技术揭秘

2025-02-11
上海
本文字数：1284 字
阅读完需：约 4 分钟

2 月 3 日，百度智能云千帆大模型平台正式上线了 DeepSeek-R1 与 DeepSeek-V3 模型，模型上线首日，已有超 1.5 万家客户通过千帆平台进行模型调用。百度智能云针对此次模型上线提供了行业领先的超低推理价格，低至 DeepSeek 官方刊例价 3-5 折，当前还可享受限时免费服务。这一突破性进展的背后，是百度智能云在推理引擎性能优化技术、推理服务工程架构创新以及推理服务全链路安全保障上的深度融合。本文将深度解析其技术实现路径。

已上架至千帆 ModelBuilder「模型广场」

可在千帆 ModelBuilder「体验中心」立即体验

01 推理引擎性能优化技术

基于百度智能云在大模型推理性能优化方向的技术积累，针对 DeepSeek 模型 MLA 结构的计算进行了极致的性能优化，并通过计算、通信、内存不同资源类型算子的有效重叠及高效的 Prefill/Decode 分离式推理架构等，在核心延迟指标 TTFT/TPOT 满足 SLA 的条件下，实现模型吞吐的大幅度提升，进而显著降低模型推理成本。

02 推理服务的工程架构创新

在推理服务层面，进行了深入的优化与创新。针对推理架构，做了严格的推/拉模式的性能对比。经验证拉模式在请求处理的成功率、响应延时以及吞吐量等关键指标上均展现出更为卓越的性能。为了进一步提升系统的稳定性和用户体验，巧妙地设计了一种请求失败的续推机制，这显著增强了系统的容错能力和服务 SLA 达标率。同时针对多轮对话和 system 设定等场景中存在重复 Prompt 前缀的情况，实现了主流的 KV-Cache 复用技术，并辅以全局 Cache 感知的流量调度策略。这一举措有效避免了 Token KV 的重复计算，从而大幅降低推理延迟，提高了推理吞吐。

03 推理服务的稳定安全保障

千帆平台基于百度自身长期的大模型安全技术积累，集成独家内容安全算子，实现模型安全增强与企业级高可用保障，基于大模型全生命周期数据安全与模型保护机制，在千帆平台上的模型均拥有使用安全的安全保障；基于在安全方面的专项优化，确保 DeepSeek-R1&DeepSeek-V3 模型，企业用户在使用过程也具有更高的安全性。

百度智能云千帆 ModelBuilder 始终致力于为用户提供全流程、一站式的 AI 服务，除了强大的模型资源，还匹配了完善的一站式模型效果调优工具链，包含数据加工、模型精调、模型评估、模型量化等关键环节，助力企业根据自身业务需求深度优化模型性能。同时，百度智能云千帆 ModelBuilder 具备卓越的模型推理托管能力，支持 vLLM、LMDeploy、TensorRT-LLM、SGLang 等各类主流推理框架，还支持模型的自定义导入与部署，为开发者提供了高度灵活的开发环境。

值得一提的是，百度智能云近日成功点亮了昆仑芯 P800 万卡集群，这也是国内首个正式点亮的自研万卡集群，百度智能云将进一步点亮 3 万卡集群。

未来，我们将持续解锁更多技术文档，共享行业最佳实践案例，助力每一位创新者更快突破技术边界。我们期待与更多企业用户、开发者一起，共同探索无限可能，携手共创 AI 新篇章。

————END————

对话AI原生｜比帮你写代码更爽的是：让Agent来打工

0 Token 间间隔 100% GPU 利用率，百度百舸 AIAK 大模型推理引擎极限优化 TPS

百度视频搜索架构演进

网页结构建模在低质采集站上的识别应用

发布于: 刚刚阅读数: 6