云上玩转 DeepSeek 系列之六:DeepSeek 云端加速版发布,具备超高推理性能
作为国内首个千亿级开源 MoE 模型,DeepSeek-R1 凭借其卓越的代码生成与复杂推理能力,已成为开发者构建智能应用的首选。然而,原始模型在产业落地中面临严峻挑战,部署 671B 满血版模型不仅硬件门槛要求很高,同时吞吐效率和响应延迟也受到了制约。
PAI 正式推出了优化版 DeepSeek-R1 模型 DeepSeek-R1-PAI-optimized,将大模型推理效率推向了 Next Level。核心亮点有:
技术领先:基于自研的模型优化“黑科技”,模型体积大幅减小的同时,评测表现依然良好
单机部署:单机 8 卡 GU120 即可实现高性能部署,硬件成本直接减半
性能跃升:相同时延约束下,吞吐能提升 492%+;相同吞吐下, 首 token 时延直降 86%+,token 间时延直降 69%+
开箱即用:只需进入 PAI Model Gallery,搜索 DeepSeek-R1-PAI-optimized,实现模型一键部署
性能跃升:极致吞吐与超低时延
DeepSeek-R1 优化版模型 DeepSeek-R1-PAI-optimized,相较原模型,在吞吐和延迟方面实现了双优,全面提升推理流程的效率。
实验配置:
优化版部署在单机 GU120,原模型部署在双机 GU120,推理引擎为 vLLM;
数据集为 longalpaca-12k,输入 token 长度限定为 3K,输出 token 长度限定为 1K。
实验结果:
DeepSeek-R1 优化版模型的极限总吞吐约达到 3865tokens/s,极限输出吞吐达到 965tokens/s,相比原模型有 50%提升。
在相同的 SLO(TTFT <= 1000ms, TPOT <= 70ms)下,DeepSeek-R1 优化版模型的并发为 60,输出吞吐能达到 829tokens/s;原模型的并发为 10,输出吞吐能达到 140tokens/s,优化版模型 吞吐提升了 492% 。
在同等输出吞吐水平下(约 500tokens/s),DeepSeek-R1 优化版模型的 TTFT 为 405ms,原模型的 TTFT 为 2928ms,降低了 86%;DeepSeek-R1 优化版模型的 TPOT 为 38ms,原模型的 TPOT 为 123ms,降低了 69%。
以下是在各类评测数据集的测试结果,对比 DeepSeek-R1 优化版的实测数据,和 DeepSeek-R1 原模型的实测数据,发现表现几近持平,证明了优化版模型的效果基本无损。

极简操作:三步开始高性能推理
进入 Model Gallery 页面(链接:https://pai.console.aliyun.com/#/quick-start/models)
登录 PAI 控制台。
在顶部左上角根据实际情况选择地域。
在左侧导航栏选择工作空间列表,单击指定工作空间名称,进入对应工作空间内。
在左侧导航栏选择快速开始 > Model Gallery。

部署优化版 DeepSeek-R1 模型
在 Model Gallery 页面的模型列表中,搜索“DeepSeek-R1-PAI-optimized”,找到并点击进入模型详情页面。
单击右上角部署。选择部署方式和部署资源后,即可一键部署服务,生成一个 PAI-EAS 服务。

进行模型推理。
部署成功后,在服务页面可以点击“查看调用信息”获取调用的 Endpoint 和 Token。
点击模型介绍页,查看调用方式说明。

上阿里云 PAI,使用更多 DeepSeek 衍生模型
除 DeepSeek-R1 满血版模型、 DeepSeek-R1 推理性能优化版模型外,PAI-Model Gallery 还提供以下衍生版本的模型,供不同需求场景下使用。
大幅节省显存:DeepSeek-R1 量化版本 DeepSeek-R1-GGUF ,模型尺寸减少了 80% ,节省显存资源,性价比提升;
小模型推理能力提升:DeepSeek-R1 蒸馏版本 PAI-DistilQwen2.5-7B-R1 等,将 DeepSeek-R1 的推理能力迁移到小模型中,实现原有小尺寸模型拥有推理能力;https://mp.weixin.qq.com/s/4xMt0fz1s3pIyPvU05LCig
小模型推理速度提升:DeepSeek-V3 蒸馏版本 PAI-DistilQwen2.5-7B-DS3-0324 等,将 DeepSeekV3-0324 的快思考策略,迁移到小模型中,提升推理速度。https://mp.weixin.qq.com/s/QHI2-YBvXuOrK76mezuZ9A
评论