DeepSeek-V3.1 上线火山方舟
资料来源:火山引擎-开发者社区
本周,深度求索公司正式发布 DeepSeek-V3.1,该模型采用混合推理架构(同时支持思考模式与非思考模式),提供更高的思考效率(相比于 DeepSeek-R1-0528)和更强的 Agent 能力(通过 Post-Training 优化)。
今天,DeepSeek-V3.1 正式上线火山方舟,企业用户可以在更快、更稳的资源保障下体验最新 DeepSeek-V3.1 模型:实现 20-40ms 吐字间隔(TPOT)超低延迟,并提供全网最高的 500 万初始并发 TPM。
提供 DeepSeek 官方效果,畅享优质模型体验
火山方舟提供的 DeepSeek-V3.1 版本效果与 DeepSeek 官方 API 保持高度一致,并为用户提供优质的体验和服务。
无需注册登录,可直接在火山引擎体验中心免费体验新版 DeepSeek-V3.1 模型。如下图所示,通过方舟体验中心的 Canvas 功能,可以便捷体验模型网页编程能力。
(动图地址)
基于编程能力生成的 DeepSeek-V3.1 动态自画像
体验后,可一键跳转火山方舟控制台,2 分钟快速完成模型调用配置,支持 API 直连与可视化参数调试,从功能选择到参数调整全程可视化操作,大幅缩短开发链路。
此外,火山引擎大模型应用实验室中,也上线了 DeepSeek-V3.1 的联网增强版本。

火山方舟应用广场
持续优化推理引擎,提供更高并发、更强性能
自今年 2 月以来,全尺寸 DeepSeek-R1 登陆火山引擎,以极致性能受到开发者的普遍认可。基调听云、superCLUE 等第三方评测一致认为,在火山方舟上调用 DeepSeek 的响应性能、推理速度和完整回复率等指标表现优异,综合能力排名第一。
通过全栈自研的推理引擎的深度推理优化,火山引擎将吐字间隔降低到 20-40ms 内,提供全网最高的 500 万 TPM 初始限流,和最高 50 亿 tokens/天(TPD)离线批量推理配额保障,帮助用户畅享高速、稳定、流畅的 DeepSeek-V3.1 交互体验。


图片来源:基调听云公众号
出色表现的背后,是火山引擎 AI 云原生以模型为核心全栈推理效率优化的阶段性成果,通过算子层和系统层的深度优化,致力于为客户提供最好的开源模型,并持续提升模型性能:
PD 分离架构:推理过程中 prefiil 和 decode 两个阶段对硬件的特性依赖往往不同,通过 PD 分离可以更好地利用硬件特性并分别优化从而提升推理性能,推理吞吐量最高提升 5 倍;
KV-Cache 缓存加速:我们通过自研 KV-Cache 缓存加速产品 EIC,将推理时延降低至 1/50,同时降低 GPU 推理消耗 20%;
自研推理加速引擎 xLLM:火山引擎自研的推理框架 xLLM,让端到端大模型推理性能提升 100% 以上;
自研 vRDMA 网络: 支持低门槛、无侵入式部署,跨 GPU 资源池和存储资源提供最高达 320 Gbps 的 vRDMA 高速互联能力。
数据零留存,全周期安全可信
山方舟为模型调用提供全周期安全可信服务,模型推理的整个生命周期在数据加密的安全沙箱中完成,可确保用户提示词会话数据零留存,杜绝训练数据、隐私和商业敏感数据及提示词泄漏。
此外,火山引擎还自研了大模型应用防火墙,有效拦截针对大模型的 DDoS 攻击、提示词攻击,并识别不合规内容,在针对 DeepSeek R1 和 V3 模型安全性测试中,可将提示词注入攻击成功率降低到 1% 以下。
评论