零门槛、百万 token 免费用,即刻拥有 DeepSeek-R1 满血版,还有实践落地调用场景等你来看
前沿背景
2025 年春节可谓热闹非凡,宏观上来说是疫情后经济形势逐渐好转的重要起点,传统上来说是中国人阖家团圆的幸福节日,承载着每一位打工人的期盼与喜悦。在这个充满欢乐的时刻,国漫产业迎来了历史性突破,《哪吒 2》票房一路高歌猛进,掀起全民观影热潮,“闹吒吒”成为春节新潮流。与此同时,DeepSeek 技术的横空出世更是点燃了全球科技圈的热情,其影响力迅速蔓延至大众视野,公众号、小红书、技术栈、技术博客等平台随处可见其身影,部署方案、体验视频、操作文档等资源更是如潮水般涌现。那么,DeepSeek 究竟是什么?DeepSeek-R1 又是什么呢?
测评开始之前,我们先来公布一下本次测评的解决方案链接:https://www.aliyun.com/solution/tech-solution/deepseek-r1-for-platforms?utm_content=g_1000401616,然后我们再开始本次测评。
什么是 DeepSeek-R1
DeepSeek-R1 于 2025 年 1 月 20 日正式发布,并同步开源模型权重。
DeepSeek-R1 遵循 MIT License,允许用户通过蒸馏技术借助 R1 训练其他模型。
DeepSeek-R1 上线 API,对用户开放思维链输出,通过设置 model='deepseek-reasoner' 即可调用。
性能方面,DeepSeek-R1 在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版。

这里大家看到了一个新名词【蒸馏技术】,那么什么是 蒸馏技术?
蒸馏技术
模型蒸馏(Knowledge Distillation)是一种将大型复杂模型(教师模型)的知识迁移到小型高效模型(学生模型)的技术,旨在通过模仿教师模型的输出行为来训练学生模型,从而实现知识的有效传递。教师模型通常具有较高的性能,但计算成本高昂,难以在资源受限的环境中部署;而学生模型则通过蒸馏过程,在显著降低计算复杂度、存储需求和能耗的同时,尽可能保持与教师模型相近的性能表现。这种技术使得学生模型能够在保持较高推理精度和泛化能力的前提下,实现更快的推理速度和更低的内存占用,从而更适合应用于计算成本受限,性能受限的场景。
用大白话理解可以这样说:在学校,老师相对于学生来说,掌握的知识量以及储备往往都更丰富,老师通过自己的经验,提取出数据中的复杂模式和特征 。学生则通过模仿教师模型的输出,学习这些模式和特征,从而获得类似的能力。
那么在深度学习和人工智能领域,蒸馏技术就是说从大模型中提取核心知识或特征,通过一种更高效、精简的方式展现出来,通过提炼后的内容更利于大模型理解,从而提高计算效率或降低资源消耗。
到这里,大家关于 DeepSeek 中蒸馏技术是不是有个大概的理解了,那么下面我们先来在线体验一下 DeepSeek 吧!
在线体验
相信到现在的话,大家可能都已经体验过 DeepSeek 的强大能力了,那么这里我们先去 DeepSeek 官网体验一下 DeepSeek 的模型推理究竟有多强,官网地址:https://www.deepseek.com/ 首次体验的话需要先注册账号,在官网首页直接点击【开始对话】跳转到 DeepSeek 登录页面,在登录页面输入手机号,验证码点击【登录】即可

大家都知道,DeepSeek 是热门的推理模型,能在少量标注数据下显著提升推理能力,尤其擅长数学、代码和自然语言等复杂任务。那么登录成功后我们在 DeepSeek 在线体验页面,选中【深度思考(R1)】,同时输入经典数学问题,鸡兔同笼:有若干只鸡兔同在一个笼子里,从上面数,有 35 个头,从下面数,有 94 只脚。问笼中各有多少只鸡和兔?

点击发送后,DeepSeek-R1 会对当前的数学问题进行详细的推理分析,这个推理分析的过程,需要用到一个推理模型 deepseek-reasoner 是 DeepSeek 推出的推理模型。在输出最终回答之前,模型会先输出一段思维链内容,以提升最终答案的准确性。这个思维链内容正如我们下面展示的内容,不是最终的推理结果,而是一个推理的思考的过程
那么整个的操作流程就是这样的,下面我准备了一个视频展示一下操作效果
异常情况
但是,随着 DeepSeek 的在线使用需求迅猛增长,导致出现服务器资源紧张,响应延迟增加,甚至无法响应的情况可能会导致【服务器繁忙】而没有返回,比如这样的效果

或者是你点击官网首页的开始对话会直接提示 Internet error 等,遇到这种情况的话,等待或者过几分钟刷新页面时最好的选择,频繁的刷新并不会有任何改变哦。为了有一个更稳定的可以玩耍的 DeepSeek-R1 服务,何不自己来部署一个呢?
网上也有很多本地部署的方案,但是本地部署对本地服务器计算能力有较高要求,因此本地部署所面临的高昂硬件和运维成本,同时还缺乏弹性扩缩容能力,难以应对业务量的波动等问题。那么阿里云的《零门槛、即刻拥有 DeepSeek-R1 满血版》 方案推荐在云端部署你的专属 DeepSeek 模型,不仅部署门槛低、支持各类模型尺寸,并且可以做到自动弹性扩展,云产品功能唾手可得,方案地址:https://www.aliyun.com/solution/tech-solution/deepseek-r1-for-platforms?utm_content=g_1000401616
基于百炼调用 DeepSeek-R1 满血版 API
本方案通过百炼模型服务进行 DeepSeek 开源模型调用,可以根据实际需求选择其他参数规模的 DeepSeek 模型。这个方案属于四个方案中操作难度最小,使用最方便的部署方案,并且有百万 token 免费用,特别适合新手小白,或者说喜欢 DeepSeek 的技术爱好者,或者是企业测试阶段使用,详细的操作跟着我来逐步操作吧。
方案介绍
在方案部署页面,直接点击顶部 tab 【满血版 API 调用】在跳转到的 【基于百炼调用 DeepSeek-R1 满血版 API,享 100 万免费 token】 部署方案,点击方案下方的【免费体验】

方案架构
本方案用户通过 Chatbox 可视化界面客户端发起调用,客户端调用百炼大模型服务中对应的 DeepSeek 模型返回生成的回答,方案架构清晰简单

开通服务
对于首次使用阿里云百炼的阿里云账号来说,需要先开通百炼模型服务,登录 阿里云百炼大模型服务平台,根据下图提示进行开通

百炼模型服务开通成功之后,鼠标悬停于页面右上角的 【人行图标】
图标上,在下拉菜单中单击【API-KEY】

如果你的账号下还没有创建 API-KEY 的话,那么你需要点击【创建我的 API-KEY】,并选择 归属业务空间、描述信息,点击【确定】

创建完成我的 API-KEY 之后,点击列表右侧操作列的【查看】按钮,查看并复制创建的 API-KEY 后面备用

模型广场
在 阿里云百炼大模型服务平台 ,选择左侧菜单【模型广场】-【DeepSeek】可以看到当前百炼大模型接入的 DeepSeek 支持 8 个模型可供调用,

目前百炼大模型服务平台支持的 8 个 Deepseek 模型的计费相关的信息可以参考下面的介绍


我们选择 DeepSeek-R1 模型,点击【查看详情】进入 Deepseek-R1 模型详情页面,可以看到关于 Deepseek-R1 模型的模型介绍、计费详情、免费额度、模型限流等信息

点击顶部 tab,切换【模型介绍】为【API 示例】,可以获取模型服务的
调用地址: https://dashscope.aliyuncs.com/compatible-mode/v1,
模型名称:deepseek-r1
复制后备用

Chatbox 客户端调用
在使用 Chatbox 客户端调用之前,首先需要下载安装 Chatbox, 访问 Chatbox 下载地址下载并安装客户端,我的电脑是 Windows 系统,这里我选择下载 Windows 版本的

下载完成后双击安装,整个安装过程比较简单,按照默认的操作点击【下一步】即可,如果需要更换安装路径的,在选择安装路径操作页面更换自己想要安装的路径,安装完成后双击打开 Chatbox 客户端,选择【使用自己的 API Key 或本地模型】

继续在【选择并配置 AI 模型提供方】的弹框页面下拉选择【添加自定义提供方】

在弹出的页面按照部署文档中的说明进行配置,

其中,【名称】、【API 域名】、【API 密钥】、【模型】需要手动填写,其他默认选择即可,配置完成后的效果图如图所示,点击【保存】

保存完成后,在 Chatbox 输入问题【9.9 和 9.10 谁大】这时会展示一个 deepseek-r1 对当前问题的一个思考过程,就是输出思维链 的内容

等待问题推理结束之后给出具体的比较大小的步骤分析,并且输出问题分析后的答案,以及本次问题分析消耗的 tokens,以及选择的模型

下面我们再来体验一下 deepseek-r1 关于鸡兔同笼的问题的推理分析;输入问题,鸡兔同笼:有若干只鸡兔同在一个笼子里,从上面数,有 35 个头,从下面数,有 94 只脚。问笼中各有多少只鸡和兔?

同样的给出了详细的解答和具体的 tokens 使用量。
更换模型
同样的方法,这里我想体验一下 Deepseek 其他模型,只需要在 Chatbox 配置项是更换为其他模型名称就可以了,比如这里我点击 Deepseek-V3 的 查看详情 ,在 DeepSeek-V3 的详情页,点击复制模型名称

更改 Chatbox 配置 中的模型,其他选项不变,点击【保存】完成 Chatbox 配置

再次输入鸡兔同笼的问题后点击发送按钮,可以看到 deepseek-v3 模型不会有思维链的内容返回,而是直接给出了解答过程

在继续切换模型为 DeepSeek-R1-Distill-Llama-70B,来感受一下 DeepSeek-R1-Distill-Llama-70B 模型的返回以及分析效果,同样的方法复制模型名称并配置

输入鸡兔同笼问题后可以查看具体的输入,由于模型 DeepSeek-R1-Distill-Llama-70B 是一个基于 Llama-3.1-70B 的蒸馏大型语言模型,使用了 DeepSeek R1 的输出,因此这里也可以看到 思维链的内容输出

这里告诉大家一个配置 Chatbox 模型名称的小技巧,在配置模型名称时,将复制的模型名称放入输入框之后,会在下拉列表出现一个同样名称,前面有 + 号的,点击 + 的话,那么你输入的名称就会一直存在于下拉表中,方便在 Chatbox 对话框页面可以随便切换

选择 + 后,你添加的 模型名称就会一直保留在 Chatbox 对话框页面 ,就像这样。在配置的时候如果没有出现 【+ 模型名称】 的选项,点击后面 【X】号后重新粘贴就可以了

模型 tokens 比较
这里我整理了以下同样的模型同样的问题单次返回消耗的 tokens 数量作为一个比较
数学推理:有若干只鸡兔同在一个笼子里,从上面数,有 35 个头,从下面数,有 94 只脚。问笼中各有多少只鸡和兔?
自然语言生成代码:帮我列举一下基本算法及示例代码,用 Java 语言
百科:DeepSeek 蒸馏技术是什么

总结:
1 对于数学推理来说,各大模型的理解以及步骤分析,返回的最终答案都是正确的,差异是使用的 tokens 会有一定的差异;
2 对于自然语言生成代码,这里我想要的 Java 语言基本算法及示例代码,实际上就是想要 排序算法的几种算法及示例代码,对于自然语言的理解,模型 DeepSeek-R1 和 DeepSeek-V3 理解的更符合我心中所想,我实际说的【基本算法】就是想要【排序算法】,另外就是这两个模型消耗的 tokens 也是最少。其他几种模型的理解则有一定的偏差,并且消耗的 tokens 可以看到,相当多了;
3 对于百科的内容,模型 DeepSeek-R1 和 DeepSeek-V3 回答的内容比较符合官方的描述,DeepSeek-R1-Distill-Qwen-1.5B 模型回答的有点答非所问,剩下的几种模型回答的也有相关的内容。
HTTP 直接调用
这里需要说明一下,你可以通过 OpenAI SDK 或 OpenAI 兼容的 HTTP 方式快速体验 DeepSeek 模型,由于我本地电脑没有 Python 环境和 Node.js 环境,因此这里我尝试 HTTP 直接调用的方式,这里我本地有 HTTP 调用工具 Apipost,大家如果想使用 HTTP 调用的话,可以到 Apipost 官网下载:https://www.apipost.cn/ HTTP 调用方式示例代码
将对应的调用地址及 API-KEY 参数和 model 参数输入 Apipost 如下所示


返回结果 JSON 格式内容如下
HTTP 多轮对话,多轮对话功能可以让大模型“拥有记忆”,满足如追问、信息采集等需要连续交流的场景,多轮对话示例代码
更新 HTTP 调用窗口的 Body 下的 JSON 入参为多轮对话内容

这里可以看到 HTTP 直接调用的方式,请求耗时大概 28s 。再看下数学推理的 HTTP 直接调用方式的耗时,大概需要 53s

对比而言,通过 Chatbox 客户端调用的方式相对于 HTTP 接口调用的方式,HTTP 接口调用的耗时相对会长一些。
Java 代码调用
这里需要告诉各位开发者一个好消息,目前通义灵码代码助手已经接入了 deepseek-r1 和 deepseek-v3 模型,大家在 IDEA 中使用通义灵码插件的时候,可以通过下面的切换按钮来选择想要用的模型

如果你的 IDEA 开发工具安装的通义灵码插件没有这个选项,那么你可以直接更新插件后重启 IDEA 开发工具就可以了。这里为什么会提一下通义灵码呢,是因为我马上要用通义灵码来为我写 Java 代码调用 deepseek-r1 模型的代码,在通义灵码中输入如下内容
这时可以看到通义灵码开始对当前的问题进行分析展示,也就是 思维链内容展示,也是 deepseek-r1 的标志性内容展示

思维链内容展示完成之后,会生成一个 Java 调用 deepseek-r1 API 的示例代码,直接点击右侧的 【新建文件】

点击新建文件之后,会直接在当前文件夹下新建已经生成的类,在看到的类的详细信息中,我不喜欢用 org.json 的 jar 包,也不喜欢生成的类名,

那么我们再次在通义灵码对话框中输入内容
这里可以看到,模型 deepseek-r1 展现了基于上下文的思考,分析了上面生成内容,同时融合当前提出的新需求

思维链详细内容展示
同样的方法直接点击【新建文件】将当前类创建在指定目录下,点击【复制】按钮复制依赖到 pom.xml 文件中并刷新 Maven

打开我们通过通义灵码新建的类 DeepSeekR1Demo,导入 fastjson jar 包依赖,引入 jar 包依赖后的示例代码如下
替换掉代码中的 DASHSCOPE_API_KEY 为在阿里云百炼创建的 API-KEY,同时删除 conn.setRequestProperty("Authorization", "Bearer " + apiKey); 中的 Bearer ,更改为
这里是由于在官方 API 示例的 HTTP 请求代码中,通过 curl 的方式 这里有一个 Bearer 的存在,因此通义灵码在生成代码时将 Bearer 作为字符串与后面的 DASHSCOPE_API_KEY 进行了拼接,但是实际在调用过程中需要去掉 Bearer ,不然 Bearer + API-KEY 之后就不对了

修改之后 执行 main 函数可以看到具体返回的效果,完美实现了 Java 代码调用 deepseek-r1 模型 API 接口返回数据,调用结果

返回的 deepseek-r1 内容的 json 返回结果如下
到这里,关于基于阿里云百炼服务平台部署调用 DeepSeek-R1 满血版 API 的全部操作就完成了。部署操作相当简单,部署文档也很简单,对于部署文档中描述不清的地方,我在后面的【反馈建议】中会提到。那么关于阿里云百炼服务平台部署调用 DeepSeek-R1 满血版 API 的多种调用方式的操作,文档中也有详细的说明,包括:Chatbox 客户端调用、HTTP 直接调用(Apipost 工具调用)、Java 代码直接调用(通义灵码的 deepseek-r1 模型写的代码)。
这里我需要夸一下通义灵码,引入了 deepseek-r1 之后的通义灵码,不但数学推理能力有巨大提升,这本质的代码生成工作也是越来越牛了,根据我提出的问题结合上下文进行修复,生成的代码,基本上不用做改动就可以直接使用,这准确率相对于通义灵码刚公测时候的效果简直有了一个质的飞跃,赞一个!
基于人工智能 PAI 部署 DeepSeek-R1 蒸馏版
阿里云提供的技术解决方案除了上面提到的基于百炼服务调用 DeepSeek-R1 满血版 API,还有三种解决方案,

下面我们继续来体验其他的几种部署方案。
方案介绍 &架构
本介绍如何将 DeepSeek-R1 开源模型部署到人工智能平台 PAI,切换 tab 到【基于人工智能平台 PAI 部署】,点击【立即部署】进入部署详情页,在部署详情页可以看到具体的方案架构。可以看到人工智能平台 PAI 为 AI 研发提供了全链路支持,覆盖了从数据标注、模型开发、训练、评估、部署和运维管控的整个 AI 研发生命周期。

开通服务
登录 PAI 控制台,首次登录需要开通服务,这里选择 【暂不绑定 OSS Bucket 至 PAI 默认工作空间】,然后点击【一键开通】按钮

方案部署
人工智能凭条 PAI 服务开通之后,点击左侧菜单栏【 Model Gallery 】,在搜索框中输入 DeepSeek-R1,在搜索结果中选择 DeepSeek-R1-Distill-Qwen-7B

这里可以直接点击【部署】按钮选择工作空间后进行部署,也可以点击模型【详情】进入 DeepSeek-R1-Distill-Qwen-7B 模型详情页查看模型相关信息,在看完模型详情之后可以点击右上角的【部署】

点击【部署】按钮会弹出选择工作空间的弹框,如果没有工作空间,你可以点击【新建工作空间】,

新建工作空间页面,输入工作空间名称【deepseek_2025】,点击【下一步】

在关联资源页面暂时不关联资源,直接点击【创建】

确认工作空间信息后,点击【进入工作空间】

在当前的工作空间点击左侧菜单栏【 Model Gallery 】,在搜索框中输入 DeepSeek-R1,在搜索结果中选择 DeepSeek-R1-Distill-Qwen-7B

当然你也可以回到刚才选择工作空间的页面选择我们创建的工作空间,然后部署 DeepSeek-R1-Distill-Qwen-7B 模型,在弹出的部署面板中,部署方式选择【vLLM 加速部署】,服务名称默认即可

继续下拉选择【资源规格】,这里点击【资源规格】,在弹出的资源规格页面输入 ml.gu7i.c8m30.1-gu30 搜索,选中后点击【确定】

可以看到我们的资源规格已经显示为刚才选择的资源规格信息了

以上内容都确定之后,点击【部署】会弹出一个计费信息提示框

如果是首次使用 PAI-EAS 的话,建议可以看一下计费说明,因为从个人角度来看,PAI-EAS 资源还是有点小贵的,不适合平民使用。点击【确定】后等待 2~5 分钟部署成功

部署完成之后,在资源详情页面点击【查看调用信息】,在弹出的看板中选择【公网地址调用】,复制保存【访问地址】和【Token】 备用

Chatbox 客户端调用
在使用 Chatbox 客户端调用之前,同样需要点击【设置】配置接口调用信息,这里参考如下的表格内容进行配置

其中红框的内容直接复制到设置中,API 域名以及 API 密钥信息对应的就是我们刚才复制保存【访问地址】和【Token】

设置完成之后,在对话框中输入问题:介绍一下 DeepSeek

到这里说明我们基于人工智能 PAI 部署 DeepSeek-R1 满血版 API 部署成功,在对话框的下面可以看到具体消耗的 tokens

回到人工智能 PAI 的工作空间,在部署的服务页面点击【服务日志】可以看到具体的消耗 tokens 信息

点击【服务监控】可以看到在回答 问题【介绍一下 DeepSeek 】时 人工智能 PAI 的资源的使用情况

HTTP 直接调用
基于人工智能 PAI 部署 DeepSeek-R1 满血版 API 同样支持 HTTP 调用的方式。BladeLLM 服务端提供兼容 OpenAI v1/completions 及 v1/chat/completions 的接口,支持客户端通过向 /v1/completions 或 /v1/chat/completions 路径发送 HTTP POST 请求调用服务。
completions 接口
调用示例:
chat 接口
调用示例:
我们只需要替换 Apipost 的 HTTP 请求的 Header 信息 Authorization 为上面复制的 【Token】,请求链接替换为复制的【访问地址+/v1/chat/completions】

同时请求参数中的 Body 替换为

同样的跟上面类似的方式,替换了【访问地址】和【Token】之后,就可以通过 Java 代码直接调用的方式来实现在应用中的调用。
资源释放
由于人工智能 PAI 的资源费用往往比较小贵,在测评结束后,如果暂时不用的话,这里建议还是尽快释放部署的服务比较好。在人工智能 PAI 的工作空间页面,选择左侧菜单【模型在线服务(EAS)】,点击列表右侧的【删除】,弹框选择【删除】

这里需要说明的是,点击【删除】按钮可能一次不会有用,我点击尝试了多次,才看到【服务状态】变成了【删除中】

到这里,已经体验部署了 【零门槛、即刻拥有 DeepSeek-R1 满血版】部署方案的两种,那么我们下面继续第三种部署方案。
基于函数计算 FC 部署 DeepSeek-R1 蒸馏版
在开始部署之前,我们还是来到我们的部署方案,在部署方案页面选择【蒸馏版模型部署】-【基于函数计算部署】。
方案介绍 &架构
点击【基于函数计算部署】方案的【立即部署】,在部署操作页面可以看到本方案是将 DeepSeek-R1 开源模型部署到函数计算 FC,通过云原生应用开发平台 CAP 部署 Ollama 和 Open WebUI 两个 FC 函数。Ollama 负责托管 lmstudio-community/DeepSeek-R1-Distill-Qwen-7B-GGUF 模型,它是基于 DeepSeek-R1 的推理能力,通过蒸馏技术将推理模式迁移到较小的 Qwen 模型上,从而在保持高效性能的同时降低了计算成本。

对于部署方案实施人员来说,借助 CAP,可以快速便捷地部署模型,而无需担心底层资源管理和运维问题,从而专注于应用的创新和开发

开通服务
对于没有开通过函数计算 FC 服务的账号来说,可以直接登录 函数计算控制台,在函数计算控制台会有开通函数计算 FC 服务的提醒,这里我的账号已经开通过函数计算服务了,开通函数计算 FC 后的控制台如下

方案部署
前面已经说了,基于函数计算 FC 部署方案借助云原生应用开发平台 CAP 实现一键部署,这里直接点击 前往部署 打开官方提供的云原生应用开发平台 CAP 项目模板,这里云原生应用开发平台 CAP 的部署模版已经将部署 DeepSeek-R1 所需要的资源及服务、地域都配置好了,在部署页面只需要直接点击【部署项目】就可以,无需其他操作

点击部署项目之后,在弹出的项目资源预览可以看到需要用到的资源信息,点击【确认部署】

整个部署过程需要等待大约 10~12 分钟左右,部署成功后可以看到如图资源

Web 体验
基于函数计算 FC 部署 DeepSeek-R1 的部署方案支持通过 Web 页面访问体验,这里我们点击部署成功页面的【访问地址】

我们复制公网访问地址到浏览器可以开始后面的测试,但是我的公网地址不知道为什么不能访问,尝试了多次也没有成功,也用 VPC 访问地址试过,还是不行

在线 API 体验
本方案的 DeepSeek-R1 支持在线 API 体验,在部署成功页面,点击右上方的【访问地址】会弹出一个右边框页面,这里可以切换 API 调用方式,这里我选择 Java 的调用方式,可以直接看到具体的 Java 代码

点击【测试】按钮,可以看到具体的返回参数,并且返回的还挺快,比上面部署的两种方式的 HTTP 调用返回快多了

Java 示例代码这里我放在文档中,方便后面参考
HTTP 直接调用
基于函数计算 FC 部署方案,同样支持通过 HTTP 直接调用,在访问地址的弹出层页面,我们再切换到 cURL 的调用方式,复制调用方式的代码,方便我们后续进行 HTTP 直接调用
这里我们将请求地址和请求参数都放在我们的本地 API 调用工具里面进行尝试,如下配置请求地址,Header 参数

在继续配置 Body 的请求参数,json 格式的

点击【发送】可以看到大约 8s 就返回结果了,这个请求响应还是挺快的,

Chatbox 客户端调用
同样的,我们也可以通过 Chatbox 客户端调用,打开 Chatbox 客户端,点击设置,模型提供方选择 【Ollama API】,API 域名输入我们的公网访问地址,下拉选择模型 选择 【cap-deepseek-r1:latest】

点击【保存】完成配置,配置完成后,在对话框输入:你是谁? 等待返回结果,等了大概 2 分钟才出结果,并且思维链的内容也没有了

另外就是基于函数计算 FC 的部署方案支持在线配置方式,可以直接通过编辑资源配置的方式来实现随时的扩容和缩容,最大可能得降低成本,提高资源利用率

资源释放
由于这里的资源是需要按量付费的,这里在使用结束之后,如果不再使用的话,建议可以释放资源。登录 云原生应用开发平台 CAP 控制台,在左侧导航栏,选择【项目】,找到部署的目标项目,在操作列单击【删除】,然后根据页面提示删除项目

在删除项目的弹框页面输入项目名称,勾选协议,选择【确定删除】完成释放资源的操作。

基于 GPU 云服务器部署 DeepSeek-R1 蒸馏版
方案介绍 &架构
基于 GPU 云服务器部署 DeepSeek-R1,是将 DeepSeek-R1 开源模型部署到 GPU 云服务器。在 GPU 云服务器上安装与配置 vLLM 和 Open WebUI。vLLM 负责托管 DeepSeek-R1 模型,Open WebUI 则为用户提供友好的交互界面。GPU 云服务器凭借其高性能并行计算架构,可以显著加速大模型的推理过程,特别是在处理大规模数据和高并发场景,可以有效提升推理速度和推理吞吐。方案架构如图

资源准备
在开始部署 DeepSeek-R1 之前,需要先创建以下资源,方便后面在部署时可以直接使用。
创建专有网络 VPC 和交换机
登录 专有网络管理控制台,选择左侧菜单【专有网络】-【创建专有网络】

在创建专有网络页面,选择地域 【杭州】输入专有网络名称,选择 IPv4 网段

继续下拉,在交换机信息中输入交换机名称、选择可用区,点击【确定】完成专有网络和交换机的创建

创建安全组
登录 ECS 管理控制台,顶部地域切换为【杭州】,选择菜单【安全组】-【创建安全组】

在创建安全组页面,默认安全组名称,选择我们创建的专有网络【VPC_HZ】,点击【手动添加】,输入需要开通的端口号 22、8000、8080,点击【创建安全组】完成安全组的创建

创建 GPU 服务器
登录 ECS 管理控制台,选择左侧菜单【实例】,点击【创建实例】,地域需要切换为 【杭州】地域

在创建实例页面,选择付费类型为【按量付费】,选择我们资源准备是创建的网络和可用区

继续下拉,在选择实例规格中,搜索框输入【ecs.gn7i-c32g1.8xlarge】,勾选选中

实例镜像选择公共镜像下的【Alibaba Cloud Linux】,镜像版本选择 【Alibaba Cloud Linux 3.2104 LTS 64 位】,勾选安装 GPU 驱动,在下拉列表中选择 【CUDA 版本 12.4.1 / Driver 版本 550.127.08 / CUDNN 版本 9.2.0.82】

系统盘选择【ESSD 云盘】,同时硬盘容量选择 100GiB

带宽和安全组选择勾选 分配公网 IPv4 地址,【按使用流量】,选中【10Mbps】,安全组选择前面创建的安全组

在管理设置输入【自定义密码】后,点击右侧的【确认下单】完成 GPU 实例的创建

方案部署
等待 GPU 实例创建完成之后,在实例列表点击右侧操作列的【远程连接】,

选择通过 Workbench 远程连接至 ECS 服务器,点击【立即登录】

这里建议等待 10~20 分钟后再登录 ECS 服务器,因为刚创建的 GPU 实例 GPU 驱动尚未完成安装,

等待驱动安装完成,ECS 服务器自动重启之后,可以看到如下结果

执行如下命令部署模型
等待模型部署完成之,整个安装过程比较耗时,需要耐心等待,大概需要 10~20 分钟左右,部署完成之后,复制保存好 vLLM API TOKEN 备用。

Web 体验
在浏览器中访问 http://8.136.100.118:8080,访问 Open WebUI,输入问题:你是谁?来验证服务部署的结果

Chatbox 客户端调用
同样的方法,在 Chatbox 客户端,选择设置,选择自定义提供方,输入名称【vLLM API】,输入 API 域名,上面备用的 vLLM API TOKEN ,以及模型名称【DeepSeek-R1-Distill-Qwen-7B】,模型名称有大小写区分的,需要注意

然后就可以在 Chatbox 对话框测试内容了

在部署文档中没有看到 HTTP 调用或者是 API 接口调用的方式,这里 就不再赘婿了,如果有调用接口的话,基本也都差不多,需要将 vLLM API TOKEN 作为密钥传入请求头 Header 的认证信息中就可以了。下面我来说说这几种部署方案感受。
最后总结
部署文档 &操作指引
关于部署文档以及操作指引相关的内容,在部署过程中遇到的问题,或者疑问,这里我都详细的记录下来了。
一:对于基于百炼服务平台的 部署方案,基于百炼调用 DeepSeek-R1 满血版 API,部署文档写的有点过于简单了,只是提到了 API-KEY 的获取方式,并没有告知 API 域名(服务调用地址从哪儿来)。虽然在部署文档中给出了服务调用地址的 示例值 ,但是我一开始只认为这是一个示例,并不是真的服务调用地址,直到与 DeepSeek 模型查看详情下面的 API 示例里面的地址对比了才知道是准确的地址。另外,在部署过程中,并没有说明模型名称从哪儿来的,应该在文档中补充说明模型名称可以到【模型广场】的模型详情里面复制具体用到的模型名称

二:对于基于人工智能 PAI 的部署方案,在搜索到了具体的模型 DeepSeek-R1-Distill-Qwen-7B 之后,点击【部署】是需要选择【工作空间】的,而部署方案中关于工作空间的创建步骤没有提及,这里我已经在我的文章中补足了

还有就是在最后的资源释放阶段,多次点击列表右侧操作列的【删除】按钮,并且多次刷新页面才终于看到了【删除中】的状态,并且多次操作【删除】并没有任何异常信息,都是提示成功,但是又可以继续点击【删除】。这个不清楚具体是网络原因,删除请求多次没发出去,还是说 EAS 服务在删除之前可以多次操作删除呢?
三:对于基于函数计算 FC 部署方案,整个过程可以算的上是一键部署,部署操作什么都不用管,全部默认直接点击【部署项目】就可以完成部署操作。唯一的遗憾是部署成功之后,访问地址在浏览器无法访问,多次刷新页面也是没有任何效果,不知道什么原因

但是在线 API 体验的设计还不错,支持多种语言的调用方式,特别是支持了 Java 调用,这对于我这个 Java 开发者来说,想用的时候可以直接复制 Java 调用代码到项目中就可以无缝接入了。另外就是不管是在线 API 调用,还是通过 API 调用工具的调用方式,返回结果的效率都是刚刚的,相当快。但是是用 Chatbox 客户端调用的方式却比较慢,还是一头雾水,同样的调用地址 Web 访问浏览器出不来,API 调用却贼快,Chatbox 虽然慢但是也出来了。
四:对于基于 GPU 云服务器部署方案,部署过程中,整个操作文档写的足够详细,每一步需要执行以及执行后的效果也足够操作者参考,但是在操作过程中,对于部署模型的耗时没有明确预估,需要等挺久时间的,最好是可以有个预估,让操作者提前有个心里准备,其他就没什么问题了。
四种部署方案的优势对比
通过四种方案的部署以及文档中对于方案的介绍和描述,可以比较清晰的了解每一种方案的优势和不足之处,这里我列一个表格,来对每种部署方案的各个情况进行一个整理说明
介绍完了上面几种部署方案的区别之后,对比其他三种方案,更倾向于第一种方案,基于百炼服务部署 DeepSeek-R1。方案一基本没有什么部署操作,同时支持多种接入方式,拿过来就能直接用,0 成本接入项目,效果也是杠杠的,贼好。。。
满足实际需求
有了上面的分析以及个人比较倾向于的方案,目前 本方案 《零门槛、即刻拥有 DeepSeek-R1 满血版》已经足够满足个人在实际场景中的使用了,对于强烈推荐的基于百炼服务部署 DeepSeek-R1,支持多种接入方,对于企业落地大模型,接入成本最低,使用成本也不高。有一点希望就是对于现有的 DeepSeek 模型是否可以支持企业微调训练,或者说支持企业知识库导入,这样在结合 DeepSeek-R1 的推理的基础上可以更好的契合企业自身的知识场景,满足高精准的场景使用。
Q&A
Q&A 相关内容可以看另一篇文章:https://developer.aliyun.com/article/1652737
版权声明: 本文为 InfoQ 作者【六月的雨在InfoQ】的原创文章。
原文链接:【http://xie.infoq.cn/article/37937ef8955cb87700580367a】。文章转载请联系作者。
评论