TencentOS Server AI 全栈 DeepSeek 工具箱

考虑到信息安全和个性化,很多企业都开始做私有化 DeepSeek 的部署,然而在部署过程中,通常一开始就会遇到这 2 个问题:部署复杂度高、推理性能不及预期。
腾讯云针对这两个问题,发布了 TencentOS Server AI,提供了从操作系统到 AI 框架以及模型的全栈式 AI 环境,一方面简化部署,另一方面通过高性能的 AI 框架,实现大模型如 DeepSeek 推理效率成倍的增加。
本文介绍如何通过 TencentOS Server AI 快速构建私有化的 DeepSeek 服务,实测相比其他开源方案超过 80%的性能提升。
1. 环境配置信息
本次部署采用以下配置及版本:
2. TencentOS Server AI 操作系统部署
私有化环境中部署 TencentOS Server AI 版 Linux 操作系统,在操作系统部署过程中,默认会进行 AI 基础环境的部署,从而获得开箱即用的 AI 软件栈环境。
相关 AI 基础环境的部署主要包括:
1) 针对 AI 场景的内核优化
TencentOS Server AI 版针对内存透明大页、IO 子系统、CPU 调度、文件句柄数扩展做了优化,使 OS 在承载 AI 大模型时,运算更加迅速。
2) GPU 驱动
TencentOS Server AI 版在安装过程中会检测 GPU 的类型,并且自动安装 GPU 驱动,目前提供的 Nvidia 驱动版本为 535.216.01。
3) 容器环境
TencentOS Server AI 版提供大模型运行所依赖的 docker 环境,系统当前提供的 docker 版本为 26.1.3,同时还会部署 nvidia-container-toolkit,当前版本为 1.13.5,系统完成安装后,Docker 服务默认为启动状态。
4) tencentos-ai 工具
tencentos-ai 是一个命令行工具,能够自动地实现基于 Docker 的大模型框架部署、配置、启动以及模型的加载等功能。
5) 推理框架和基础模型的准备
TencentOS Server AI 完成系统安装后,会自动创建/opt/tencentos-ai 目录,同时会拷贝光盘中的 taco-llm 推理框架到/opt/tencentos-ai/engine 中,会拷贝光盘中的 DeepSeek-R1:7b 模型到/opt/tencentos-ai/models 中。
3. 在 TencentOS Server AI 上部署 DeepSeek
3.1. 概述
部署一个 DeepSeek 的私有化服务,需要完成推理框架的部署以及模型的加载,在 TencentOS Server AI 的 iso 光盘中,默认提供了腾讯自研的大模型推理框架 TACO-LLM 以及 DeepSeek 的 7b 模型。
相关部署、配置以及管理动作可以利用腾讯针对 AI 场景提供的 CLI 管理工具 tencentos-ai 来统一进行管理。
3.2. 大模型推理框架 TACO-LLM
TACO-LLM(TencentCloud Accelerated Computing Optimization LLM),是腾讯云自研的一款面向大模型的推理框架,TACO-LLM 默认集成在了 TencentOS Server AI 中,相比其他开源框架,TACO-LLM 具有更好的稳定性、安全性以及更高的性能,通过采用自研的 Lookahead 加速技术以及针对 DeepSeek 模型的输出特征优化,能够大幅提升 DeepSeek 的 tokens 吞吐能力。

3.3. 部署 DeepSeek-R1:70b
1) 获得 DeepSeek-R1:70b 模型
TencentOS Server AI 除了在光盘中默认提供 DeepSeek-R1:7b 模型外,还通过极光系统提供 DeepSeek 其他大小的模型,可以联系腾讯获得下载,也可以直接在 modelscope 等模型提供官网直接下载使用。
将下载后的模型拷贝到/opt/tencentos-ai/models 中统一管理:

2) 配置 tencentos-ai
修改 tencentos-ai 配置文件/etc/tencentos-ai/tencentos-ai.conf,修改以下片段
3) 初始化 DeepSeek 运行环境
使用 tencentos-ai 的 init 指令实现自动化的配置动作,配置过程会读取 tencentos-ai.conf 的配置信息,自动完成推理框架容器镜像的加载和配置
4) 运行 DeepSeek
tencentos-ai 支持使用 start、stop 命令来启动、停止 taco-llm,这里启动 taco-llm 框架,启动时会自动读取 tencentos-ai.conf 中的 MODEL 字段来加载模型
3.4. DeepSeek 服务测试
DeepSeek 服务启动后,可以 tencentos-ai 支持使用 test 命令来对本地的 DeepSeek 进行简单的测试
看到以下回应,表示服务正常

4. 性能评测
4.1 性能评测方法
本次测试采用行业内主流基准测试框架,通过标准化的测试流程和评估指标,比较不同私有化部署方案之间的性能差异,评估中重点关注三大指标:输出 token 速率(tokens/s)、平均首 token 时延(ms)和平均生成 token 时延(ms),其中输出 token 速率和平均生成 token 时延会极大的影响用户的使用体验(快不快),也是对 GPU 资源效能的重要评估指标。
本次性能评估涵盖了代码生成、对话问答、预训练、医疗四个目前 AI 的主流应用场景,使用目前业内公开的数据集进行测试,对比了较为流行的开源部署方案-vLLM。
4.2 与 vLLM 对比结果分析
● 代码生成类场景:
使用 github_sample 数据集来进行测试,以下为测试结果:


从上图中可以观察到,相比 vLLM,TencentOS Server AI 在代码生成类场景中 token 吞吐速率提升 53.6%,平均生成 token 时延降低 38.9%。
● 对话问答场景:
使用 ShareGPT_V3 数据集来进行测试,以下为测试结果:


从上图中可以观察到,相比 vLLM,TencentOS Server AI 版在对话问答场景中 token 吞吐速率平均提升 53.4%,平均生成 token 时延降低 39.5%。
● 预训练场景:
使用 c4_sample 数据集来进行测试,以下为测试结果


从上图中可以观察到,相比 vLLM,TencentOS Server AI 版在预训练场景中 token 吞吐速率提升 117.2%,平均生成 token 时延降低 55.9%。
● 医疗场景:
使用 medical 数据集来进行测试,以下为测试结果:


从上图中可以观察到,相比 vLLM,TencentOS Server AI 版在医疗场景下 token 吞吐速率提升 94.1%,平均生成 token 时延降低 51.0%。
综上,TencentOS Server AI 可快速完成 DeepSeek-R1:70B(百亿模型)部署,并在代码生成、对话问答、预训练和医疗四类场景下,token 输出分别提升 53.6%、53.4%、117.2%和 94.1%,平均 token 输出提升 79.58%。
评论