写点什么

DeepSeek 对我国算力的影响力有多大?

作者:GPU算力
  • 2025-04-28
    北京
  • 本文字数:1221 字

    阅读完需:约 4 分钟

DeepSeek对我国算力的影响力有多大?

一、DeepSeek 的技术突破与市场定位

DeepSeek 的技术突破和市场定位使其在 AI 领域

产生了深远的影响。其技术突破包括模型架构创新、低成本实现高性能以及开源策略推动技术普及。这些创新不仅提升了模型的性能,还降低了算力成本,促进了全球开发者参与。



DeepSeek LLM 模型版本:基座模型 V3、强化推理版 R1-Zero、泛化推理版 R1

二、DeepSeek 爆火

1. C 端:DeepSeek 全球破圈,成为用户规模增长最快的移动 AI 应用

DeepSeek 在 C 端的成功表现在其用户规模的快速增长。与 ChatGPT 相比,DeepSeek 在上线后的用户增长速度更快,显示出其在市场上的强大吸引力。



英伟达上线 DeepSeek

2. B 端:科技巨头积极拥抱 DeepSeek

科技巨头们纷纷拥抱 DeepSeek,推出了基于 DeepSeek 模型的服务。这些巨头包括微软、英伟达、亚马逊、英特尔、AMD、华为、腾讯、百度和阿里等,显示出 DeepSeek 在 B 端市场的广泛认可和应用。

三、DeepSeek 爆火的原因

1. 一流的性能表现

DeepSeek-V3 模型在性能上表现出色,多项评测成绩超越了其他开源模型,并在性能上与世界顶尖的闭源模型 GPT-4o 以及 Claude-3.5-Sonnet 不相伯仲。



DeepSeek-V3 对比领域开源/闭源模型

2. 大幅降低的算力成本

DeepSeek-V3 和 R1 模型不仅性能出色,训练成本也极低。V3 模型仅用 2048 块 H800 GPU 训练 2 个月,消耗 278.8 万 GPU 小时,成本仅为 557.6 万美金,而同等性能的模型通常需要 0.6-1 亿美金。



训练算力(petaFLOPs)

3. 开源模式

DeepSeek 的 V3 与 R1 模型实现了开源,采用 MIT 协议。这不仅提升了世界对中国 AI 大模型能力的认知,还打破了 OpenAI 与 Anthropic 等高级闭源模型的封闭生态。



开源许可证协议标准

四、DeepSeek 驱动算力需求变革

1. 训练算力头部集中,推理算力爆发式增长

训练算力仍有空间和前景,头部企业会持续进行教师模型的训练。推理算力则因开源模型和较低的推理成本而爆发式增长。



中国智能算力规模及预测(FP16)

2. 模型轻量化催生端侧算力的崛起

DeepSeek 通过知识蒸馏技术,将大模型压缩至轻量化版本,使其能够在端侧设备上高效运行。



模型蒸馏

五、算力产业链的重构

1. DeepSeek 通过 PTX 优化等创新技术,降低了模型训练对 NV 芯片的依赖

DeepSeek 采用 PTX 手动优化跨芯片通信,保障数据传输效率,降低了模型训练对高端 GPU 的依赖。



DeepSeek 通过 PTX 手动优化跨芯片通信

2. 国产算力的应用落地

DeepSeek 的训练和推理用的是 FP32、BF16 和 FP8 三种数据格式,推动了国产芯片在设计、性能提升等方面的发展。

六、大模型领域迎来“安卓时刻”

DeepSeek 的发布标志着大模型领域迎来了“安卓时刻”,大量 AI 应用将爆发式出现。GitHub 的 Stars 和 Fork 指标显示,DeepSeekV3 和 R1 两个项目上线至今均不足 2 个月,但它们的累计 Star 和 Fork 均与上线时间更早的 Llama 接近。



DeepSeek 累计关注度高于更早发布的 Llama(根据 GitHub 统计)

总结

DeepSeek 的技术突破和市场定位使其在 AI 领域产生了深远的影响。其一流的性能表现、大幅降低的算力成本和开源模式推动了 AI 技术的普及和发展。同时,DeepSeek 驱动了算力需求的变革,促进了算力产业链的重构,并为大模型的广泛应用奠定了基础。

 

用户头像

GPU算力

关注

GPU服务器.水冷工作站.液冷服务器 2021-11-25 加入

深度学习GPU液冷服务器,大数据一体机,图数据库一体机

评论

发布
暂无评论
DeepSeek对我国算力的影响力有多大?_开源_GPU算力_InfoQ写作社区