Deepseek 让中国软件像哪吒一样渡劫

作者：深清秋

2025-02-24
北京
本文字数：6665 字
阅读完需：约 22 分钟

25 年春节期间，deepseek 的爆火，被誉为“国运级”创新。

所谓“国运级”，不仅仅是它扭转了中美 AI 军备竞赛的局面，还在于其引发的一系列的“蝴蝶效应”。其中一个可能的“蝴蝶效应”就是：deepseek 引发中国软件行业“生死渡劫”。谨立此文为证，待 2-3 年后验证这一预判是否正确。

这要从 deepseek-R1 本身就是个杀手级应用开始说起。

1. Deepseek 本身即杀手级应用

事实上，Deepseek-R1 借助其强大的推理能力，其本身就可以成为杀手级 2B 应用——基于个人文档的 RAG 知识查询和内容生成。

你可能要问：什么是 RAG？RAG 的全称是 Retrieval-Augmented Generation，翻译为中文就是“检索增强生成”。

我们知道，类似 deepseek 这样的大模型，是基于互联网上公开数据进行训练的。它可能精通人类的各种公共知识，但对你自己工作、生活中的某些专用知识或“黑话”可能不懂，你如果要问到它跟这些专用知识或“黑话”有关的问题，它可能会很“外行”，以“一本正经的胡说八道”的方式来“凑”答案。

怎么解决这个问题呢？工程师们想到了一种方法：假设将大模型比作“学生”，你向它提问相当于让它“考试答题”。为了避免它乱答，就让它带上“小抄”。每次“答题”前，要求它先看一眼“小抄”，然后再回答问题。这样，大模型就不会胡说八道，而是结合“小抄”来针对性回答了。这个技术就叫 RAG。

还有一种方法叫“大模型微调”：让大模型自己学会“小抄”里面的知识，而不是每次回答前都临时看一眼“小抄”。这种方法需要对大模型进行训练，让它自己在脑子里融会贯通那些专业知识或“黑话”，才能够像“内行”一样回答问题。

很显然，要实现“大模型微调”，需要懂得如何进行大模型训练。这对普通用户来说，显然不现实。所以，能够让普通用户直接可用的方法就是 RAG：让大模型每次回答问题前，先临时看一下“小抄”。虽然这种方法，可能会让大模型回答问题的速度变慢，需要用户每次提问后都等待几十秒到一两分钟（相信随着 deepseek 迭代，将来会越来越快），但还是可接受的。

有了“随时携带小抄”的 Deepseek 大模型，就可以用于满足下面这样的使用需求：

文档知识的分析提炼

用户将自己电脑上的文档（包括但不限于 word/excel/ppt/pdf 等）上传到服务器（相当于为大模型准备好“小抄”），形成“私域知识”后，让大模型帮助分析、提炼、总结文档。下图就是一个例子（腾讯 ima.copilot 截图），让大模型对一个上百页的技术设计方案进行总结提炼。可以看出，这省掉了用户一个小时以上的阅读理解时间。

文档内容的自动生成

除了可以对文档进行分析总结外，还可以更进一步，让大模型自动根据所提供的“私域知识”，生成相关所需要的文档内容，如：日报/周报总结、ppt 大纲、excel 分析表格等等。下图是基于上面那个例子中上传的技术方案文档，要求生成一个专家评审的要点清单——在没有大模型前，准备这样一份清单至少需要一小时以上，而现在只需要几分钟。

试问，用户习惯于使用这种应用后，会不会“成瘾”？如果组织内的每个人（包括管理者和员工），都使用这样的知识库应用，在整个组织范围内提升的工作效率是不是很可观？

基于我个人的使用体验、结合我在很多企业内员工和朋友的调查，我的答案是肯定的。所谓“杀手级应用”，不就是那些会让人“成瘾”的应用嘛！

好了，既然说清楚了 Deepseek-R1 本身就是“杀手级应用”，那这和中国软件行业“生死劫”又有什么关系呢？这就需要先理解 Deepseek 创新的底层逻辑。

2. Deepseek 价值的底层逻辑

毋庸置疑，Deepseek 给 AI 行业带来的创新，可以说是“颠覆性”的。而这种“颠覆性”，是由 3 大“魔法”组成的：强大的推理模型 + 降低 GPU 门槛 + 开源。

第一个“魔法”：Deepseek-R1 是当前世界公认的可媲美 OpenAI-o1 的推理大模型。从下图可以看出，Deeseek-R1 在各项大模型能力评测中，无论是数学、通识、编程各方面，评测得分都非常接近 OpenAI-o1。

当然，并不是说：当前世界上只有 Deepseek 这么厉害。事实上，还有阿里 QWen-max、腾讯混元、Claude3.5-sonnet、Gemini-pro 等模型一样强大、甚至更强大。但推理性能强大，仅仅是 Deepseek-R1 的第一个“魔法”。

Deepseek 的第二个“魔法”，是它降低了对 GPU 算力需求的门槛。众所周知，Deepseek 是在美国对华出口 GPU 封锁的背景下，采用同比 OpenAI 约 1/20 的单次训练成本来做到的，其所使用的 H800 明显比 H100 算力差了一个档次。即便在 GPU 算力明显受限的前提下，Deepseek 团队仍然通过工程手段，在算力显存、通信效率、线程调度、算法逻辑等多方面进行极致优化，最终实现了几乎媲美 OpenAI-o1 同等性能的推理模型。

这样一来，Deepseek 就向全球的企业和组织证明，即使不追逐最新款（往往也是最昂贵）的 GPU 算力，也可以训练和使用最高水平的大模型。这就让所有企业或组织都摆脱了“GPU 算力魔咒”，再也不用过多担心一旦加入 AI 竞赛，会因为价格飙升的 GPU 投资成本不可控而陷入“AI 军备竞赛”的泥潭。

如果说第一个“魔法”解决了大模型具有实用价值的问题，第二个“魔法”就是解决了 GPU 算力不受限于厂商的问题，而第三个“魔法”就使得企业或组织彻底解除了使用大模型的最后一道障碍——即在公网使用大模型对于数据安全的担忧。

以“个人文档知识查询和内容生成”这一杀手级应用为例，很显然可以看出：数据安全对企业或组织很重要。试想，如果一个 VC 基金公司要使用 Deepseek 大模型，要求其将所投项目的投资情况、项目财务报告等商业机密信息，传输到 Deepseek 公司（或其它云平台所提供的 Deepseek）的服务器上，才能进行文档分析，这显然是不现实的——谁能放心把自己组织中这么机密的文档，上传到公网服务器，从而冒着被不当窃取的风险呢？

Deepseek 三重“魔法”所带来的直接后果之一，就是企业和组织将闪电般私有化部署。为什么这么说？下面我们来逐一分析。

3. 闪电般的私有化部署

先来看“强大的推理模型”带来的后果。现在 deepseek 官网已经热到不能再热，每个用户在 Deepseek 网站只要提问 1~2 次，后续就会显示“服务繁忙，请稍后再试”。而且，伴随着 Deepseek 所引发爱国热情的高涨、中美对抗下的政策倾向、投资圈的迅速认知重构等等各种因素的组合作用，只要 deepseek 团队不掉链子，持续的更新迭代推出更好用的版本，可以预见其将持续火热下去。

这种持续火热的后果，就是市场将迅速突破营销曲线的“早期阶段”（创新者、早期采用者合计 16%用户接受），而进入“加速阶段”（早期多数 34%用户接受）——个人预测这个周期不会超过 6 个月。而一旦进入“加速阶段”，超过 50%的用户习惯于使用 Deepseek-R1 推理大模型，各个企业和组织就不再有关于“部署大模型到底有没有人用”担心。

再来看“降低 GPU 门槛”带来的后果。几乎在 Deepseek 火热的同时，国产化芯片厂商就纷纷宣布支持 Deepseek，他们包括：华为昇腾、沐曦、天数智芯、摩尔线程、海光信息、壁仞科技、太初元碁、云天励飞、燧原科技、昆仑芯、灵汐科技、鲲云科技、希姆计算、算能、清微智能、芯动力......与之前“只有英伟达一家、而且还只能采购较低性能的 GPU”这一局面相比，现在这么多厂商可供选择，硬件市场的供应能力就会大大提升，并且价格还更低、采购成本更可控。

最后来看看“开源”带来的后果。如前所述，Deepseek 使用的是 MIT 开源协议。该协议允许任何组织和个人，均可以基于该开源项目进行分发、复制、商业化等等，甚至在此基础上发展的商业项目选择闭源，也都不受限制。这实际上就是允许所有企业或组织“白嫖”！

在这三重后果的组合作用下，考虑到信息安全，企业和组织要使用大模型提升内部的效率、客户服务的质量、甚至开发各类基于大模型的业务应用，不二的选择就只能是“私有化部署 Deepseek”。

个人预测，最多 2 年时间，在中国市场，光体制内各个对私域数据敏感的企业和组织（这些单位对信息安全要求相对较高），如：政府、学校、医院、科研院所、设计院、央国企等等，超过 100 人以上的单位，50%以上都会有部署一套甚至多套私有化 Deepseek-R1，其总部署数量将达到 50 万套以上。

更进一步，个人认为：对于这些急于想要快速私有化部署 Deepseek-R1、生怕“错过 AI 浪潮”的企业或组织，其采用的最佳部署策略，就是“购买大模型一体机”。这种一体机，其实就是服务商将服务器、GPU、大模型、RAG 应用捆绑在一起，帮助客户调试好后，让客户“开箱即用”。这一市场的销售总额，在 2 年内估计会在三千亿以上。

不但 Deepseek 私有化部署将会闪电般速度席卷全国的各大企业和组织，甚至它还会成为几乎所有企业和组织中，将来最重要的 IT 基础设施之一。

4. 私有化大模型成为 IT 基础设施

以“个人文档知识查询和内容生成”这一杀手级应用为切入点，企业或组织内员工仅仅从提升工作效率这一点出发，就会不断地上传成千上万的私域文档进去。这就会形成一种良性循环：上传的私域文档越多，员工用起来就越方便；员工用起来越方便，上传的文档就会越多。用不了多久（个人预测私有化部署 1 年内），私域部署的 Deepseek 大模型服务器内，就承载了该企业或组织内特有的、海量的私域知识——实际上，这就是一场全社会的 AI 普及革命。

不但如此，一旦企业和组织内“习惯”了使用大模型，人们自然而然会基于此，提出一系列基于大模型的业务应用需求（下面简称其为“AI 应用”）。随着这些 AI 应用对“私有化大模型”的更进一步依赖，用不了多久（个人预测私有化部署 2~3 年），就会使得大模型成为企业和组织正常运转所“不可或缺”的 IT 基础设施——就跟 MS Office、WPS 等办公软件一样，大模型成了任何企业或组织必不可少的工具。

很快（个人预测 3 年内），80%以上超过 100 人的企业和组织，都有一套私有化部署的大模型（可能是 Deepseek，也可能是别的），其承载了内部海量的私域知识文档，并基于此重新构建了多个核心业务的 IT 应用系统。

5. 本次 IT 应用重构所预示的软件产业重塑

在 IT 应用的发展历史上，曾经发生过多次产业重构。如：早期的客户端+服务器两层架构，发展为前端+后端服务+中间件/数据库三层架构；曾经的大机系统系统，演变成小机系统架构，乃至于今天的云原生微服务架构。所有的这些产业重构，都是因为 IT 技术演变而导致 IT 应用架构的演变，催生新的 IT 应用下软硬件形态和参与者出现，进而导致了整个 IT 应用产业结构的重塑。

随着企业或组织内人员使用的越来越普及，以及 Deepseek 本身的不断迭代演进，本地部署大模型的价值将越来越凸显。这种价值凸显，最重要的部分，很可能就是基于“本地化大模型”这一 IT 基础设施上，自然而然由企业或组织内部提出需求驱动出来的、各种各样的 AI 应用软件。

基于大模型的 AI 应用软件（其实可能有 RAG 和智能体两类，但这与本文观点无关，不展开讨论），本质上也是一种企业级应用软件。它们将迅速的整合、甚至蚕食企业或组织现有的 IT 应用系统，使得企业或组织的 IT 应用系统出现架构转型。

为什么这么说？我们可以先来看看典型的 IT 应用架构都包含什么。下面是我画的一个典型 IT 应用系统的功能架构示意图（未画出应用所依赖的底层中间件、数据库等平台软件，以及其运行所在的 K8S、服务器、网络等基础资源）。

这张图，可能看起来有点复杂，我稍微给您解释下各层都在做什么：

交互层。其实就是各种普通用户能够看到的前端界面（如手机 APP、小程序等）、类似 BPM 等工作流引擎进行逻辑编排的后台进程、以及第三方应用（常见于各应用开放接口后，生态伙伴开发的应用）。这些界面展示所需要的软件代码，也都是需要程序员一行一行敲键盘才能敲出来的。

BFF 层。BFF 的全称是 backend for frontend，翻译成中文就是“为前端开发的后端”，它们是运行在服务器上的一类代码。实际上就是为了适配不同前端界面的交互方式、数据展示和编辑格式，而将微服务核心逻辑进行拼装，从而实现针对不同的交互层开发出很多功能逻辑类似、但只是输入输出不同的服务端接口 API。其本质上是交互层到微服务层的一种“中间格式转换层”。因为要面向不同交互层界面进行适配，所以一般每种交互方式，都会配套一个 BFF 层代码实现。当然，BFF 层的代码，一般也是程序员一行一行敲出来的。

领域层。这里是业务逻辑的“核心”部分，也是运行在服务器上的一类代码。在云原生微服务架构下，其一般被分裂为多个业务模块，如：订单、商品、支付等等，承载着真正的业务逻辑，并尽可能的针对不同交互层需求下，将公共的业务逻辑抽象出来，避免因为界面交互的灵活多变而重复开发代码。这种“公共逻辑”的抽象，其实要求程序员有着很高的软件设计水平，并且涉及到软件工程中很多“高深”的技术、以及对业务的深刻“洞察”。往往是整个 IT 应用系统中最有“技术含量”的部分。

在 IT 应用的工程实践中，往往“交互层”和“BFF 层”的代码，会随着业务发展或演变的需要而频繁修改，很多企业或组织甚至每周都发布新版本。而“微服务层”的代码则非常稳定，几乎很少变更。从经验角度看，“交互层”和“BFF 层”的代码，往往占了整个 IT 应用软件成本的 60%甚至 80%以上。

随着大模型的推出，尤其类似 Deepseek 这类强大推理模型的推出，上图中“交互层”、“BFF 层”代码，因为代码其实很简单，并不需要很高水平的程序员去开发。事实上，经过测试，已经基本不用程序员自己写代码，直接把需求告诉大模型，大模型写出来的代码，基本可以完成 80%以上的工作量。程序员只需要在大模型写出来代码的基础上，投入 20%不到的工作量进行修正和调试，即可上线生产使用。

通过我这么“啰嗦”的解读，你大概也意识到了，这些“交互层”、“BFF 层”代码的开发工作量，将大面积被大模型所替代。“工作量”的被替代，其实就意味着产业结构的调整。因为，个人预测，IT 应用系统的产业结构，将发生如下两方面的转型：

交互层、BFF 层等会迅速被大模型 RAG 或智能体应用所“蚕食”。

一方面，大模型可以自动生成交互层和 BFF 层的代码；另一方面，有了自然语言对话界面，IT 应用系统的用户甚至可能都不需要界面，而直接通过自然语言驱动，调用“领域层”的 API 接口，自动组装业务逻辑。

相对应的，原有的 IT 软件系统，功能越来越纯粹而单一职责。

业务软件本身的功能职责，由于只需要向大模型应用提供 API 接口，各“领域层”功能模块的职责将越来越单一、越来越稳定——这种技术背景下，DDD（领域驱动设计）等软件设计方法将大行其道，甚至会到了论“软件功能模块”销售的程度，如：单独销售能够跨电商、连锁、大卖场等多行业的通用“订单管理”产品模块。

第一方面的转型，将使得“新型”IT 应用软件厂商的蛋糕越来越大；第二方面的转型，将使得“传统”IT 应用软件厂商的蛋糕越来越小。而且，很有可能的是：“新型”厂商是从“大模型一体机”供应商成长出来的——因为这些“大模型一体机”厂商一开始只是为客户提供“个人文档知识查询和内容生成”应用，谁说他们不能自然而然的为各“业务应用软件”提供大模型相关定制化 AI 应用。两种应用的区别，无非前者是 word/excel/pdf/ppt 等文档，而后者是软件厂商负责整理的业务软件 API 接口描述（一种如下所示的、叫做 json 的格式描述）——很不幸的，整理这种文档描述，并不一定非要自己是开发对应业务软件的团队，只要懂得下图所示的脚本格式、以及相关业务知识即可。

{        "type": "function",        "function": {            "name": "get_flower_inventory",            "description": "获取指定城市的鲜花库存",            "parameters": {                "type": "object",                "properties": {                    "city": {                        "type": "string",                        "description": "城市名称，例如：北京、上海或深圳"                    }                },                "required": ["city"]            }        }    }

复制代码

所以说，现有的 IT 企业服务市场的这些软件开发、系统集成、解决方案实施、咨询服务等等供应商，大家要做的，要么是迁移到“第二曲线”——快速将自己转型为基于大模型生态的“新型”IT 服务商，要么就被市场淘汰。

如果将中国软件比作哪吒，Deepseek 就是元始天尊。时间到了，中国软件产业不得不面临这次“天雷”轰击，能不能活下来就要看自己了。中国软件能不能做到“我命由我不由天”呢？我们拭目以待！留给大家的时间，已经不多了！

欢迎关注本人公众号： IT 大实话（tell_it_truth）

发布于: 刚刚阅读数: 2

原文链接:【http://xie.infoq.cn/article/bd33555c4c67ed436c9685592】。文章转载请联系作者。

深清秋

关注

永远的菜鸟，永远的foolish。。。 2020-11-15 加入

21年IT从业经验，热爱写代码、软件架构设计、软件产品设计。最近决定把自己的一些代码或设计经验分享出来，希望对大家有用！

发布

暂无评论

创作场景