Deepseek 让中国软件像哪吒一样渡劫


25 年春节期间,deepseek 的爆火,被誉为“国运级”创新。
所谓“国运级”,不仅仅是它扭转了中美 AI 军备竞赛的局面,还在于其引发的一系列的“蝴蝶效应”。其中一个可能的“蝴蝶效应”就是:deepseek 引发中国软件行业“生死渡劫”。谨立此文为证,待 2-3 年后验证这一预判是否正确。
这要从 deepseek-R1 本身就是个杀手级应用开始说起。
1. Deepseek 本身即杀手级应用
事实上,Deepseek-R1 借助其强大的推理能力,其本身就可以成为杀手级 2B 应用——基于个人文档的 RAG 知识查询和内容生成。
你可能要问:什么是 RAG?RAG 的全称是 Retrieval-Augmented Generation,翻译为中文就是“检索增强生成”。
我们知道,类似 deepseek 这样的大模型,是基于互联网上公开数据进行训练的。它可能精通人类的各种公共知识,但对你自己工作、生活中的某些专用知识或“黑话”可能不懂,你如果要问到它跟这些专用知识或“黑话”有关的问题,它可能会很“外行”,以“一本正经的胡说八道”的方式来“凑”答案。
怎么解决这个问题呢?工程师们想到了一种方法:假设将大模型比作“学生”,你向它提问相当于让它“考试答题”。为了避免它乱答,就让它带上“小抄”。每次“答题”前,要求它先看一眼“小抄”,然后再回答问题。这样,大模型就不会胡说八道,而是结合“小抄”来针对性回答了。这个技术就叫 RAG。
还有一种方法叫“大模型微调”:让大模型自己学会“小抄”里面的知识,而不是每次回答前都临时看一眼“小抄”。这种方法需要对大模型进行训练,让它自己在脑子里融会贯通那些专业知识或“黑话”,才能够像“内行”一样回答问题。
很显然,要实现“大模型微调”,需要懂得如何进行大模型训练。这对普通用户来说,显然不现实。所以,能够让普通用户直接可用的方法就是 RAG:让大模型每次回答问题前,先临时看一下“小抄”。虽然这种方法,可能会让大模型回答问题的速度变慢,需要用户每次提问后都等待几十秒到一两分钟(相信随着 deepseek 迭代,将来会越来越快),但还是可接受的。
有了“随时携带小抄”的 Deepseek 大模型,就可以用于满足下面这样的使用需求:
文档知识的分析提炼
用户将自己电脑上的文档(包括但不限于 word/excel/ppt/pdf 等)上传到服务器(相当于为大模型准备好“小抄”),形成“私域知识”后,让大模型帮助分析、提炼、总结文档。下图就是一个例子(腾讯 ima.copilot 截图),让大模型对一个上百页的技术设计方案进行总结提炼。可以看出,这省掉了用户一个小时以上的阅读理解时间。

文档内容的自动生成
除了可以对文档进行分析总结外,还可以更进一步,让大模型自动根据所提供的“私域知识”,生成相关所需要的文档内容,如:日报/周报总结、ppt 大纲、excel 分析表格等等。下图是基于上面那个例子中上传的技术方案文档,要求生成一个专家评审的要点清单——在没有大模型前,准备这样一份清单至少需要一小时以上,而现在只需要几分钟。


试问,用户习惯于使用这种应用后,会不会“成瘾”?如果组织内的每个人(包括管理者和员工),都使用这样的知识库应用,在整个组织范围内提升的工作效率是不是很可观?
基于我个人的使用体验、结合我在很多企业内员工和朋友的调查,我的答案是肯定的。所谓“杀手级应用”,不就是那些会让人“成瘾”的应用嘛!
好了,既然说清楚了 Deepseek-R1 本身就是“杀手级应用”,那这和中国软件行业“生死劫”又有什么关系呢?这就需要先理解 Deepseek 创新 的底层逻辑。
2. Deepseek 价值的底层逻辑
毋庸置疑,Deepseek 给 AI 行业带来的创新,可以说是“颠覆性”的。而这种“颠覆性”,是由 3 大“魔法”组成的:强大的推理模型 + 降低 GPU 门槛 + 开源。
第一个“魔法”:Deepseek-R1 是当前世界公认的可媲美 OpenAI-o1 的推理大模型。从下图可以看出,Deeseek-R1 在各项大模型能力评测中,无论是数学、通识、编程各方面,评测得分都非常接近 OpenAI-o1。

当然,并不是说:当前世界上只有 Deepseek 这么厉害。事实上,还有阿里 QWen-max、腾讯混元、Claude3.5-sonnet、Gemini-pro 等模型一样强大、甚至更强大。但推理性能强大,仅仅是 Deepseek-R1 的第一个“魔法”。
Deepseek 的第二个“魔法”,是它降低了对 GPU 算力需求的门槛。众所周知,Deepseek 是在美国对华出口 GPU 封锁的背景下,采用同比 OpenAI 约 1/20 的单次训练成本来做到的,其所使用的 H800 明显比 H100 算力差了一个档次。即便在 GPU 算力明显受限的前提下,Deepseek 团队仍然通过工程手段,在算力显存、通信效率、线程调度、算法逻辑等多方面进行极致优化,最终实现了几乎媲美 OpenAI-o1 同等性能的推理模型。
这样一来,Deepseek 就向全球的企业和组织证明,即使不追逐最新款(往往也是最昂贵)的 GPU 算力,也可以训练和使用最高水平的大模型。这就让所有企业或组织都摆脱了“GPU 算力魔咒”,再也不用过多担心一旦加入 AI 竞赛,会因为价格飙升的 GPU 投资成本不可控而陷入“AI 军备竞赛”的泥潭。
Deepseek 的第三个“魔法”,就是它几乎近似“游戏规则的破坏者”,直接将自己开源,使得任何企业或组织都可以私有化部署。并且,它采用的是 MIT 开源协议,该协议除了要求使用者必须保留版权声明外,几乎没做任何限制。
如果说第一个“魔法”解决了大模型具有实用价值的问题,第二个“魔法”就是解决了 GPU 算力不受限于厂商的问题,而第三个“魔法”就使得企业或组织彻底解除了使用大模型的最后一道障碍——即在公网使用大模型对于数据安全的担忧。
以“个人文档知识查询和内容生成”这一杀手级应用为例,很显然可以看出:数据安全对企业或组织很重要。试想,如果一个 VC 基金公司要使用 Deepseek 大模型,要求其将所投项目的投资情况、项目财务报告等商业机密信息,传输到 Deepseek 公司(或其它云平台所提供的 Deepseek)的服务器上,才能进行文档分析,这显然是不现实的——谁能放心把自己组织中这么机密的文档,上传到公网服务器,从而冒着被不当窃取的风险呢?
Deepseek 三重“魔法”所带来的直接后果之一,就是企业和组织将闪电般私有化部署。为什么这么说?下面我们来逐一分析。
3. 闪电般的私有化部署
先来看“强大的推理模型”带来的后果。现在 deepseek 官网已经热到不能再热,每个用户在 Deepseek 网站只要提问 1~2 次,后续就会显示“服务繁忙,请稍后再试”。而且,伴随着 Deepseek 所引发爱国热情的高涨、中美对抗下的政策倾向、投资圈的迅速认知重构等等各种因素的组合作用,只要 deepseek 团队不掉链子,持续的更新迭代推出更好用的版本,可以预见其将持续火热下去。
这种持续火热的后果,就是市场将迅速突破营销曲线的“早期阶段”(创新者、早期采用者合计 16%用户接受),而进入“加速阶段”(早期多数 34%用户接受)——个人预测这个周期不会超过 6 个月。而一旦进入“加速阶段”,超过 50%的用户习惯于使用 Deepseek-R1 推理大模型,各个企业和组织就不再有关于“部署大模型到底有没有人用”担心。
再来看“降低 GPU 门槛”带来的后果。几乎在 Deepseek 火热的同时,国产化芯片厂商就纷纷宣布支持 Deepseek,他们包括:华为昇腾、沐曦、天数智芯、摩尔线程、 海光信息、壁仞科技、太初元碁、云天励飞、燧原科技、 昆仑芯、灵汐科技、鲲云科技、希姆计算、算能、清微智能、芯动力......与之前“只有英伟达一家、而且还只能采购较低性能的 GPU”这一局面相比,现在这么多厂商可供选择,硬件市场的供应能力就会大大提升,并且价格还更低、采购成本更可控。
最后来看看“开源”带来的后果。如前所述,Deepseek 使用的是 MIT 开源协议。该协议允许任何组织和个人,均可以基于该开源项目进行分发、复制、商业化等等,甚至在此基础上发展的商业项目选择闭源,也都不受限制。这实际上就是允许所有企业或组织“白嫖”!
在这三重后果的组合作用下,考虑到信息安全,企业和组织要使用大模型提升内部的效率、客户服务的质量、甚至开发各类基于大模型的业务应用,不二的选择就只能是“私有化部署 Deepseek”。
个人预测,最多 2 年时间,在中国市场,光体制内各个对私域数据敏感的企业和组织(这些单位对信息安全要求相对较高),如:政府、学校、医院、科研院所、设计院、央国企等等,超过 100 人以上的单位,50%以上都会有部署一套甚至多套私有化 Deepseek-R1,其总部署数量将达到 50 万套以上。
更进一步,个人认为:对于这些急于想要快速私有化部署 Deepseek-R1、生怕“错过 AI 浪潮”的企业或组织,其采用的最佳部署策略,就是“购买大模型一体机”。这种一体机,其实就是服务商将服务器、GPU、大模型、RAG 应用捆绑在一起,帮助客户调试好后,让客户“开箱即用”。这一市场的销售总额,在 2 年内估计会在三千亿以上。
不但 Deepseek 私有化部署将会闪电般速度席卷全国的各大企业和组织,甚至它还会成为几乎所有企业和组织中,将来最重要的 IT 基础设施之一。
4. 私有化大模型成为 IT 基础设施
以“个人文档知识查询和内容生成”这一杀手级应用为切入点,企业或组织内员工仅仅从提升工作效率这一点出发,就会不断地上传成千上万的私域文档进去。这就会形成一种良性循环:上传的私域文档越多,员工用起来就越方便;员工用起来越方便,上传的文档就会越多。用不了多久(个人预测私有化部署 1 年内),私域部署的 Deepseek 大模型服务器内,就承载了该企业或组织内特有的、海量的私域知识——实际上,这就是一场全社会的 AI 普及革命。
不但如此,一旦企业和组织内“习惯”了使用大模型,人们自然而然会基于此,提出一系列基于大模型的业务应用需求(下面简称其为“AI 应用”)。随着这些 AI 应用对“私有化大模型”的更进一步依赖,用不了多久(个人预测私有化部署 2~3 年),就会使得大模型成为企业和组织正常运转所“不可或缺”的 IT 基础设施——就跟 MS Office、WPS 等办公软件一样,大模型成了任何企业或组织必不可少的工具。
很快(个人预测 3 年内),80%以上超过 100 人的企业和组织,都有一套私有化部署的大模型(可能是 Deepseek,也可能是别的),其承载了内部海量的私域知识文档,并基于此重新构建了多个核心业务的 IT 应用系统。
5. 本次 IT 应用重构所预示的软件产业重塑
在 IT 应用的发展历史上,曾经发生过多次产业重构。如:早期的客户端+服务器两层架构,发展为前端+后端服务+中间件/数据库三层架构;曾经的大机系统系统,演变成小机系统架构,乃至于今天的云原生微服务架构。所有的这些产业重构,都是因为 IT 技术演变而导致 IT 应用架构的演变,催生新的 IT 应用下软硬件形态和参与者出现,进而导致了整个 IT 应用产业结构的重塑。
随着企业或组织内人员使用的越来越普及,以及 Deepseek 本身的不断迭代演进,本地部署大模型的价值将越来越凸显。这种价值凸显,最重要的部分,很可能就是基于“本地化大模型”这一 IT 基础设施上,自然而然由企业或组织内部提出需求驱动出来的、各种各样的 AI 应用软件。
基于大模型的 AI 应用软件(其实可能有 RAG 和智能体两类,但这与本文观点无关,不展开讨论),本质上也是一种企业级应用软件。它们将迅速的整合、甚至蚕食企业或组织现有的 IT 应用系统,使得企业或组织的 IT 应用系统出现架构转型。
为什么这么说?我们可以先来看看典型的 IT 应用架构都包含什么。下面是我画的一个典型 IT 应用系统的功能架构示意图(未画出应用所依赖的底层中间件、数据库等平台软件,以及其运行所在的 K8S、服务器、网络等基础资源)。

这张图,可能看起来有点复杂,我稍微给您解释下各层都在做什么:
交互层。其实就是各种普通用户能够看到的前端界面(如手机 APP、小程序等)、类似 BPM 等工作流引擎进行逻辑编排的后台进程、以及第三方应用(常见于各应用开放接口后,生态伙伴开发的应用)。这些界面展示所需要的软件代码,也都是需要程序员一行一行敲键盘才能敲出来的。
BFF 层。BFF 的全称是 backend for frontend,翻译成中文就是“为前端开发的后端”,它们是运行在服务器上的一类代码。实际上就是为了适配不同前端界面的交互方式、数据展示和编辑格式,而将微服务核心逻辑进行拼装,从而实现针对不同的交互层开发出很多功能逻辑类似、但只是输入输出不同的服务端接口 API。其本质上是交互层到微服务层的一种“中间格式转换层”。因为要面向不同交互层界面进行适配,所以一般每种交互方式,都会配套一个 BFF 层代码实现。当然,BFF 层的代码,一般也是程序员一行一行敲出来的。
领域层。这里是业务逻辑的“核心”部分,也是运行在服务器上的一类代码。在云原生微服务架构下,其一般被分裂为多个业务模块,如:订单、商品、支付等等,承载着真正的业务逻辑,并尽可能的针对不同交互层需求下,将公共的业务逻辑抽象出来,避免因为界面交互的灵活多变而重复开发代码。这种“公共逻辑”的抽象,其实要求程序员有着很高的软件设计水平,并且涉及到软件工程中很多“高深”的技术、以及对业务的深刻“洞察”。往往是整个 IT 应用系统中最有“技术含量”的部分。
在 IT 应用的工程实践中,往往“交互层”和“BFF 层”的代码,会随着业务发展或演变的需要而频繁修改,很多企业或组织甚至每周都发布新版本。而“微服务层”的代码则非常稳定,几乎很少变更。从经验角度看,“交互层”和“BFF 层”的代码,往往占了整个 IT 应用软件成本的 60%甚至 80%以上。
随着大模型的推出,尤其类似 Deepseek 这类强大推理模型的推出,上图中“交互层”、“BFF 层”代码,因为代码其实很简单,并不需要很高水平的程序员去开发。事实上,经过测试,已经基本不用程序员自己写代码,直接把需求告诉大模型,大模型写出来的代码,基本可以完成 80%以上的工作量。程序员只需要在大模型写出来代码的基础上,投入 20%不到的工作量进行修正和调试,即可上线生产使用。
通过我这么“啰嗦”的解读,你大概也意识到了,这些“交互层”、“BFF 层”代码的开发工作量,将大面积被大模型所替代。“工作量”的被替代,其实就意味着产业结构的调整。因为,个人预测,IT 应用系统的产业结构,将发生如下两方面的转型:
交互层、BFF 层等会迅速被大模型 RAG 或智能体应用所“蚕食”。
一方面,大模型可以自动生成交互层和 BFF 层的代码;另一方面,有了自然语言对话界面,IT 应用系统的用户甚至可能都不需要界面,而直接通过自然语言驱动,调用“领域层”的 API 接口,自动组装业务逻辑。
相对应的,原有的 IT 软件系统,功能越来越纯粹而单一职责。
业务软件本身的功能职责,由于只需要向大模型应用提供 API 接口,各“领域层”功能模块的职责将越来越单一、越来越稳定——这种技术背景下,DDD(领域驱动设计)等软件设计方法将大行其道,甚至会到了论“软件功能模块”销售的程度,如:单独销售能够跨电商、连锁、大卖场等多行业的通用“订单管理”产品模块。
第一方面的转型,将使得“新型”IT 应用软件厂商的蛋糕越来越大;第二方面的转型,将使得“传统”IT 应用软件厂商的蛋糕越来越小。而且,很有可能的是:“新型”厂商是从“大模型一体机”供应商成长出来的——因为这些“大模型一体机”厂商一开始只是为客户提供“个人文档知识查询和内容生成”应用,谁说他们不能自然而然的为各“业务应用软件”提供大模型相关定制化 AI 应用。两种应用的区别,无非前者是 word/excel/pdf/ppt 等文档,而后者是软件厂商负责整理的业务软件 API 接口描述(一种如下所示的、叫做 json 的格式描述)——很不幸的,整理这种文档描述,并不一定非要自己是开发对应业务软件的团队,只要懂得下图所示的脚本格式、以及相关业务知识即可。
所以说,现有的 IT 企业服务市场的这些软件开发、系统集成、解决方案实施、咨询服务等等供应商,大家要做的,要么是迁移到“第二曲线”——快速将自己转型为基于大模型生态的“新型”IT 服务商,要么就被市场淘汰。
如果将中国软件比作哪吒,Deepseek 就是元始天尊。时间到了,中国软件产业不得不面临这次“天雷”轰击,能不能活下来就要看自己了。中国软件能不能做到“我命由我不由天”呢?我们拭目以待!留给大家的时间,已经不多了!
欢迎关注本人公众号: IT 大实话(tell_it_truth)
版权声明: 本文为 InfoQ 作者【深清秋】的原创文章。
原文链接:【http://xie.infoq.cn/article/bd33555c4c67ed436c9685592】。文章转载请联系作者。
评论