文心 4.0,启动大模型时代的飞轮效应
从物理学到经济学、商学当中,有一个著名的“飞轮效应”(Flywheel Effect),是指刚开始推动飞轮旋转时,需要花费非常大的力气却转速很慢,而一旦速度达到某个临界点后,飞轮就会非常轻松地高速运转。这一原理能应用到方方面面,比如健身最难熬的是前几天,一旦形成习惯就会越来越轻松。
一个企业,一个行业要显现飞轮效应,需要让各个业务模块、技术模块之间形成如齿轮咬合般的带动关系。初期要承受巨大的探索压力,而当飞轮踏上正轨,就会发展迅猛,领先优势不断加大。
AI 大模型,正显现出如此前互联网产业一样的“飞轮效应”。
10 月 17 日,以“生成未来”为主题的百度世界 2023 在北京首钢园举办。其间,百度 CEO 李彦宏表示,“大模型正成为新型工业化的重要推动力”,并且表示,文心大模型 4.0 实现了基础模型的全面升级,在理解、生成、逻辑和记忆能力上都有着明显提升,综合水平“与 GPT-4 相比毫不逊色”。
为什么在极短的时间内,业界关注重点就从“中国能否有大模型”,变成了“文心大模型与 GPT-4”并驾齐驱?文心大模型飞速进化背后的奥秘是什么?
同样在百度世界大会期间,百度首席技术官王海峰解读了文心大模型 4.0 背后的关键技术和最新进展。
在这当中,我们能读懂文心大模型如何全维度发力,造就了属于 AI 时代的飞轮效应。
技术飞轮,文心大模型 4.0 全面进化
文心大模型已经显现出飞轮效应的证据是多方面的。从体验效果、用户规模、落地场景三个最主要领域来考察,都可以发现文心大模型处在难以置信的进化速度当中。
王海峰介绍,文心大模型 4.0 的理解、生成、逻辑、记忆四大能力都有显著提升,9 月已开始小流量上线,过去一个多月效果又提升了近 30%。8 月 31 日文心一言面向全社会开放至今,用户规模已经达到 4500 万、开发者 5.4 万、场景 4300 个、应用 825 个、插件超过 500 个。
在各界非常关注的代码生成领域,基于文心大模型研制的智能代码助手 Comate,在百度内部应用效果良好,整体代码采纳率达到 40%,高频用户的代码采纳率达到 60%。目前阶段,百度每天的新增代码中有 20%是由 Comate 所生成。
而这些数字,还在快速增长。
文心大模型能够快速更新至 4.0 版本,并且体验与成绩不断提升,背后的逻辑是什么?
答案在于,百度通过多年在深度学习基础技术以及模型训练、推理、应用等方面的布局积累,已经构筑了大模型层面的全栈技术优势。换言之,百度已经率先度过了飞轮效应的投入期。聚集起来的技术动能不断累加,让文心大模型的“技术飞轮”高速运转。
纵观文心大模型的升级之路,就可以清楚地看到飞轮效应的运作模式。文心大模型自诞生起,就准确把握了知识增强和产业级两大关键突破点,既集成了百度的 AI 技术优势,又找准了未来的可持续发力方向。今年 5 月,作为文心一言的基础模型,文心大模型升级到 3.5 版本,就在基础模型升级、精调技术创新、知识点增强、逻辑推理增强、插件机制等方面实现了全面突破。而到 4.0 版本阶段,其基本技术架构与 3.0 和 3.5 版本一脉相承,并且在多个关键技术进一步突破。回顾文心大模型的升级历程,可以发现在练算法效率方面,3 月份以来文心已累计提升 3.6 倍,训练稳定性方面,周均训练有效率已超过 98%。
带着百度超过十年积累的 AI 技术与研发矩阵,文心大模型 4.0 展现出了巨大的升级幅度。我们可以将其关键节点,总结为三个强化:
1.模型强化。
模型训练、推理能力,是大模型的基础,也是大模型走向产业化的核心。在这方面,文心大模型 4.0 延续了此前的高速进化模式。通过在万卡算力上运行飞桨平台,构筑集群基础设施和调度系统、飞桨框架的软硬协同优化,支持了文心大模型的稳定高效训练。
同时,百度还构建了多维数据体系,形成了数据挖掘、分析、合成、标注、评估闭环,可以充分释放数据价值,大幅提升模型效果,并且基于有监督精调、偏好学习、强化学习等技术进行多阶段对齐,保证模型更好与人类的判断和选择对齐,再通过可再生训练技术完成增量式的参数调优,节省了训练资源和时间,加快了模型迭代速度。
由此可见,文心大模型保持高效、大幅的迭代,原因是由多方面构成的。算力平台、数据平台、训练工具,以及一系列新型模型训练技术都参与其中。尤其与飞桨的联合调优,不断扮演着更加重要的角色。
2.知识强化。
文心大模型实现了准确率好,效率也高,关键在于知识点增强技术的运用。而在文心大模型 4.0 阶段,知识点增强技术开始应用于输入和输出的双阶段。在用户输入问题时,文心 4.0 会拆解回答问题所需的知识点,进而在搜索引擎、知识图谱、数据库中查找准确知识,再将知识组装进 Prompt 送入大模型。另一方面,大模型还将对输出结果进行反思,从生成结果总结知识点,进而通过以上方式进行确认验证,对结果差错进行修正。
如此一来,相当于大模型既要理解用户提到的知识,又将反思自身输出的知识。我们发现大模型偶尔会“胡说八道”,甚至怀疑输出结果,知识点增强的双向运用,将极大提升生成内容准确率。
3.机制强化。
近段时间以来,智能体机制得到了行业的广泛关注,成为大模型发展新的风口。在这一方面,百度进一步研发了智能体机制,包括理解、规划、反思和进化,能够做到可靠执行、自我进化,并将智能体的思考过程白盒化。从而让 AI 可以具有与人类相近的理性思考能力,由此可以自主完成复杂任务,在环境中持续学习实现自主进化。
可以看到,文心大模型的核心技术升级环环相扣,彼此推动。在大模型训练效率、AIGC 效果、前沿技术探索等方面构成了正向的驱动循环。比如说,文心与飞桨的联合优化,目前可以看到价值越来越大,对于模型迭代效率提升、模型成本降低等方面有着巨大的作用,而这就是将百度潜心打造十年的深度学习开发平台能力,释放到了大模型当中。
高投入,广积累、坚持前沿探索,把核心技术组成环环相扣的齿轮。
这种技术战略的坚定笃行,正在全球 AI 赛道中进化着文心大模型的飞轮效应。
应用飞轮,行业落地全面深化
从技术飞轮向外看,大模型必须带动场景的飞轮旋转,才能最终让技术获得价值。在这方面,可以看到文心大模型正在破解应用道路上的关键难题:深度。
从目前来看,文心大模型带来的应用价值,已经能给出肯定的回答。在百度世界大会现场,王海峰分享了两个大模型的应用案例。
其一是百度与中国国家图书馆展开战略合作。利用国家图书馆拥有的全球最大古代方志资源,文心大模型通过学习古代方志与家谱数据,从而帮助全球华人获取寻根线索,实现寻根愿望。在这一场景中,我们可以看到使用了方志这种极少见、非传统的数据资料,极度考验大模型的理解与逻辑能力。而最终文心大模型经受了考验,构筑了海外华人梦回乡梓的智能之桥。
其二是百度与国家跳水队合作,基于文心一言等百度大模型技术,帮助国家跳水队实现 AI 辅助训练系统全面升级。大模型通过掌握丰富的跳水知识,理解和执行教练员和运动员的复杂指令,及时对运动员的动作进行实时打分、完成精准量化分析,提供有价值的智能化指导。
这两个场景,全面展示了文心大模型 4.0 的场景应用深度。在技术不断提升的情况下,大模型的行业落地门槛不断降低,应用空间不断加大。各行业都愿意来和百度合作,探索大模型的可能性。
这些行业的意愿与探索,形成了应用合力,正在千行百业中深化着文心大模型的飞轮效应。
人才飞轮,大模型人才培养全面强化
大模型时代的最终需求是什么?从 2012 年以来开启的 AI 热潮其实早就告诉了我们答案:智能化,最终靠人才。巨大的人才缺口、难以获得的教育资源、不连贯的产学研合作,始终是困扰 AI 技术发展的根本难题。
为了解决这个问题,需要各界的携手发力,也需要头雁企业的抉择与担当。我们还记得,百度早在 2020 年就提出了 5 年为全社会培养 500 万 AI 人才的目标。如今来看,这一目标的提出和推进,对今天中国大模型事业的发展起到了底座与引擎的作用。在百度世界大会现场,王海峰公布了百度 AI 人才培养的最新数据,面向 5 年培养 500 万 AI 人才的目标,截至目前百度已经培养了 420 万 AI 人才。但显然,大模型的到来将加大 AI 人才缺口,给 AI 人才培养带来新的课题与挑战。
在这方面,可以看到百度主动承担起了大模型时代的人才培养承诺。为了高强度培养了解大模型技术,适应大模型发展需求的人才,王海峰发布了百度人才培养的“星河计划”。他表示:“我们将与产学研各界密切合作,深化产教融合,为社会再培养 500 万大模型人才,让人工智能科技的‘创新之花’,结出更多‘产业之果’,服务国家战略,服务社会发展,服务人民福祉。”
人才是持续发展的根本,是创新可能性的来源。持续的人才培养投入,不断完善和升级的人才培养模式,都强化了这种原动力。
来自“星河计划”中的 500 万大模型人才,将在更广阔的未来,强化文心大模型的飞轮效应。
一个飞轮,万个飞轮
从一个算力节点,一项训练方案,一项算法机制的创新,到千万家企业的参与,千万个行业的参与,千万名开发者的参与。文心大模型的飞轮结构正在变得愈发紧密,联接范围变得更加广阔。
一项大模型核心技术的升级,或许就将通过某个 Prompt 改变一个人的生活,通过某个 AI 原生应用影响一家企业的发展,通过某个落地场景升级一个行业的生产力。当技术、产业、人才的飞轮全速转动,我们就将进入真正的大模型时代。
文心大模型 4.0 的飞轮效应,其实是一个缩影。其明确从启动期进入飞速提升期,意味着中国大模型产业的整体进化速度更快、核心竞争力更强,从全球 AI 机遇的参与者逐渐变成引领者。
中国大模型的技术正不断加快,核心创新正不断增强,从文心大模型 4.0 的理解、生成、逻辑、记忆能力全面提升中就可以看到。
中国大模型的产业门槛不断下降,各行业的 AI 原生应用可能性极大增强。在国家图书馆、中国跳水队的智能化尝试中就可以看到。
中国大模型的人才培养路径更加清晰,人才供给更加完善,创新动力源源不绝,在 500 万大模型人才培养计划中就可以看到。
目前的实际情况是,中国大模型产业正在踏上正轨。领军企业有能力也有雄心,在大模型时代完成更大的探索和突破。文心大模型 4.0 可以与 GPT-4 并驾齐驱,答案正在于此。
文心大模型的飞轮,带动百度的 AI 飞轮;百度的一个飞轮,又会通过各种平台、应用、工具与合作通道将影响力扩散,带动千行百业的万个飞轮。
文心 4.0 的飞轮转动,中国智能化的飞轮轰鸣。
大模型的列车,正疾驰在智能中国的铁轨上。去下一站,去更远的一站,去星辰大海之间。
版权声明: 本文为 InfoQ 作者【脑极体】的原创文章。
原文链接:【http://xie.infoq.cn/article/f2d8efa5cd657ef579fdea6a3】。
本文遵守【CC-BY 4.0】协议,转载请保留原文出处及本版权声明。
评论