大模型的效率腾飞，彩云科技做对了什么？

2024-11-16
天津
本文字数：3136 字
阅读完需：约 10 分钟

对于绝大多数 AI 创业者来说，AGI 的技术信仰是月亮，商业化能赚到钱的应用则是六便士，而一家中国公司，却将月亮和六便士都握在了手中。

彩云科技的 CEO 袁行远，一直将 AGI 作为自己的终生目标。大模型被认为是通往 AGI 之路，所以彩云科技决心为这条 AGI 之路扫清阻碍，通过优化 Transformer 架构，助力大模型效率提升，为此开发出 DCFormer 全新通用模型架构。

敢于啃最难啃的骨头，让彩云科技与许多只敢停留在应用层的 AI 公司，形成了鲜明对比。

这并不意味着彩云科技全是一群离群索居、不食人间烟火的极客。他们也打造了 AI 时代的爆款应用，如彩云小梦、彩云小译和彩云天气。其中 2021 年上线的彩云小梦 1.0，是全球领先的 AIRPG 平台，同时发布了海外版 Dreamily，目前已经吸引了 60%中国大陆用户、30%欧美用户、10%东南亚用户，在平台上进行 AI 写作。

可以看到，彩云科技的 AI 商业化表现也很出色，是国内为数不多能够实现盈利的 AI 公司。

只追求月亮会饿死，只追求商业化会活得庸俗。在 AI 的理想与现实之间，彩云科技究竟是如何找到平衡点的？

AGI 通用人工智能，被认为是人工智能领域的圣杯。而大模型，是目前通往 AGI 的必由之路。2023 年大模型技术火爆全球，但技术进化才刚刚开始。比如大模型的核心技术突破——Transformer 架构，就有一系列问题有待解决。

想摘下 AGI 的圣杯，AI 行业必须先跨越 Transformer 架构的瓶颈：

1.效率瓶颈。大模型在并行计算过程中需要频繁重写检查点（checkpoint），延长了训练周期。增强 Transformer 架构的计算效率，可以大幅缩减计算时间，提升大模型的开发效率。

2.能源瓶颈。大模型参数规模迈向超万亿，会消耗巨额电力资源，有新闻报道，一个十万亿或五十万亿参数的大模型就能用光一座小城市的所有电量。为了减少耗电量和能源负担，提升大模型的计算效率，缩短计算时间，已经刻不容缓。

3.普及瓶颈。一味追求 scale-up 的大模型技术，对算力、存储、传输、运维等各个资源的需求也直线上升，会带来高昂的落地成本和部署难度。AI 的广泛应用和普及，才能推动各行各业智能化，所以大模型必须从追求“变大”到“变聪明”，底层 Transformer 架构的优化势在必行。

正如袁行远所说，“没有（计算）效率的提升，AI 就是镜花水月”。

为了有一天人类能真正将 AGI 这枚月亮抱在怀里，彩云科技从一开始就瞄准了底层架构，主动担起了优化 Transformer 架构的技术挑战，也成为在这一领域率先取得显著成果的中国公司。

2024 年 5 月，彩云科技全新大模型论文《Improving Transformers with Dynamically Composable Multi-Head Attention》发布在 arXiv 平台，并顺利被 AI 顶会 ICML2024 收录，论文评分高达 7 分，远高于今年平均分。同时受邀在今年 7 月登台发表演讲，成为 9473 篇论文中唯二斩获 Oral 论文的中国企业，另一家是华为。

大家想必都很好奇，论文中发布的 DCFormer 架构到底有什么过人之处？

我们可以把大模型训练，看作是一个大型复杂任务，需要很多个打工人（注意力头），背着自己的参数集和数据在干活。

而 Transformer 的核心组件——多头注意力模块（MHA），将查找选择回路和变换回路给绑定在一块儿了，交给同一个注意力头。试想一下，当一个打工人既得关注查找，又得关注变换，专注性就会受到损害，而且完成的工作大概率也跟别人有重复，这就降低了整个组织的效率。

那更合理的办法是什么呢？当然就是多雇些人、专事专办呗。让不同的“注意力头”关注不同方面，一群专业的人灵活协作，干的活效率更高，质量也更好。

所以 DCFormer 框架，就是给注意力头“减负”，来提高大模型的效率。

彩云科技提出的可动态组合的多头注意力（DCMHA），解除了 MHA 注意力头的查找选择回路和变换回路的固定绑定，让它们可以根据输入动态组合。这就为 DCFormer 框架带来了几个变化：

1.灵活性提高。由于 DCMHA 允许根据输入动态组合不同的查找和变换回路，让应用了 DCFormer 的模型，能够更灵活地处理复杂任务。

2.表达能力提高。MHA 的固定绑定导致模型无法充分捕捉输入数据的多个不同特性，表达能力也受到影响。DCMHA 从根本上提升了模型的表达能力。

3.效率提高。查找和变换被固定绑定，会导致不同的注意力头学习到相似的信息，造成功能上的重复冗余，不仅降低了计算效率，还会浪费计算资源。通过可动态组合的多头注意力（DCMHA）解绑之后，DCFormer 框架实现了对 Transformer 架构 1.7—2 倍的提升，也可以让模型成本进一步下降。

总结一下，DCFormer 框架从底层改变了注意力头的组合方式。如果说打破 Transformer 计算瓶颈，加速 AGI 进程，是彩云科技的逐月之旅。那么 DCFormer 框架，就是彩云科技为梦想所打造的一座天梯，让大模型在上面实现了效率、性能、成本优化等多方面的飞跃。

沿着 DCFormer 的天梯望过去，一个大模型为核心的 AI 时代，好像离我们真的不远了。

避免这一轮大模型的 AI 浪潮走向泡沫，必须让技术致用，形成商业闭环。赚到六便士，是 AI 获得长期生命力的前提。

从技术到商业的转化，彩云科技同样敢为人先。目前，彩云科技的 AI 应用已经获得了在 DCFormer 架构的一系列助益，有望实现商业腾飞。

比如既有能力的大幅升级。作为国内首个分钟级天气预报，街道级定位精度的天气预报服务，彩云天气基于 DCFormer 带来的模型效率提升，有望在未来将分钟级的高准确率预测时长从 2 小时扩展到 3—12 小时，能力进一步提升。

再比如全新能力的拓展。彩云科技旗下 AI RPG 平台彩云小梦，采用了全新的 DCFormer 架构，V4、V5 版本有望扩展到 2000-5000 字的创作，再通过故事工程优化，目标是一年内可以轻松创作出达到专业作家水平的 5 万字长度中篇故事，同时小梦角色扮演的故事体验，也能达到专业编剧的水平。凭借优异的性能，彩云小梦在小说续写、AI 陪伴等领域，已经实现了用户使用时长断崖式的领先。

不难看到，DCFormer 架构为彩云科技的 AI 产品化、AI 商业化，奠定了腾飞的基础条件。也证明，唯有基于底层技术创新，AI 产品才能避免同质化竞争，打造出极具说服力和差异化的产品体验，从而建立碾压式的市场优势。

大模型爆火以来，国外做底层创新、国内做应用改良，似乎成了惯例。

中国 AI 企业不敢向底层创新下大力气，更希望低头捡起六便士，并不是不愿意抬头追逐月亮，而是技术代际的现实差距、算力资源受限的实际情况、商业回报的约束和压力，都是切实存在的。

而提到那些敢于逐月的 AI 公司，我们第一时间想到的是国内科技巨头，很少人知道彩云科技是国内最早做 LLM（大语言模型）的公司之一，而且敢于追逐 AGI 的梦想，向底层技术发起冲锋。

既能仰头逐月，也能低头搞好商业化，彩云科技可以作为一个国内 AI 公司找到技术和商业平衡点的成功样本。

彩云科技区别于主流 AI 公司的独特之处，在于其是个少见的“三有少年”：

有信仰。作为一个体量较小的科技公司，彩云科技利用效率更高的模型架构，在与世界顶级人工智能企业的对抗中取得优势。如果没有 AGI 的技术信仰，一个小公司是想不到、不敢做优化 Transformer 架构这件事的。

有技术产品化的能力。Transformer 架构由谷歌率先提出，却被 OpenAI 摘了桃子，ChatGPT 成为这一轮 LLM 里程碑，这得益于 chatbot 聊天机器人功能的产品化程度更高，更贴近大众。彩云科技的成功也在于此，并没有单纯地只发 paper，而是尽快将 DCFormer 与产品集成，让技术尽快转化为产品落地。这种技术产品化的能力，可以让底层创新快速投向市场，形成良性循环。

有长坡厚雪的环境。创新，需要长期耐心地投入；产品化，需要深入行业和用户之中的经验和感觉。这就是巴菲特所说的“长坡厚雪”，要有足够强的盈利和长期增长的赛道。这是很多 AI 初创企业所缺乏，但彩云科技恰好具备的。十年间，彩云科技打造的数款足够成熟和商业化的 AI 产品，为技术创新营造了长坡厚雪的良好环境。

“三有少年”彩云科技，找到了理想与现实之间的平衡点，正沿着 DCFormer 架构的天梯，朝着 AGI 的月亮飞翔。这条彩云逐月之路，也让我们看到了 AI 产品化、商业化的清晰增长路径。