天工一刻 | 一文看懂 MoE 混合专家大模型
随着大模型技术迎来颠覆性突破,新兴 AI 应用大量涌现,不断重塑着人类、机器与智能的关系。
为此,昆仑万维集团重磅推出《天工一刻》系列产业观察栏目。在本栏目中,我们将对大模型产业热点、技术创新、应用案例进行深度解读,同时邀请学术专家、行业领袖分享优秀的大模型行业趋势、技术进展,以飨读者。
MoE 混合专家大模型最近究竟有多火?
举个例子,在此前的 GTC 2024 上,英伟达 PPT 上的一行小字,吸引了整个硅谷的目光。
“GPT-MoE 1.8T”
这行小字一出来,X(推特)上直接炸锅了。
“GPT-4 采用了 MoE 架构”,这条整个 AI 圈疯传已久的传言,竟然被英伟达给“无意中”坐实了。消息一出,大量 AI 开发者们在社交平台上发帖讨论,有的看戏吐槽、有的认真分析、有的开展技术对比,一时好不热闹。
MoE 大模型的火热,可见一斑。
近半年多以来,各类 MoE 大模型更是层出不穷。在海外,OpenAI 推出 GPT-4、谷歌推出 Gemini、Mistral AI 推出 Mistral、连马斯克 xAI 的最新大模型 Grok-1 用的也是 MoE 架构。
而在国内,昆仑万维也于今年 4 月 17 日正式推出了新版 MoE 大语言模型「天工 3.0」,拥有 4000 亿参数,超越了 3140 亿参数的 Grok-1,成为全球最大的开源 MoE 大模型。
MoE 究竟是什么?它有哪些技术原理?它的优势和缺点是什么?它又凭什么能成为当前最火的大模型技术?
以上问题,本文将逐一回答。
MoE 核心逻辑:术业有专攻
MoE,全称 Mixture of Experts,混合专家模型。
MoE 是大模型架构的一种,其核心工作设计思路是“术业有专攻”,即将任务分门别类,然后分给多个“专家”进行解决。
与 MoE 相对应的概念是稠密(Dense)模型,可以理解为它是一个“通才”模型。
一个通才能够处理多个不同的任务,但一群专家能够更高效、更专业地解决多个问题。
(图片来源:《GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding》)
上图中,左侧图为传统大模型架构,右图为 MoE 大模型架构。
两图对比可以看到,与传统大模型架构相比,MoE 架构在数据流转过程中集成了一个专家网络层(红框部分)。
下图为红框内容的放大展示:
(图片来源:Zian (Andy) Wang)
专家网络层的核心由门控网络(Gating Network)和一组专家模型(Experts)构成,其工作流程大致如下:
1、数据首先会被分割多个区块(Token),每组数据进入专家网络层时,首先会进入门控网络。
2、门控网络将每组数据分配给一个或多个专家,每个专家模型可以专注于处理该部分数据,“让专业的人做专业的事”。
3、最终,所有专家的输出结果汇总,系统进行加权融合,得到最终输出。
当然,以上只是一个概括性描述,关于门控网络的位置、模型、专家数量、以及 MoE 与 Transformer 架构的具体结合方案,各家方案都略有差别,但核心思路是一致的。
与一个“通才网络”相比,一组术业有专攻的“专家网络”能够提供更好的模型性能、更好地完成复杂的多种任务,同时,也能够在不显著增加计算成本的情况下大幅增加模型容量,让万亿参数级别的大模型成为可能。
Scaling Law:让模型更大
MoE 之所以受到整个 AI 大模型行业的追捧,一个核心的原因是——今天的大模型,正迫切地需要变得更大。
而这一切的原因,则要追溯到 Scaling Law。
Scaling Law,规模定律,也译为缩放定律。这不是一个严格的数学定律,它只是用来描述物理、生物、计算机等学科中关于系统复杂属性变化的规律。
而在大语言模型里,从 Scaling Law 能够衍生出一个通俗易懂的结论:
“模型越大,性能越好。”
更准确的描述是:当 AI 研究人员不断增加大语言模型的参数规模时,模型的性能将得到显著提升,不仅能获得强大的泛化能力,甚至出现智能涌现。
自人工智能诞生以来,人们一直试图设计出更巧妙的算法、更精密的架构,希望通过人类的智慧将机器设计得更聪明,达到通用人工智能。
但以 OpenAI 为代表的业内另一种声音说:“我反对!”
2019 年,机器学习先驱 Rich Sutton 曾经发表过一篇经典文章《The Bitter Lesson》,该文几乎被全体 OpenAI 成员奉为圭臬。
文中认为,也许这种传统方法是一种错误的思路;也许试图用人类智慧设计出通用人工智能的这个路径,在过去几十年间,让整个行业都走了大量弯路,付出了苦涩的代价。
而真正正确的路径是:不断扩大模型规模,再砸进去天文数字的强大算力,让 Scaling Law 创造出更“聪明”的人工智能,而不是靠人类自己去设计。
在这一轮大模型火起来之前,遵循这一思路的科学家一直是业内的少数派,但自从 GPT 路线在自然语言处理上大获成功之后,越来越多研究人员加入这一阵列。
追求更大的模型,成为了人工智能性能突破的一大核心思路。
然而问题随之而来。
众所周知,随着大模型越来越大,模型训练的困难程度、资源投入、训练时间都在指数型提升,可模型效果却无法保证等比例提升。
随着模型越来越大,稳定性也越来越差,种种综合原因让大模型参数量长久以来限制在百亿与千亿级别,难以进一步扩大。
如何在有限的计算资源预算下,如何训练一个规模更大、效果更好的大模型,成为了困扰行业的问题。
此时,人们将目光投向了 MoE。
MoE:突破万亿参数大关
早在 1991 年,两位人工智能界的泰斗 Michael Jordan 与 Geoffrey Hinton 就联手发布了 MoE 领域的奠基论文《Adaptive Mixtures of Local Experts》,正式开创了这一技术路径。
2020 年,《GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding》论文又首次将 MoE 技术引入到 Transformer 架构中,拉开了“MoE+大模型”的大幕。
2022 年,Google《Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity》论文中提出的 MoE 大模型更是一举突破了万亿参数大关。
Switch Transformers 模型参数达到 1.57 万亿,与此前的 T5 模型相比,在相同的计算资源下获得高达 7 倍的模型预训练速度提升,并实现了 4 倍的模型加速。
而正如文章开头所言,本届 GTC 上英伟达侧面证实了那个公认的传言:OpenAI 在 2023 年推出的 GPT-4,同样采用了 MoE 架构,其模型效果与计算效率都得到了显著提升。
总结起来,MoE 在大模型领域的优势包括:
1、与传统的 Dense 模型相比,MoE 能够在远少于前者所需的计算资源下进行有效的预训练,计算效率更高、速度更快,进而使得模型规模得到显著扩大,获得更好的 AI 性能。
2、由于 MoE 在模型推理过程中能够根据输入数据的不同,动态地选择不同的专家网络进行计算,这种稀疏激活的特性能够让模型拥有更高的推理计算效率,从而让用户获得更快的 AI 响应速度。
3、由于 MoE 架构中集成了多个专家模型,每个专家模型都能针对不同的数据分布和构建模式进行搭建,从而显著提升大模型在各个细分领域的专业能力,使得 MoE 在处理复杂任务时性能显著变好。
4、针对不同的专家模型,AI 研究人员能够针对特定任务或领域的优化策略,并通过增加专家模型数量、调整专家模型的权重配比等方式,构建更为灵活、多样、可扩展的大模型。
不过,天下没有免费的性能提升,在拥有种种优势之于,MoE 架构也存在着不少挑战。
由于 MoE 需要把所有专家模型都加载在内存中,这一架构对于显存的压力将是巨大的,通常涉及复杂的算法和高昂的通信成本,并且在资源受限设备上部署受到很大限制。
此外,随着模型规模的扩大,MoE 同样面临着训练不稳定性和过拟合的问题、以及如何确保模型的泛化性和鲁棒性问题、如何平衡模型性能和资源消耗等种种问题,等待着大模型开发者们不断优化提升。
结语
总结来说,MoE 架构的核心思想是将一个复杂的问题分解成多个更小、更易于管理的子问题,并由不同的专家网络分别处理。这些专家网络专注于解决特定类型的问题,通过组合各自的输出来提供最终的解决方案,提高模型的整体性能和效率。
当前,MoE 仍旧是一个新兴的大模型研究方向,研究资料少、资源投入大、技术门槛高,其研发之初仍旧以海外巨头为主导,国内只有昆仑万维等少数玩家能够推出自研 MoE 大模型。
不过,值得注意的是,虽然以扩大模型参数为核心的“暴力出奇迹”路线主导了当前的人工智能行业研究,但时至今日也没有人能拍着胸脯保证,Scaling Law 就是人类通往通用人工智能的唯一正确答案。
从 1991 年正式提出至今,MoE 架构已历经了 30 年岁月;深度神经网络更是 70 年前就已提出的概念,直到近十多年间才取得突破,带领人类攀上人工智能的又一座高峰。
MoE 不是人工智能技术前进道路的终点,它甚至不会是大模型技术的最终答案。未来,还将有大量感知、认知、计算、智能领域的挑战摆在研究者面前,等待着人们去逐一解决。
所幸的是,怕什么真理无穷,进一寸有一寸的欢喜。
参考资料:
1、GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding
2、Mixture of Experts: How an Ensemble of AI Models Decide As One
3、Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity
4、「天工 2.0」MoE 大模型发布
评论