写点什么

天工一刻 | 一文看懂小模型与端侧模型

作者:新消费日报
  • 2024-07-04
    云南
  • 本文字数:5710 字

    阅读完需:约 19 分钟

1720061351142728.jpg


随着大模型技术迎来颠覆性突破,新兴 AI 应用大量涌现,不断重塑着人类、机器与智能的关系。

为此,昆仑万维集团重磅推出《天工一刻》系列产业观察栏目。在本栏目中,我们将对大模型产业热点、技术创新、应用案例进行深度解读,同时邀请学术专家、行业领袖分享优秀的大模型行业趋势、技术进展,以飨读者。

小模型与端侧模型,2024 大模型赛道最重要的两个议题。

就在 6 月 28 日,谷歌刚刚发布了 Gemma 系列的最新 SOTA(State-of-the-Art,当前最领先)模型 Gemma-2,有 9B 和 27B 两种大小,谷歌还称计划在未来几个月发布 2B 版本,更适合手机终端运行。

而不久前的苹果 WWDC 大会上,苹果先是推出了端侧 AI 系统 Apple Intelligence,随后又在技术博客中介绍了其自研的端侧 3B 小模型——性能全面超越主流 7B 大模型。

在更早之前的 4 月,则更是全球小模型和端侧模型“神仙打架”的月份。短短的一月之内,Meta、微软、苹果等集中发布 Llama-3、Phi-3、OpenELM,对小模型和端侧模型产业带来极大冲击。如果把时间放宽到 2024 年上半年,则还有 MobileLLM、Gemma-7B、Qwen-7B、MiniCPM、TinyLlama 等一系列代表玩家。

手机厂商更是早早就杀入局中。在全球手机/PC 市场保有量居高不下、用户换机周期高达 51 个月的当前,AI 大模型无疑成为各大终端厂商全力押注之处。

从 2023 年下半年开始,华为、小米、OPPO、vivo、苹果、三星,以及产业链上的高通、联发科等都陆续推出手机 AI 大模型或手机 AI 大模型芯片。根据 Counterpoint 数据,仅在 2024 年第一季度,全球具有生成式 AI 功能的智能手机型号就从 16 个增加到 30 多个,AI 手机销量占比从 1.3%提高到 6%。

大模型厂商、终端厂商、终端芯片厂商……小模型与端侧模型的兴起,已经逐渐成为产业共识。

一、端侧模型 vs 小模型

严格来说,“端侧模型”与“小模型”的概念并不能直接等同。

“小模型”通常指的是那些参数规模远少于 GPT-3 或 Llama-13B 的大语言模型,几个具有代表性的参数为 1.5B、3B、7B 等。

这些小模型虽然参数规模较少,但通过特定的设计和优化,仍然能够在某些任务上达到与大型模型相似的性能,从而降低计算资源消耗,提高能耗比。

“端侧模型”则通常指的是部署在手机、电脑、或其他移动设备、嵌入式系统等资源受限的设备上的模型,这些设备的计算资源(AI 算力、内存等)往往不足以直接运行大型的预训练模型,同时对于端侧的能耗、发热等问题有着更为极致的要求。

因此,端侧模型需要特别设计以减少模型大小和模型架构,以便能够在端侧设备上高效运行。

其中,学术界关于小模型的技术研究较为深入,而产业界更注重端侧模型的工程化研究。

不过目前手机、PC 等终端设备受限于计算资源问题,大多只能流畅运行小模型,因此大量相关研究都存在重合领域。本文内容对于两类模型均有所覆盖。

二、小模型三大技术流派

目前来看,全球关注度最高的小模型和端侧模型,仍要数 Meta、微软、苹果分别与今年发布的 Llama-3、Phi-3-mini、OpenELM/Apple Foundation Model。

从最底层技术架构上来说,Llama-3、Phi-3、OpenELM/Apple Foundation Model 都采用了当前主流的、由 GPT 引领的 Decoder-only Transformer 架构。

同时,当前主流小模型也统一采用了“预训练 Pre-train + 微调 Fine-tune + 对齐 Alignment”的模型训练思路。


1720061373324990.png


(苹果模型训练思路,技术博客《Introducing Apple’s On-Device and Server Foundation Models》)

从整体来说,当前主流小模型的核心技术思路与“大”模型一致。

不过具体到各个小模型的模型设计、训练方法、数据工程领域,则衍生出不同的技术派别。

1、暴力美学派

在众多派别中,最具代表性玩家之一当属 Llama-3。

Meta 的 Llama 是大模型领域市场认知度最高的开源大模型系列。2024 年 4 月,Meta 在官网通过技术博客的形式正式发布了最新的 Llama-3 系列大模型,在当时的主流榜单上取得了不俗的成绩。

其中,Llama-3 共有 80 亿(8B)、700 亿(70B)两种参数;而根据 Meta 透露,其 4000 亿(400B)参数的 Llama-3 模型还在训练当中。

Llama-3 在模型架构上跟上一代 Llama-2 差别不大,但训练数据规模上却有了惊人的提升。

根据 Meta 技术博客内容,Llama-3 的训练数据量达到了惊人的 15 万亿(15T)tokens!是 Llama-2 的 7 倍。


1720061387547593.png


(Meta Llama-3 训练数据,技术博客《Introducing Meta Llama 3: The most capable openly available LLM to date》)

要知道,根据 Chinchilla Scaling Laws 定律,对于一个 8B 的大模型,最优训练数据规模仅为 0.2 万亿 tokens。

相比起来,Llama-3 砸进去的 15 万亿 tokens 堪称数据“暴力美学”——但也确实卓有成效,Llama-3-8B 在同等规模的模型间取得了惊人的优秀表现。

Meta 研究人员还表示,15 万亿并非是终点。研究人员在对 Llama-3 训练超过 15 万亿规模的数据之后,模型依旧展现出了对数线性级(log-linearly)的性能提升。

2、精耕细作派

虽然几乎同期发布,但微软 Phi-3 的训练数据思路与 Llama-3 大不相同。

Phi 是微软旗下专注于开源小模型的系列模型。其中,Phi-1 与 Phi-2 系列的模型参数规模都不超过 3B,但表现十分亮眼。

Phi-3 系列由微软于 2024 年 4 月发布,不仅依旧将研究重心放在小模型上,Phi-3 的技术论文标题更是直白地写为《Phi-3 技术报告:一个能在手机本地运行的高性能语言模型》,重点瞄准了端侧 AI。

Phi-3 系列包含 3 个版本:Phi-mini-3.8B、Phi-small-7B、Phi-medium-14B。

在训练数据设计思路上,Phi-3 与 Llama-3 有着最大的分歧。根据技术论文信息,Phi-3 的训练数据仅为 3.3 万亿 tokens,只有 Llama-3 的四分之一不到。

但是,Phi-3 研究人员对这 3.3 万亿的数据进行了大量数据工程研究,保证高质量数据的筛选与把控。


1720061405683922.png


(微软 Phi-3 训练方案,技术论文《Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone》)

这一思路沿用自微软 Phi 系列开山论文《Textbooks Are All You Need》的高质量数据集路线。在该论文中,微软用规模仅为 7B token 的“教科书级高质量数据”训练出 1.3B 参数的 Phi-1,并自此沿用了这一路线。

Phi 系列在训练数据领域的“精耕细作”与 Llama 系列的“暴力出奇迹”形成了强烈反差,也是当前两派技术争论的焦点之一。

3、架构创新派

除了上述 Phi-3 与 Llama-3 这类在数据工程、数据训练等领域展开的研究外,目前业内也有不少玩家重点关注小模型与端侧模型的架构创新,试图打造更为“原生”的小模型与端侧模型。

受限于端侧软硬件与小模型规模的天然限制,这类创新架构主要关注如何在保持注意力机制有效性的前提下,减少计算量和内存占用,提高模型的训练和推理效率。

例如,苹果于 4 月推出的 OpenELM 系列模型采用了细粒度的优化技术,用以提升模型的性能和资源利用效率。举例而言,在模型架构设计方面,OpenELM 采用模型分层精调设计,使得整个模型可以面向硬件瓶颈做精细设计和优化,提高了小模型在端侧的运行效率。

Meta 的 MobileLLM 系列则更是开始研究 1B 以下小模型的实验和验证,在其 2024 年 2 月的论文中分别提出了 125M 和 300M 两种最新小尺寸的模型,通过模型架构创新与模型参数高效分配,在该参数范围内取得了最好效果(SOTA),其 API 调用任务精度甚至做到了与 Llama-2-7B 接近,进一步降低了小模型端侧运行的潜在设备门槛。

三、热点技术

作为当前最火的技术领域,小模型/端侧模型的各个领域都衍生出不少热点技术方向,如模型架构创新领域的分组查询注意力(Grouped-query Attention)、稀疏注意力(Sparse Attention)、混合注意力(Mixed Attention)、线性复杂度注意力(Linear Complexity Attention)、模块化网络(Modular Network)等。


1720061420587675.jpg


(在大模型训练及推理不同环节提高模型效率的相关研究,论文《Beyond Efficiency: A Systematic Survey of Resource-Efficient Large Language Models》)

在小模型与端侧模型的设计中,“高效(Efficient)”是一个核心思路,这一点在各类注意力(Attention)网络的架构创新中体现得尤为明显。

注意力网络是 Transformer 大模型技术的核心。传统的全局注意力网络需要对每个输入序列的所有位置进行计算,导致算力和内存需求暴增——这一点在端侧十分不利。

为了提高模型效率,无数研究人员自大模型诞生以来就投入有关注意力网络的创新中。

一个具有代表性的技术路径是稀疏注意力(Sparse Attention)。


1720061433306339.png


(图(a)为全局注意力,图中(b) (c) (d)为 Longformer 作者提出的三种不同稀疏注意力机制,能够显著降低计算量,论文《Longformer: The Long-Document Transformer》)

谷歌在 6 月 28 日发布的最新 SOTA 模型 Gemma-2 中就用到了稀疏注意力网络。Gemma-2 拥有 9B 和 27B 两种大小,谷歌称更适合手机终端运行的 2B 版本也即将发布。

在 Gemma-2 技术论文中谷歌表示,Gemma-2 引入了交织局部-全局注意力(Interleaving Local-Global Attentions),其在每隔一层之间交替使用局部滑动窗口注意力(Local Sliding Window Attention)和全局注意力。最终 Gemma-2 在同等规模模型上达到了最新 SOTA,甚至某些性能能够与其 2-3 倍大的模型相媲美。

此外,分组查询注意力机制(Grouped-query Attention, GQA)也是当前在小模型领域应用最广泛的技术之一。

GQA 技术于 2023 年底由 Google Research 团队提出,是一种在大模型多头注意力机制(Multi-head Attention, MHA)和多查询注意力机制(Multi-query Attention, MQA)之间进行插值的方法。


1720061445333183.png


(GQA 技术思路,论文《GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints》)

虽然 GQA 技术正式提出还不到 1 年时间,但在 Phi-3、Llama-3、苹果端侧模型、MobileLLM、Gemma-2、以及几乎所有主流小模型中全部采用了这一技术,其火爆程度可见一斑。

相较而言,多头注意力机制(Multi-head Attention, MHA)的模型表现质量更好,但多查询注意力机制(Multi-query Attention, MQA)的模型响应速度更快。

GQA 则通过使用多个 Key-value Head(数量少于 Query Head)的方法进行“折中”,使得最终模型表现质量能够与 MHA 媲美的同时,模型响应速度提高 3 倍,达到 MQA 的标准,从而取得模型性能/表现的更好平衡。


1720061459209627.png


(不同路径下模型质量与响应速度,论文《GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints》)

在数据资源日益稀缺的当下,合成数据(Synthetic Data)也是大模型业内最关注的技术突破之一。

Meta、微软、苹果等主流小模型都在其技术报告中提及了合成数据的使用,其中:Meta 表示使用 Llama-2 生成训练数据用于支持 Llama-3 的文本质量分类器(text-quality classifiers);微软表示 Phi-3 使用合成数据来训练模型的推理能力和部分细分领域能力;苹果则表示在 Post-training 阶段引入了合成数据。

不过,几家都没有具体透露更为详细的数据组成或内容。

整体而言,小模型和端侧模型目前还在产业发展早期,这几个热点方向仍有待学术与产业界的进一步探索。

四、端侧 AI 是大模型的“终局”

虽然上文在讨论过程中同时提及了端侧模型与小模型,但具体到端侧,还有很多特有的挑战有待解决。

端侧 AI 算力不足是个老生常谈的问题,众多端侧 AI 硬件公司所瞄准的也是这一方向。但事实上,目前端侧模型落地部署的最大瓶颈未必是 AI 算力——反而是内存。

相比云服务器,手机等端侧设备内存容量和存储空间通常都要小得多。可大模型即使经过压缩,依然会需要占用大量内存和存储空间,这对于资源有限的端侧设备来说几乎难以承受。

同时,端侧设备对功耗和实时性有严格的要求。大模型计算过程中所产生的高功耗会导致设备功耗飙升,甚至导致高温发热、甚至影响系统整体稳定性。

最后,端侧应用还往往需要满足实时性的要求,例如语音识别、图像处理等应用,需要在极短的时间内给出响应。如果只是把大模型进行压缩裁剪,但模型的推理速度不能满足端侧应用的实时性要求,依然不适用于端侧。

设计更小的模型只是第一步,想要模型在端侧落地,必须对模型进行进一步的优化和调整,以确保在有限的内存、算力、功耗、实时性、稳定性限制下高效运行。

因此,虽然可以通过量化、裁剪等方式将云端大模型压缩成小模型,但具体在端侧模型领域,许多研究人员更倾向于从 0 构建一个专用小模型或专用端侧模型,而非对现有大模型进行裁剪

同时,从发展的眼光看,随着技术的进步和硬件性能的提升,端侧设备能够运行的模型势必会变得更大、功能更全面

过去 10 年间,端侧算力经历了爆发式增长。移动设备、物联网设备、边缘计算设备等的硬件性能显著提升,计算能力不断增强。

举个例子,10 年前,苹果 iPhone 5s 搭载的 A7 处理器上集成了 10 亿个晶体管。而 10 年后的今天,最新一代 iPhone 15 Pro Max 中的 A17 Pro 处理器集成了多达 190 亿个晶体管,算力提升惊人。

20 年前,大部分手机甚至还未迈入智能机时代,只能打电话、发送短信、玩贪吃蛇。手机几乎不具备任何多媒体处理能力,摄像头的像素数极低,连视频都无法录制。

而在 20 年后,手机几乎无所不能,成为人们生活中不可或缺的一部分。

“端侧 AI 是大模型的‘终局’。”昆仑万维董事长兼 CEO 方汉这样评价。

方汉认为,在经历完 3-5 年的换机周期后,主流人群将普遍换上能支撑大模型端侧运行的新手机,这个过程中,更高效、便宜的端侧推理是关键。而大模型战争的“终局”是终端 AI 手机的全面普及——未来,推理成本将成为用户购机成本的一部分,实现 AI 的广泛落地。

一直以来,昆仑万维以“实现通用人工智能,让每个人更好地塑造和表达自我”为使命,致力于成为领先的人工智能科技企业,全力推动人工智技术应用落地。

2024 年 5 月,昆仑万维天工 AI 每日活跃用户(DAU)已超过 100 万,位列国内人工智能企业第一梯队。未来,昆仑万维也将不断投入前沿技术研发,优化端侧 AI 系统,让越来越多用户能够享受 AI 大模型带来的生活便利。

参考资料:

1、Beyond Efficiency: A Systematic Survey of Resource-Efficient Large Language Models

2、Gemma 2: Improving Open Language Models at a Practical Size

3、GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints

4、How Good Are the Latest Open LLMs? And Is DPO Better Than PPO?

5、Introducing Apple’s On-Device and Server Foundation Models

6、Introducing Meta Llama 3: The most capable openly available LLM to date

7、Longformer: The Long-Document Transformer

8、Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone

用户头像

还未添加个人签名 2022-09-22 加入

还未添加个人简介

评论

发布
暂无评论
天工一刻 | 一文看懂小模型与端侧模型_新消费日报_InfoQ写作社区