写点什么

GPT-4 被破解!数智时代大突破!低代码开发平台揭秘:AI 模型架构演进的利器

  • 2023-07-11
    福建
  • 本文字数:2271 字

    阅读完需:约 7 分钟

说在前面


几个小时前 SemiAnalysis 的 DYLAN PATEL 和 DYLAN PATEL 发布了一个关于 GPT-4 的技术信息,包括 GPT-4 的架构、参数数量、训练成本、训练数据集等。



背景

 

随着数智时代的到来,AI 技术在各行各业中扮演着越来越重要的角色。而在 AI 的背后,模型架构被认为是决定其性能和效果的关键因素之一。其中,ChatGPT-4.0 作为一种领先的 AI 技术模型,在数智时代的大背景下引起了广泛的关注。

 


ChatGPT-4.0 的模型架构,如同一座巍然耸立的建筑,经过精心设计和优化而成。它采用了深度学习等先进技术,能够在对话过程中理解并生成富有意义的回答。这样的模型架构给人一种与真人对话一致的感觉,同时为用户提供出色的用户体验。


不仅仅是技术 


AI 技术的模型架构不仅是技术手段,也代表了对人类思维和交流方式的一种理解和模拟。模型架构的优劣直接决定了 AI 技术的效果和适应能力。随着 AI 技术的不断发展,模型架构的优化也成为了研究的热点之一。

 

在这个背景下,低代码开发平台为 AI 模型架构的发展提供了新的助力。以 JNPF 快速开发平台为例,它为 AI 开发者提供了方便快捷的开发环境和工具,极大地降低了开发和调试的成本。开发人员可以通过简单的拖拽和配置,快速构建出定制化的 AI 模型。 体验详情:http://www.jnpfsoft.com/?from=infoq



低代码开发平台对数智时代下的 AI 新模型架构产生了积极正面的影响,主要体现在以下几个方面:

 

首先,低代码开发平台提供了更高的开发效率。AI 模型架构的优化常常需要大量的实验和调试,传统的开发方式效率低下且复杂。而低代码开发平台通过简化开发流程,将开发者从繁琐的代码编写中解放出来,使其专注于模型的设计和优化,极大地提高了开发效率。

 

其次,低代码开发平台促进了 AI 模型架构的创新。传统的开发方式往往需要庞大的团队和复杂的技术支持,限制了模型架构的创新和尝试。而低代码开发平台的简洁易用的特点,使更多的开发者能够参与到 AI 技术的创新中来,推动了模型架构的不断演进和突破。

 


最后,低代码开发平台提供了更大的灵活性和可扩展性。AI 技术的应用场景千变万化,对模型架构的要求也各不相同。低代码开发平台通过模块化的设计和丰富的组件库,使得开发者能够根据具体需求进行灵活的定制和扩展,为实现各种 AI 应用提供了更多的可能性。


小结 



综上所述,低代码开发平台在数智时代下对 AI 模型架构产生了积极的影响。通过高效的开发方式、促进创新和提供灵活性与可扩展性,它成为了 AI 技术发展中不可或缺的一部分。在未来的发展中,低代码开发平台必将继续推动 AI 模型架构的演进和突破,为数智时代的 AI 应用带来更多的惊喜与进步。

 

注:本文部分内容参考了国际领先思维模型和理论,并结合个人经验进行了拓展。


信息总结 


文章末尾附上信息总结

 

总结主要的关于 GPT-4 的信息(总结来自 Yam Peleg 的推文):

 

参数数量:GPT-4 比 GPT-3 大 10 倍,估计参数数量在 120 层、1.8 万亿左右。

 

MoE 架构:即 Mixture-of-Experts 架构,这部分信息已经确认,OpenAI 通过利用 MoE 架构保持一定的成本,包含 16 个 Experts,每一个都是一个 MLP.2,约 1110 亿参数,每个前向传播都被路由到这些专家中

 

MoE 路由:尽管公开的技术文档中说了很多高级的路由功能,包括每个 token 如何选择每个专家等。但是现有 GPT-4 其实非常简单,大约就是为每个 attention 共享 550 亿参数的方式。

 

推理:每一个前向传播的推理(生成一个 token)需要 2800 亿参数以及 560 TFLOPS,这与纯 dense 模型每次正向传递所需的约 1.8 万亿参数和 3700 TFLOPS 形成了鲜明对比。

 

训练数据集:GPT-4 在约 13 万亿 tokens 上训练。这不是指不同的 token 数量,是根据 epochs 计算使用的 token 数量。基于文本的数据集做了 2 次 epoch 训练,基于代码的数据集做了 4 次 epoch 训练。

 

GPT-4 32K:每一个预训练阶段都是 8K 的长度。32K 的版本是 8K 预训练模型之后微调得到的。

 

Batch Size:batch size 是逐渐上升的,在集群中经过几天的时间达到一个数值。最终,OpenAI 的 Batch Size 达到了 6000 万!也就是每个专家大约有 750 万的 token 数量,但是并不是每个专家都能看到所有的 tokens。

 

并行策略:由于 NVLink 的限制,OpenAI 训练 GPT-4 做了 8 路 tensor 并行,15 路的 pipeline 并行。

 

训练成本:OpenAI 训练 GPT-4 的 FLOPS 约 2.15e25,在 2.5 万个 A100 上训练了 90-100 天左右时间(MFU 约 32%到 36%),如果是一个 A100 约 1 美元,那么训练成本约 6300 万美元(如果现在使用 H100 可能只要 2150 万美元)。

 

MoE 的取舍:使用 MoE 之后做了很多取舍,包括推理的处理困难,因为每个模型都用来生成文本。这意味着生成的时候有的可以使用,有的空闲,对使用率来说非常浪费。研究显示 64-128 个专家的损失比 16 个专家更好。

 

GPT-4 的推理成本:比 1750 亿的 Davinchi(GPT-3/3.5 系列)高 3 倍,主要是 GPT-4 的集群太大,利用率低一点。估计约 1k tokens 要 0.0049 美元(128 个 A100)。

 

MOA:Multi Query Attention,和其他人一样,都是正常使用 MOA。因为只需要 1 个 head,显存大大下降,但是 32K 依然无法在 A100 40G 运行。持续 batching:OpenAI 使用可变的 batch size 和持续 batching 方法。可以平衡推理成本和推理速度。

 

Vision Multi-Modal:GPT-4 的多模态部分是单独一个 visiion encoder,带有 cross attention。使得 1.8 万亿的 GPT-4 的参数扩展到 2 万亿左右。VisionModel 是从头训练的,还不够成熟。Vision 部分的一个作用是让代理可以月度网页,然后转换成图片和视频。部分数据是基于 Latex 与屏幕截屏训练的。还有 YouTube 视频,包括使用 whisper 翻译的脚本与抽帧结果。

 

推理架构:推理是在 128 个 GPU 集群上运行的,在不同的区域有不同的集群。每个节点有 8 个 GPU,包含 1300 亿参数的模型。或者说每个 GPU 少于 30GB 的 FP16、少于 15GB 的 FP8/int8。

用户头像

还未添加个人签名 2023-06-19 加入

还未添加个人简介

评论

发布
暂无评论
GPT-4被破解!数智时代大突破!低代码开发平台揭秘:AI模型架构演进的利器_人工智能_不在线第一只蜗牛_InfoQ写作社区