Meta 基础设施演进与 AI 技术革命
Meta 基础设施演进与 AI 时代
在过去的 21 年里,Meta 从连接美国少数大学几千人的小型社交网络,发展成为服务全球超过 34 亿人的多个应用和新型硬件产品。我们的基础设施经历了显著演进,从几个托管设施中的小型服务器上的少量软件系统,发展成为庞大的全球网络化运营。
基础设施堆栈扩展(2004-2010 年)
早期阶段,我们的工程工作重点在于扩展软件堆栈。当 Facebook 从哈佛扩展到其他大学时,每个大学都有自己的数据库。登录 Facebook 的学生会连接到一组公共 Web 服务器,这些服务器再将每个学生连接到其大学的数据库。
随着 Facebook 从大学扩展到高中,再到普通公众,我们平台上的用户数量急剧增加。我们通过扩展 Memcache 部署来管理数据库负载,然后构建了全新的软件系统,如 TAO 社交图,以及一系列新的缓存和數據管理系统。我们还为 News Feed 开发了新的排名服务,以及用于分享照片和视频的照片服务。
当扩展到欧洲时,我们开始扩展物理基础设施,从湾区的托管设施扩展到弗吉尼亚州阿什本的托管设施,同时我们在俄勒冈州普赖恩维尔和北卡罗来纳州森林城建立了首批数据中心。
随着物理基础设施扩展到多个数据中心,我们遇到了两个新问题:连接分布在美国和欧洲的用户到我们的数据中心,以及在每个数据中心复制整个软件堆栈。这促使我们构建了高带宽、多路径的主干网络来互连数据中心。
扩展挑战(2010-2020 年)
构建全球基础设施带来了计算机科学的所有复杂边界情况。
缓存一致性我们需要解决缓存一致性问题。用户会收到被标记在照片中的通知,但看不到照片,或者聊天线程中的消息顺序错乱。我们通过构建新的软件系统来提供缓存失效,最终为分布式系统构建了一致性 API。
集群管理随着新增数据中心区域和机器规模扩大,我们开发了新的抽象来管理它们,包括:
Twine:可扩展至管理数据中心区域数百万台机器的集群管理系统
Tectonic:数据中心规模的分布式文件系统
ZippyDB:强一致性分布式键值存储
Shard Manager:管理数千万个数据分片的全局系统
Delos:全球基础设施的新控制平面
Service Router:管理我们的全局服务网格
硬件故障屏蔽更多机器意味着更高的故障可能性。我们构建了新系统来确保向用户屏蔽故障:
Kraken:利用实时流量负载测试识别和解决资源利用率瓶颈
Taiji:管理用户流量负载均衡
Maelstrom:安全高效处理数据中心规模的灾难,同时最小化用户影响
AI 工作负载登场(2020 年)
GPU 的出现我们在 2010 年代末首次遇到 AI 引发的基础设施挑战,当时短视频变得非常流行。个性化推荐需要理解平台上的所有视频,并为每个人挑选感兴趣的视频,这与之前基于社区兴趣的内容排名截然不同。
GPU 和 AI 加速器进入视野。与主要是加载-存储机器的 CPU 不同,GPU 是向量和矩阵处理机器,可以执行比 CPU 多几个数量级的计算。我们可以构建嵌入,将每个视频表示为数字向量,在低维空间中捕获视频的上下文,使语义上相似的内容彼此靠近。
AI 集群是由数百甚至数千个极其强大的 GPU 组成的高性能计算系统,具有充足的内存,通过高带宽、低延迟网络互连,并配有定制软件堆栈以榨取系统最大性能。我们最初的 AI 集群互连了 4k GPU,用于训练排名和推荐模型。
大语言模型的兴起(2022 年)
当我们开始训练 LLM 时,情况迅速改变。LLM 需要显著更多的计算容量,我们在几周内将训练任务规模从 128 个 GPU 扩展到 2k,然后到 4k GPU。
我们首次定期处理需要数千个 GPU 同步运行的训练任务。任何一个落后的 GPU 都会拖累整个集群的性能。通过与行业和合作伙伴的合作,我们将中断率降低了约 50 倍。
加速 GPU 规模和 AI 基础设施(2023 年)
我们设计了一个使用数据中心建筑所有可用电力的集群,这导致我们在 2023 年底构建了两个各含 24k H100 的集群,一个使用 Infiniband,另一个使用 RoCE。
通过清空五个生产数据中心,我们能够在几个月内构建一个包含 129k H100 GPU 的单一 AI 集群!
效率挑战我们的 AI 工作负载不是同质的。在我们的应用上提供个性化用户体验的排名和推荐模型与 LLM 有不同的需求。LLM 本身也在快速发展。
Meta 训练和推理加速器(MTIA)
我们大力投资开发自己的芯片。Meta 训练和推理加速器(MTIA)针对我们的排名和推荐推理工作负载进行了优化。该芯片现已大规模部署在我们的数据中心,主要服务于广告工作负载,并为我们带来了比供应商芯片巨大的效率优势。
MTIA v2 将为我们的排名和推荐广告模型提供动力。
先进封装技术的需求
晶体管缩放速度跟不上性能需求。目前,光罩尺寸限制在 830 mm²,这意味着如果需要比单个芯片更高的性能,唯一选择是投资更多芯片。
内存解聚解决方案投资
推理模型、测试时推理和强化学习的兴起都给内存子系统带来了额外压力。我们开始将高带宽内存(HBM)堆叠在计算小芯片旁边以最大化 I/O 带宽。
硅光子的案例
硅光子学具有一系列优势,例如允许在更远距离上进行更快信号传输,可以显著降低机架的整体功耗。
开放标准在扩展 AI 中的作用
虽然硬件扩散提供了选项,但它们也为超大规模厂商、云运营商以及硬件和软件开发人员带来了管理挑战。
这里需要的是开放标准、开放权重模型和开源软件。像 PyTorch 和 Triton 这样的开源软件可以通过为机器学习开发人员和研究人员提供一致的编程接口来提供帮助。
下一阶段(2026 年及以后)
在 Meta,我们的目标是构建能够提供最佳、最具吸引力的体验的模型,并作为每天使用我们产品的数十亿人的个人助手。
构建这种复杂模型的基础设施意味着积极应对整个数据中心的挑战——从先进封装、热管理、电力输送到内存解聚,同时通过光学实现可扩展网络。
我们的下一个 AI 集群 Prometheus 将是一个 1 吉瓦的集群,横跨多个数据中心建筑。构建 Prometheus 是一项巨大的工程壮举,基础设施横跨单个数据中心区域中的五个或更多数据中心建筑。
我们还有一个更大的集群 Hyperion,预计从 2028 年开始上线。一旦完成,Hyperion 集群将能够扩展到 5 吉瓦的容量。
我们仍处于 AI 工作负载演进和采用的早期阶段。过去几年很忙碌,但未来几年将以更快的速度发展。AI 对硬件的要求没有放缓的迹象。更多精彩内容 请关注我的个人公众号 公众号(办公 AI 智能小助手)对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
公众号二维码

公众号二维码

评论