智源大模型通用算子库 FlagGems 四大能力升级 持续赋能 AI 系统开源生态
FlagGems 是由智源研究院于 2024 年 6 月推出的面向多种 AI 芯片的开源大模型通用算子库。FlagGems 使用 Triton 语言开发,在 Triton 生态开源开放的基础上,为多种 AI 芯片提供开源、统一、高效的算子层生态接入方案。FlagGems 沿着统一的中间语言、统一的算子接口和统一的开源算子库方向进行了深入探索与实践。经过半年的研发迭代,FlagGems 取得了诸多新进展。
四大能力升级
提供大模型算子总数超过 120 个,是目前提供算子数量最多、覆盖广度最大的 Triton 算子库。
提供多后端支持,目前已有 7 家厂商的不同 AI 芯片接入 FlagGems,为大模型提供更多算力选择。
实现代码生成技术、运行时优化技术,在开发效率和运行性能等重要指标上都优于同类开源项目。
持续优化多种 AI 芯片性能,加速比显著提升,多数超越原生算子。算子在 Nvidia GPU 上整体性能优越,实现平均性能 90%以上超越 Pytorch CUDA 版本。
详细数据如下所示:
平台:A100
实验时间:11 月 27 日
代码版本:commit 41ab8017b4ed93db54358e3cb563eadf1a98f43d
采集方法:benchmark 数据按算子取加速比均值,全局排序
数据意义:加速比为 1 表示 FlagGems 与 Pytorch aten CUDA 性能相当,超过 1 表示 FlagGems 性能更优,低于 1 表示 FlagGems 性能劣势;黄色条左侧的加速比均大于 1,黄色条至红色条之间的加速比约等于 1,红色条右侧的加速比小于 1。
赋能大模型训练
FlagGems 已与智源大模型并行训练及推理框架 FlagScale(https://github.com/FlagOpen/FlagScale.git)进行集成使用,该框架能实现不同代际、不同架构芯片之间的异构混合训练,已支持智源内外 10 多个模型的端到端训练与推理,涵盖稠密与稀疏模型,涉及语言与多模态领域,参数规模到千亿量级,并实现多款芯片的适配。
首次实现 FlagGems+FlagScale 端到端训练的模型如下:
语言模型 Aquila-135M
模型概述
Aquila-135M 是尺寸最小的中英双语语言大模型。
基于 1.66TB 的预训练数据和优选的 100B Token 的退火数据,采用预训练和退火二阶段训练得到。
整个训练过程基于智源 Triton 算子库 FlagGems 以及并行训练框架 FlagScale 实现。
模型效果
英文指标接近同类型小模型 SOTA 水平(SmolLM2-135M),中文评测显著胜出。
采用 Triton 算子的模型效果与 CUDA 算子基本一致,证明了 Triton 算子的正确性。
多模态模型 Aquila-VL-2B
模型概述
Aquila-VL-2B 基于 LLaVA-OneVision 框架构建,采用 Qwen-2.5-1.5B 作为语言塔,Siglip400m 作为视觉塔,并使用了智源开源的千万级多模态指令数据集 Infinity-MM 进行多阶段训练。这一创新设计和高质量数据的结合,使得 Aquila-VL-2B 在同规模模型中取得了领先的性能。
训练过程基于智源 Triton 算子库 FlagGems 以及并行训练框架 FlagScale 实现,分别在 Nvidia GPU 和 某款非英伟达的全功能 GPU 训练,证明了 FlagGems 支持多元化 AI 芯片能力。
模型效果
其中 Aquila-VL-2B-Triton 在某款全功能 GPU 千卡规模高效训练,效果与 Nvidia A800 基本一致。
构建开发者生态
智源致力于构建 FlagGems 开发者生态,支持多元化 AI 芯片的合作体系,通过深化核心合作、强化社区建设、提供技术与框架支持、丰富生态建设活动等多维度策略,全面促进 AI 技术的创新与发展。目前,智源与蚂蚁、腾讯、商汤、火山等大模型应用厂商,以及浪潮、新华三、联想等系统厂商建立合作伙伴关系,并携手百度飞桨、中科加禾、硅基流动等厂商,共同为开发者提供算子及框架支持,此外,智源还联合上海实验室、信通院、电子四院等机构,积极推动制定相关标准,为生态健康发展提供技术的规范性和统一性。这些合作伙伴不仅为生态提供了丰富的资源和技术支持,也为生态的多样性和活力注入了新的血液。
在社区平台建设方面,FlagGems 与 CSDN 深度合作,建立了 Triton 中文社区门户,汇聚了超过 110 名社区算子贡献者,通过 Github Project 看板协作完成项目贡献,并已对外发放 25+个开发任务,激励社区开发者的参与和贡献。得到上海人工智能实验室、CSDN、中国互联网协会人工智能工作委员会的共同支持,首次活动线下满员,线上参与 5000+人次。智源大会期间举办了 Triton 算子开发培训,并举办 Triton 生态活动专场,Triton 中国生态 Meetup 系列活动,展现了生态的广泛影响力。
教育是生态建设的未来。智源积极参与北京市属高校人工智能通识课程案例征集,打造《AI 高性能计算软件编程》课程,为高校学生提供了宝贵的学习资源。这不仅为学生提供了实践机会,也为生态培养了未来的人才。
评论