机器学题平台 PAI 论文入选国际顶会 KDD- 构建端到端的大规模 AI 工程能力
一、顶会概览
KDD 2021 上,阿里云机器学习平台 PAI 参与的论文入选,大规模可扩展文本分类框架 MeLL、大规模推荐模型推理系统 FleetRec、自动特征生成的方法 FIVES 分别被录取。
KDD 大会至今连续举办 26 届,是世界数据挖掘最高级别的学术会议之一,有数据挖掘领域“世界杯”之称,每年吸引了大量数据挖掘、机器学习、大数据和人工智能等领域的研究学者、从业人员参与。
多篇研究成果的发布离不开 25 位的阿里云计算平台布道师汪诚愚、潘浩杰、邱明辉、黄俊、林伟、冯亮、刘童璇、李永和达摩院布道师花费大量时间撰写和修改,布道师们通过撰写论文和参加学术会议,传播阿里云技术优势。
二、论文亮点
MeLL 是首个基于元终身学习的的大规模可扩展文本分类框架,可用于增量式的训练上千个文本分类模型,广泛运用于各个业务场景中,同时保证了在模型数量增加的情况下整体参数量不爆炸,对模型的落地上线有积极作用。
FleetRec 是首个结合 GPU、FPGA 和 CPU 算力特点的大规模推荐模型推理系统,可灵活支持不同种类的百 G 级推荐模型,保证系统集群的可拓展性,并在提供极低延时的前提下在实现超过一个量级的吞吐提升,是高并发大规模推荐系统性能上的重大技术突破。
FIVES 是一种自动特征生成的方法,创新提出了一种以邻接张量表示特征交互,通过可微分的方式求解最优邻接张量的自动特征工程的生成方法,具有理论可解释性的同时,通过 DNN 提高整体的工程效率。
三、业务实践
这三篇论文主要总结了我们在 AI 模型训练推理方向上的一些技术突破。众所周知,大规模 AI 模型训练的主要瓶颈在于训练时间和集群容量,尤其是对于具有超过千亿参数且具有最佳模型性能的超大型 NLP 模型,其复杂性不仅仅体现在系统需要管理好超大规模异构计算资源,还体现在规模效应下的工程复杂度上。
为了突破工程容量和复杂的瓶颈,我们通过软硬件协同优化 AI 模型训练,并持续探索实现了多维并行能力及自动并行策略,提供友好、易用及高效的分布式并行能力,达到屏蔽工程系统的复杂性,构建全域 AI 基础设施,赋能业务的目的。
阿里云计算平台负责人贾扬清表示:我们希望通过算法与工程的协同设计构建端到端的大规模 AI 工程能力,用云上 AI 平台 PAI 服务各行各业。
四、阿里云布道师、论文作者
论文 MeLL:
Large-scale Extensible User Intent Classification for Dialogue Systems with Meta Lifelong Learning
汪诚愚、潘浩杰、刘源、陈克寒、邱明辉、周伟、黄俊、陈海青、林伟、蔡登
论文 FleetRec:
Large-Scale Recommendation Inference on Hybrid GPU-FPGA Clusters
蒋文棋、何震豪、张帅、曾凯、冯亮、张健松、刘童璇、李永、周靖人、张策、Alonso Gustavo
论文 FIVES:
Feature Interaction Via Edge Search for Large-Scale Tabular Data
谢悦湘、王桢、雅亮、丁博麟、林伟、周靖人
五、延伸阅读
过去两年,机器学习平台 PAI 在算法和工程协同的研究成果被多个国际 AI 系统顶会录取,特别是在超大模型的并行训练范式,异构加速计算及削峰填谷集群调度等 AI 基础系统领域上。有了这些基础工程技术加持,以及算法和工程协同,在 KDD 上,集团 M6 预训练模型论文强势登场。
评论