写点什么

机器学题平台 PAI 论文入选国际顶会 KDD- 构建端到端的大规模 AI 工程能力

发布于: 2 小时前

一、顶会概览

KDD 2021 上,阿里云机器学习平台 PAI 参与的论文入选,大规模可扩展文本分类框架 MeLL、大规模推荐模型推理系统 FleetRec、自动特征生成的方法 FIVES 分别被录取。

 

KDD 大会至今连续举办 26 届,是世界数据挖掘最高级别的学术会议之一,有数据挖掘领域“世界杯”之称,每年吸引了大量数据挖掘、机器学习、大数据和人工智能等领域的研究学者、从业人员参与。

 

多篇研究成果的发布离不开 25 位的阿里云计算平台布道师汪诚愚、潘浩杰、邱明辉、黄俊、林伟、冯亮、刘童璇、李永和达摩院布道师花费大量时间撰写和修改,布道师们通过撰写论文和参加学术会议,传播阿里云技术优势。

二、论文亮点

MeLL 是首个基于元终身学习的的大规模可扩展文本分类框架,可用于增量式的训练上千个文本分类模型,广泛运用于各个业务场景中,同时保证了在模型数量增加的情况下整体参数量不爆炸,对模型的落地上线有积极作用。

 

FleetRec 是首个结合 GPU、FPGA 和 CPU 算力特点的大规模推荐模型推理系统,可灵活支持不同种类的百 G 级推荐模型,保证系统集群的可拓展性,并在提供极低延时的前提下在实现超过一个量级的吞吐提升,是高并发大规模推荐系统性能上的重大技术突破。

 

FIVES 是一种自动特征生成的方法,创新提出了一种以邻接张量表示特征交互,通过可微分的方式求解最优邻接张量的自动特征工程的生成方法,具有理论可解释性的同时,通过 DNN 提高整体的工程效率。

三、业务实践

这三篇论文主要总结了我们在 AI 模型训练推理方向上的一些技术突破。众所周知,大规模 AI 模型训练的主要瓶颈在于训练时间和集群容量,尤其是对于具有超过千亿参数且具有最佳模型性能的超大型 NLP 模型,其复杂性不仅仅体现在系统需要管理好超大规模异构计算资源,还体现在规模效应下的工程复杂度上。

 

为了突破工程容量和复杂的瓶颈,我们通过软硬件协同优化 AI 模型训练,并持续探索实现了多维并行能力及自动并行策略,提供友好、易用及高效的分布式并行能力,达到屏蔽工程系统的复杂性,构建全域 AI 基础设施,赋能业务的目的。

 

阿里云计算平台负责人贾扬清表示:我们希望通过算法与工程的协同设计构建端到端的大规模 AI 工程能力,用云上 AI 平台 PAI 服务各行各业。

 


四、阿里云布道师、论文作者

论文 MeLL: 

Large-scale Extensible User Intent Classification for Dialogue Systems with Meta Lifelong Learning

汪诚愚、潘浩杰、刘源、陈克寒、邱明辉、周伟、黄俊、陈海青、林伟、蔡登

 

论文 FleetRec: 

Large-Scale Recommendation Inference on Hybrid GPU-FPGA Clusters

蒋文棋、何震豪、张帅、曾凯、冯亮、张健松、刘童璇、李永、周靖人、张策、Alonso Gustavo

 

论文 FIVES: 

Feature Interaction Via Edge Search for Large-Scale Tabular Data

谢悦湘、王桢、雅亮、丁博麟、林伟、周靖人

五、延伸阅读

过去两年,机器学习平台 PAI 在算法和工程协同的研究成果被多个国际 AI 系统顶会录取,特别是在超大模型的并行训练范式,异构加速计算及削峰填谷集群调度等 AI 基础系统领域上。有了这些基础工程技术加持,以及算法和工程协同,在 KDD 上,集团 M6 预训练模型论文强势登场。

 


用户头像

还未添加个人签名 2020.10.15 加入

分享阿里云计算平台的大数据和AI方向的技术创新和趋势、实战案例、经验总结。

评论

发布
暂无评论
机器学题平台PAI论文入选国际顶会KDD-构建端到端的大规模AI工程能力