写点什么

【2023 云栖】黄博远:阿里云人工智能平台 PAI 年度发布

  • 2023-11-15
    浙江
  • 本文字数:2493 字

    阅读完需:约 8 分钟

本文根据 2023 云栖大会演讲实录整理而成,演讲信息如下:


演讲人:黄博远 | 阿里云计算平台事业部资深产品专家、阿里云人工智能平台 PAI 产品负责人


演讲主题:阿里云人工智能平台 PAI 年度发布

AIGC 是我们这个时代的新机遇

今年云栖大会,阿里云机器学习平台 PAI 正式发布升级为人工智能平台 PAI。在过去的 12 个月,AI 生态发生了巨大的变化,AIGC 已经成为继互联网时代的下一个产业时代风口,带来了很多新的机遇和挑战。



在整个市场当中,AIGC 领域可以分为三类:预训练大模型、开源生态和下游应用。

AI 研发新范式和新挑战

在新局势下,整个 AI 研发进入到新范式


  • 从预训练模型开始,快速定制、快速落地

  • AI 开发门槛大大降低,AI 推广加速,行业应用增长



研发新范式升级跟以往从搞数据到 0-1 搭模型是非常不一样的,主要会有三类客户:

  • 上游:通用模型生产者与平台方(如阿里);

  • 中游:利用垂直行业知识对模型进行优化(生态伙伴);

  • 下游:最终 AI 应用的使用者(最广大的用户群体)。

AI 生态链的整合和角色分化是行业发展的方向,符合社会整体效率提高的要求,必将推动 AI 普惠化的进程。


阿里云人工智能平台 PAI 全面升级

人工智能平台 PAI 在 4.0 版本里,下层是强大的基础设施,中间层“PAI 灵骏智算集群”,是专门面向超大规模分布式,重点解决预训练、Finetune、推理等工作。最上层“Model as a Service”概念,能够让不懂算法,但需要应用 AI 的人进行全链路的 AI 创新。


PAI 助力企业 AI 创新

人工智能平台 PAI 将围绕以下三个效率助力企业和开发者进行 AI 的创新,分别是开发效率、计算效率和业务效率。


提升开发效率:人,最宝贵的资源


AI 工程化的工程师人才稀缺且昂贵,工程师从数据进来到整个开发环节再到模型生产上线,大约需要 12 种工具把整个 AI 流程走完。

阿里云 PAI 全生命周期优化的 AI 平台

阿里云人工智能平台 PAI 作为全生命周期优化的 AI 平台,包含 iTAG 智能标注、DSW 交互式建模、DLC AI 训练服务、EAS 在线预测服务、AI 工作空间、AI 资产、OpenAPI 等服务,打造一体化全链路的 AI 工程平台,全面提升行业、产业落地效率


PAI-DSW 交互式建模

PAI 平台的 Notebook 服务全面升级,DSW 可以一站式 AI 开发,开箱即用,异构资源无缝对接,兼顾个人开发者及企业级协作需求,让整个开发过程变得更加高效。

同时我们也看到数据对于 AI 的重要性,PAI 把整个阿里云上的存储都做了无缝对接(OSS、NAS、CPFS),可以很容易的在云上获得做大模型开发的工作的环境。



PAI-DLC 分布式训练

在分布式训练里,大模型变得至关重要,怎么同时用 512 卡、上千卡做训练,可能很难做分布式这些细节的管理,如果涉及底层复杂软硬件能力可能更不清楚。今天通过 DLC 分布式训练可以实现单机多卡、多机多卡分布式训练,云原生灵活环境配置,企业级资源管理,快速把相应的模型训练出来。



PAI 模型服务与 AI 推理

未来,我们认为在模型服务领域,模型的推理一定会成为整个产业的热潮。因为在我们平台上已经看到有几十家做大模型的企业训练出来 50B~100B 以上的大模型,这些模型日后一定会产业落地。

PAI EAS 模型在线服务+Blade 推理加速,帮助客户一站式解决 AI 部署和推理的全部环节。



提升计算效率:机器,如何高效的利用

对于大模型无法逃避的一个问题就是解决机器效率,如何让机器被整个产品和平台疯狂使用,对所有人来说都是巨大的挑战。

PAI 灵骏智算服务 - 让大模型训练推理简单、高效

今年我们发布了 PAI 灵骏计算服务 Serverless 产品。使得 AI 的训练推理更快、更易用、更稳定,全面提升 AI 计算效率。

可以想象一下,当有 1024 张卡甚至有数千张卡做训练的时候,很难保证系统不出错误,所以我们推出了 AI Master 自动容错弹性训练。让系统帮你去解决各种各样的问题。对于整个大模型训练过程有巨大的效率提升的作用。

推出 EasyCkpt 秒级异步训练的快照,可以清楚知道每一个数据在整个显存、内存、缓存中存了多少,硬件或系统出现问题或者时我们不再需要做全局的 checkpoint,可以通过 EasyCkpt 实现秒级训练精度无损的 checkpoint,高效帮企业自动把这个问题恢复可执行状态。

TorchAcc 和 PAI-Blade 则是在大规模分布式训练和推理上做的软硬结合优化。



  1. 极致性能:高性能计算、网络、存储支撑的高性能 AI 集群

专为密集型深度学习业务及 LLM/AIGC 大模型训练场景打造的高性能集群架构

  1. 极致稳定:软硬结合、协同保障超大规模集群超高稳定性

集大规模集群管理、弹性 AI 调度、进度无损的模型保存与恢复、自动分布式性能测试于一体的稳定保障体系

  1. 基于 PAI-DLC 构建的 LLM 大模型强化学习训练框架 RLHF

支持人工反馈的强化学习 RLHF 训练框架,快速开发定制 LLM

提升业务效率:自带最佳实践,业务落地提速

阿里云是一个自带最佳实践的云,如何基于 PAI 平台让不懂 AI 的人快速上手,让没有接触过大模型、没有做过 AIGC 应用的人快速跟上节奏呢?是我们一直致力于解决的问题。

PAI 平台提供了非常丰富的场景化最佳实践方案,把最佳实践产品化方式面向客户,企业开发者们可以通过接入 PAI 平台一步步体验模型构建的整个过程。

MaaS 全链路提效

PAI 平台一站式覆盖了 AI 工程化的全流程,无缝对接 ModelScope/Huggingface 等开源社区,让算法开发者、应用开发者和业务架构师可以专注、高效的完成创新。



大模型场景化最佳实践

人工智能平台 PAI 提供全面覆盖大模型生产流程的端到端最佳实践。



智码实验室-Notebook Galley

Notebook Galley 上针对热门场景、前沿模型,打造属于开发者的内容平台,让开发者快速学习上手。

Notebook Galley 上面现在已经有 100 多个热门 AI 的案例,例如:通义系列、Llama2、Stable Diffusion 等案例在这上面全都可以一站式云上拉起服务,端到端体验。



为 AI 提供极致性能、全链路工程覆盖、端到端最佳实践的云上服务

PAI 团队持续迭代更新,面向 AI、大模型、AGI 领域做了三个核心工作:

1、软硬一体协同优化云上基础设施,把高性能网络、高性能存储和高性能计算的能力和编译优化能力、容错训练能力、快速异步 checkpoint 的能力相结合,提供极致且稳定的环境,供大家可以高效训练大模型。

2、提供了端到端涵盖整个 AI 工程链路的 PaaS 平台。

3、提供丰富的场景化最佳实践。



人工智能平台 PAI 在今后会再这三个领域持续大力构建云上 Serverless 产品,给开发者提供更加廉价、更加好用的产品力。也希望大家可以借助 AIGC 这波浪潮,助力业务更好发展!

发布于: 刚刚阅读数: 6
用户头像

还未添加个人签名 2020-10-15 加入

分享阿里云计算平台的大数据和AI方向的技术创新和趋势、实战案例、经验总结。

评论

发布
暂无评论
【2023云栖】黄博远:阿里云人工智能平台PAI年度发布_人工智能_阿里云大数据AI技术_InfoQ写作社区