写点什么

华为云亮相 KubeCon EU 2024,以持续开源创新开启智能时代

作者:华为云开源
  • 2024-03-29
    广东
  • 本文字数:2057 字

    阅读完需:约 7 分钟

华为云亮相KubeCon EU 2024,以持续开源创新开启智能时代

3 月 21 日,在巴黎举办的云原生顶级峰会 KubeCon EU 2024 上 ,华为云首席架构师顾炯炯在“Cloud Native x AI:以持续开源创新开启智能时代”的主题演讲中指出,云原生和 AI 技术的融合,是推动产业深刻变革的关键所在。华为云将持续进行开源创新,与开发者共启智能时代。


华为云首席架构师顾炯炯发表演讲

AI 对于云原生范式提出关键挑战

在过去的几年里,云原生彻底改变了传统的 IT 系统,催化了互联网和政府服务等领域的数字飞跃。云原生范式带来的新的可能性,例如闪电般的快速销售和基于微服务治理的敏捷应用 DevOps,已经深入人心。同时,人工智能的快速发展和广泛采用,包括大规模模型,已经成为行业智能的跳动心脏。


根据 Epoch 2023 年的调研数据,基础模型所需的计算能力每 18 个月就会增长 10 倍,是摩尔定理揭示的通用计算能力增长率的 5 倍。AI 带来的新摩尔定律和大规模 AI 模型的主导地位对云原生范式提出了挑战,顾炯炯总结了其中关键的 4 点:首先,低 GPU/NPU 平均利用率导致 AI 训练和推理的高成本。其次,大模型训练集群频繁的失败率限制了训练效率。第三,大规模模型的复杂配置导致 AI 开发门槛高。第四,大规模的 AI 推理部署面临着不可预测的最终用户访问延迟和数据隐私问题的风险。

华为云 AI 创新为开发者迎接挑战提供思路

随着 AI 模型变得越来越大,对计算能力的需求也呈指数级增长。这种需求不仅给云原生技术带来了挑战,也为业界提供了创新机遇。顾炯炯分享了一些华为云在 AI 创新方面的故事,为开发者解决这些挑战提供了参考。


在云原生边缘计算平台 KubeEdge 的基础上,华为云实现了一个云原生多机器人调度管理平台。用户可以通过自然语言命令在云端输入任务指令,由系统协调边缘的多个机器人共同协作完成复杂任务。为了克服自然语言命令理解、大量机器人高效调度管理以及跨类型机器人访问管理的三个挑战,该系统采用了云端、边缘节点和机器人三个部分的架构,通过大模型执行自然语言命令,并进行流量预测、任务分配和路由规划。这一架构显著提高了机器人平台的灵活性,管理效率提升 25%,系统部署周期缩短 30%,新机器人的部署时间从月级缩短到天级。


中国某顶级内容分享社区,每月活跃用户超过 1 亿。它的核心服务之一是主页上的推荐功能。推荐模型有近 1000 亿个参数。训练集群有数千个计算节点。一个训练作业需要数百个参数服务器和 worker。因此,该社区对最优拓扑调度、高性能、高吞吐量有着强烈的需求。开源项目 Volcano 可以更好地支持在 Kubernetes 上运行的 AI/ML 工作负载,并提供了一系列作业管理和高级调度策略。Volcano 项目引入了拓扑感知调度、装箱、SLA 感知调度等算法,帮助社区将整体训练性能提升了 20%,运维复杂度也大大降低。

Serverless AI 引领云原生发展趋势

如何高效、稳定地运行 AI 应用,同时降低运营成本,成为摆在众多企业和开发者面前的一大挑战。为此,华为云总结了云原生 AI 平台的关键要求,提出了一种全新的云原生 AI 平台理念——Serverless AI。


顾炯炯提到,从开发者的视角来看,Serverless AI 致力于智能地推荐并行策略,让复杂的训练和推理任务变得轻而易举。它提供自适应的 GPU/NPU 自动扩展功能,能够根据工作负载的实时变化动态调整资源分配,确保任务的高效执行。同时,Serverless AI 还维护着一个无故障的 GPU/NPU 集群,让开发者无需担心硬件故障带来的中断风险。更值得一提的是,该平台保持与主流 AI 框架的兼容性,让开发者能够无缝集成现有的 AI 工具和模型。


对于云服务提供商而言,Serverless AI 同样具有深远的意义。它不仅能够提高 GPU/NPU 的利用率,使训练、推理和开发混合工作负载得以高效运行,还能通过优化能效实现绿色计算,降低能耗成本。此外,Serverless AI 平台还能实现跨多个租户的空间和时间 GPU/NPU 共享,提高资源的复用率。最重要的是,它为训练和推理任务提供了有保证的 QoS 和 SLA,确保了服务质量和稳定性。


分论坛上,华为云技术专家提到,Kubernetes 上运行 AI/ML 工作负载的使用量不断增加,许多公司在分布于数据中心和各种 GPU 类型的多个 Kubernetes 集群上构建云原生 AI 平台。 使用 Karmada 和 Volcano,可轻松实现多集群的 GPU 工作负载智能调度、集群故障转移支持,在保障集群内和跨集群的两级调度一致性和效率,并平衡系统整体资源的利用率和不同优先级工作负载的 QoS,以应对大规模、异构的 GPU 环境管理中面临的挑战。


Karmada 为多云和混合云场景中的多集群应用管理提供即时可用的自动化管理,越来越多的用户在生产环境中使用 Karmada 构建灵活高效的解决方案。Karmada 已于 2023 年正式升级为 CNCF 孵化项目,期待与更多伙伴与开发者们共建繁荣社区。


针对 AI 分布式训练和大数据场景,Volcano Gang Scheduling 解决了分布式训练任务中的无休止等待和死锁问题, 任务拓扑和 IO 感知的调度,将分布式训练的传输延迟降至最低,性能提升 31%,minResources 解决了高并发场景下 Spark driver 和 executor 之间的资源竞争问题,合理规划了并行度,性能提升 39.9%。


“云原生技术的敏捷性和异构 AI 计算平台的创新性,将是提升 AI 生产力的关键。” 顾炯炯谈到,未来,华为云将持续致力于开源创新,与业界同仁、伙伴共同开启智能时代的新篇章。

发布于: 2024-03-29阅读数: 5
用户头像

华为云开源官方博客--携手共建云原生根社区 2023-03-13 加入

还未添加个人简介

评论

发布
暂无评论
华为云亮相KubeCon EU 2024,以持续开源创新开启智能时代_开源_华为云开源_InfoQ写作社区