写点什么

AIGC 时代,基于云原生 MLOps 构建属于你的大模型(上)

作者:York
  • 2023-06-09
    北京
  • 本文字数:1800 字

    阅读完需:约 6 分钟

AIGC时代,基于云原生 MLOps 构建属于你的大模型(上)

为了满足企业在数字化转型过程中对更新迭代生产力工具的需求,灵雀云近日推出了云原生 MLOps 解决方案,帮助企业快速落地 AI 技术、实现智能化应用和服务。



为什么要打造云原生 MLOps 解决方案?


随着信息化技术的不断发展,企业在数字化转型的过程中,需要不断地更新迭代生产力工具,从最早的将物理世界的主要业务数据使用信息化方式代替,到后来的利用大数据平台将沉淀的数据转化为企业的数据资产,再到现在的利用人工智能和机器学习技术将数据资产进一步转化为模型资产,实现智能化应用和服务。

在这个演进过程中,作为 AI 时代的 DevOps,MLOps 成为不可或缺的基础平台能力,为企业提供从模型开发、训练、部署、管理到优化的全流程支持,助力企业快速实现 AI 落地和创造价值。


1686045637608544.png


然而,目前市场上的 MLOps 开源工具多数存在着部署复杂、运维困难、功能不完善、易用性差等问题,企业落地 AI 机器学习技术依然面临着很多挑战和高昂的成本。为了解决这些问题,灵雀云作为云原生领域领军企业,近日推出了企业级云原生 MLOps 解决方案以及其开源版本 kubeflow-chart,致力于最大程度地降低企业应用 AI 能力的门槛,使企业获得高效、低成本、规范化、可追溯的 AI 应用开发以及上线流程,帮助企业快速应用云原生机器学习技术,构建高效、稳定、可扩展的 MLOps 平台。


1686045650952438.png


开源版本 kubeflow-chart:解决云原生工具 kubeflow 部署难、使用难的困境


灵雀云自主研发的开源 MLOps 工具 Kubeflow-chart,旨在简化在 Kubernetes 上部署开源 Kubeflow 的步骤,免去企业调研、部署、运维、应用迁移和适配的成本,大幅降低了企业应用 Kubeflow 的成本。Kubeflow-chart 使用 Helm Chart 方式定制了 Kubeflow 的安装方式,只需运行一个命令(helm install),即可轻松完成 Kubeflow 及其依赖组件(如 dex、cert-manager、istio、knative-serving 等)的安装。

此外,Kubeflow-chart 提供了常见的配置项抽出,如镜像地址、认证配置信息、默认账户、依赖组件安装开关等,只需修改 values.yaml 文件,即可轻松在不同的 Kubernetes 环境中部署 Kubeflow。同时,还提供了 values-cn.yaml 文件,解决了国内开发者在镜像下载方面的困扰。Kubeflow-chart 让开发者能够轻松快速地在 Kubernetes 上部署、学习、使用和管理目前最流行的机器学习软件。


Alauda MLOps:更完善、更先进、更易用、更强大


与此同时,为了为企业用户提供更便捷的云原生 MLOps 体验,灵雀云在开源版本的 Kubeflow-chart 之上,推出了更完善、更先进、更易用、更强大的企业级 MLOps 解决方案 Alauda MLOps(以下简称 AML)。


1686048225386498.png


相较于现有的开源 MLOps 方案,AML 在以下方面具有显著优势:


1.   非侵入开发模式:支持非侵入式的可视化工作流编排开发环境,无需修改原有工程代码即可应用 MLOps 能力。

2.   可视化分布式:在可视化工作流开发时,直接配置多种形式的分布式训练。

3.   多租户和配额:与 ACP 联动,实现可视化多租户资源配额管理(如 CPU、GPU、vGPU)。

4.   虚拟 GPU:支持使用 GPUManager 管理的虚拟 GPU 资源。

5.   调度器:利用 Volcano 强化分布式训练任务的调度器,支持 TFJob、PytorchJob、MPIJob 和通用 Argo 工作流。

6.   实验追踪:集成 MLFlow,代替 Kubeflow 实验追踪,并提供可视化实验比对功能。

7.   数据标注:集成 Label Studio,与 S3 存储联动,完成可视化数据标注。

8.   SQL 训练:集成 SQLFlow,使用 SQL 语言完成模型训练和预测。

9.   大模型:在数据存储、分布式训练、模型存储等 MLOps 关键环节,支持大模型的存储和调用。

10.   中文界面:提供中文界面支持。

11.   国产硬件支持:支持各种国产 CPU 和部分国产 GPU 的 arm64 架构。

12.   案例教程:内置大量中文案例和教程 Notebook,助力快速上手。

13.   高性能:内置 Intel TensorFlow、NeralCompressor、GPUManager、Triton 等工具,充分发挥训练和推理的性能。

14.   高可用:支持平台和发布的推理服务的高可用性。


1686048199875876.png


AML 涵盖数据集管理、机器学习开发、模型训练、模型/推理服务四大功能模块,无论是传统数据挖掘机器学习,还是深度学习和超大规模语言模型、对话 AI 等应用方向,都能充分发挥其强大功能。

灵雀云此次推出的云原生 MLOps 解决方案将为企业提供一个全流程支持的平台,帮助企业实现快速的 AI 落地和价值创造。无论是想要简化 Kubeflow 的部署难题还是追求更完善、先进、易用、强大的 MLOps 功能,灵雀云都将成为您不可或缺的合作伙伴。


点击此处,了解更多。


发布于: 12 分钟前阅读数: 5
用户头像

York

关注

云原生的美男子YORK 2021-01-07 加入

云原生技术社区为云原生技术实践联盟(CNBPA)旗下技术社区,专注泛云原生全栈云前沿技术和落地实践的布道。分享容器、Kubernetes、DevOps、Service Mesh、Serverless、数据库、中间件等技术干货。

评论

发布
暂无评论
AIGC时代,基于云原生 MLOps 构建属于你的大模型(上)_云原生_York_InfoQ写作社区