写点什么

一文读懂当今 AI 圈大热的“MLOps”

作者:澳鹏Appen
  • 2022 年 6 月 13 日
  • 本文字数:1979 字

    阅读完需:约 6 分钟

一文读懂当今AI圈大热的“MLOps”

MLOps / 机器学习运维


最近几年,机器学习(ML)早已成为商业和科技领域最热门的名词之一,由此驱动的应用也呈现爆发式增长。其根本原因在于,人工智能(AI)产业已由技术萌芽时期进入到规模应用期,企业竞争力也由技术创新驱动升级为“创新+应用”的双轮驱动。作为面向 AI 工程化实践的重要路径,MLOps 开始受到行业的广泛关注。



什么是 MLOps?


对于一个成功的 ML 产品而言,数据科学家需要做的不仅仅是简单地训练一个模型,而是需要将产品需求转化为 ML 的模式去思考,并为此不断收集数据,在模型之间进行有效迭代、在生产中不断验证、并以稳健的方式去进行部署和管理。


MLOps(Machine Learning Operations / 机器学习运维)是一种 ML 工程化实践,旨在整合 ML 模型开发(Dev)和 ML 模型运维(Ops),基于一系列流程和最佳实践,通过数据科学家和运维人员之间的敏捷协作来交付 ML 产品。其目标是尽可能地构建 ML 流程自动化,以实现持续交付和大规模的 AI 部署。


为什么要推动 MLOps?


MLOps 的核心理念在于促进机器学习模型在生产中的快速迭代。然而,由于内部 ML 流程的孤立性和缓慢性,阻碍企业构建 ML 的挑战主要有:


✘ 内部流程未实现自动化。

✘ 数据科学家和运营团队合作不足。

✘ 工作流程不明确。

✘ 模型再训练不足导致的性能下降。

✘ 数据监管及合规性问题。


针对这些挑战,MLOps 能够带来的益处包括:


✓结合专业知识提高效率:MLOps 将运营团队的商业意识与数据科学家的 ML 专业知识相结合,共同循环协作的同时专注于各自的特长。


✓定义监管流程责任制:运营团队可以监管合规问题,及时了解变化并将信息更新给数据科学团队。


✓减少浪费:MLOps 可充分利用每个团队的技能,使之从事各自最擅长的工作,减少重复性劳动、实现流程自动化和快速交付。


✓支持快速迭代:通过持续的集成、交付和自动化,MLOps 可促进团队快速迭代,从而缩短成功部署的上市时间并扩大规模。


✓生产更丰富的产品:通过 ML 生命周期中的最佳实践,MLOps 可以确保团队使用更先进的工具和基础架构来支持部署,这使得团队拥有更多的时间进行额外的尝试,更好地提升产品准确性及用户体验。


如何实施 MLOps?


那么,在一个企业中如何来具体实施 MLOps,可通过 ML 生命周期的不同阶段来进行简要说明:


数据阶段


▲ 数据采集:在整个 ML 部署的生命周期中,大量的、一致的、可靠的数据来源对于项目的成功至关重要。因此,需要设置一个可根据需要持续采集数据的流程。


▲ 数据清理:数据清理包括删除不需要或不相关的数据,或是清理散乱的数据。这其中的一些步骤可以通过自动化来实现。


▲ 数据标注:整个 ML 生命周期中最耗时、最具挑战性、同时也最为关键的阶段可能就是标注数据的过程。然而,在企业内部进行这一步骤往往需要耗费大量的时间和资源。选择与专业的外部数据提供商合作,在提供大量且多元化的标注人员的同时,更专业的标注平台和工具亦可帮助实现流程自动化,满足大量不同的标注需求。


模型构建阶段


▲ 模型训练:ML 中有许多模型训练方法(包括从完全监督到半监督、无监督,以及介于三者之间的各种方法)。在这一步,将使用高质量的训练数据集来告诉模型需要学习识别哪些特征。


▲ 模型测试和验证:根据测试集评估模型的性能,判断模型是否达到所需的 KPI。在模型正式部署前,必须对整个系统进行验证,以确保其能够按照预期正确运转。


▲ 模型部署:模型被正式部署到生产中,系统上线。在整个过程中,运营团队应始终了解 ML 开发的每个阶段,并为模型创建一个存储库,这将有助于实现正确部署所需的透明度。


后期处理阶段


▲ 监控:根据 KPI 持续监控模型。如果模型未能满足要求,应设置警报并制定应对计划。


▲ 再训练:再训练是 ML 开发中关键但却往往被忽略的一步。当外部环境发生变化时,通过新的数据对模型不断进行再训练至关重要。

 

MLOps 是构建工程化 AI/ML 生命周期的重要实践。随着 MLOps 生态的逐渐成熟,更多的新工具正在持续加强其所涉及的各个环节的功能,从而降低 ML 团队在实际生产中运用先进模型和算法的门槛和成本,打通算法、场景、数据之间的壁垒,真正实现 ML 的转化和落地。


一键传送至 Appen MatrixGo


澳鹏 Appen 深刻了解当今企业的这一需求。自成立 25+年来,澳鹏 Appen 持续通过大量、高质量的 AI 训练数据,为世界上最具创新性的 ML 和商业解决方案提供支持,包括数据采集、数据标注及模型再训练等。澳鹏 Appen 中国自主研发的人工智能辅助数据标注平台——MatrixGo,集成了各种 ML 辅助的先进工具及丰富的标注场景。


APPEN

澳鹏 Appen Limited (ASX:APX) 是全球领先的图像、文本、语音、音频、视频等 AI 训练数据服务提供商,拥有业内最先进的人工智能辅助数据标注平台、一体化的 AI 数据及资源管理平台及全球 100 多万名技能娴熟的众包资源,支持 235+种语言和方言。澳鹏 Appen 的解决方案可为全球科技、汽车、金融服务、零售、制造和政府等行业的领导者提供优质、安全、高效的服务。澳鹏 Appen 成立于 1996 年,客户和办事处遍布全球。点此了解更多


发布于: 刚刚阅读数: 3
用户头像

澳鹏Appen

关注

还未添加个人签名 2021.03.15 加入

高质量的AI训练数据服务商

评论

发布
暂无评论
一文读懂当今AI圈大热的“MLOps”_人工智能_澳鹏Appen_InfoQ写作社区