澳鹏数据标注平台 MatrixGo 加速人工智能落地
澳鹏中国正式发布高精度 AI 数据标注平台——Appen MatrixGo,即日起在中国大陆、香港、台湾及其它亚太地区市场上市。Appen MatrixGo 是市场领先的 AI 数据标注平台软件,面向企业本地 IT 环境,将极大增强企业 AI 项目的规模化扩展能力。
原文转载自:云科技时代
作者: 吴宁川
AI(人工智能)工业化与 AI 工程化正在引领人工智能的大趋势。AI 工程化主要从企业 CIO 角度,着眼于在企业生产环境中规模化落地 AI 应用的工程化举措;而 AI 工业化则从 AI 供应商的角度,着眼于以规模化方式为企业用户提供 AI 技术、方案和服务,从而在企业生产环境中能够规模化落地 AI 应用。AI 工业化和 AI 工程化相当于一个硬币的两面,一面是 AI 技术供给和供应链的规模化,一面是 AI 技术使用和落地的规模化。
AI 工程化已经连续两年入选 Gartner 的 2021 年及 2022 年重要战略科技趋势报告。在 2021 年,Gartner 指出只有 53%的项目能够从 AI 原型转化到生产环境,AI 项目的扩展难度很大。而在 2022 年报告中,Gartner 预测到 2025 年,10%建立了 AI 工程化最佳实践的企业,将比余下 90%的企业实现至少高三倍的收益。AI 工程化不足之处,AI 工业化补足。数据优化为 AI 推理带来的效果提升,要远比代码优化的效果强很多,企业到了建立 AI 数据供应链的时机。
AI 工业化与 AI 工程化都包括了 DataOps、ModelOps 和 DevOps 三大实践,统称为 AIOps。其中 ModelOps 和 DevOps 已经有众多成熟的自动化工具与平台以及相应的从业人员,而 DataOps 正处于快速上升期,AI 数据标注是 DataOps 中的一个关键领域。2022 年 1 月,澳鹏中国推出了 MatrixGo 高精度 AI 数据标注平台企业版,专门面向企业本地部署环境,帮助 CIO 们以高度自动化、标准化和规模化方式建立 AI 标注数据供应链。
MatrixGo 的推出,标志着 AI 工业化迎来了一个全新里程碑,也将极大推动 AI 工程化进展。
AI 数据工业化大趋势
以深度神经网络模型为代表的深度学习算法正释放人工智能产业的红利。自深度神经网络算法在 2015 年取得视觉识别的突破、在 2017 年取得语音识别的突破,以及 2018 年底 BERT 大规模预训练神经网络模型问世以来,深度学习算法就在互联网和高科技行业率先推动了一波大规模应用,包括自动驾驶、新闻汇聚、自然语言处理、虚拟助理、娱乐等应用领域,而其成果就是推高了互联网和高科技公司的市值。
除了互联网和高科技公司外,AI 创业公司也是深度学习算法在各行各业落地的主力军。在全球市场,根据 CB Insights 统计,2010 年到 2021 年,全球 AI 100 强共获得了 117 亿美元的股权融资,自动驾驶、医药研发、AI 处理器等是最主要投融资领域,如今 AI 100 强在零售、快速消费品、游戏等 18 个行业领域推动着 AI 的落地。在中国,除了百度、阿里、腾讯、京东、滴滴、华为、科大讯飞等互联网和高科技巨头外,高校与科研机构、AI 四小龙以及一批智能驾驶公司等在推动深度学习算法发展与落地。
近年来,人工智能领域在第三次浪潮爆发后经历了快速的发展,许多特定领域的专用人工智能算法已经大幅度超越了人类的水平,并在工业生产和社会生活中得到了广泛应用。目前,深度学习算法的本质是海量数据驱动的统计学习,是随着计算机算力和大数据可及性的快速提升而出现的产物。特别是近两年出现超大规模预处理自然语言模式,例如北京智源人工智能研究院的人工智能大模型“悟道 2.0”参数规模就达到 1.75 万亿1。
既然深度学习算法是算力与大数据的产物,那么深度学习算法模型的工业化优化,也就需要 AI 数据供应链的工业化。所谓“工业化”,即以自动化、标准化和规模化可扩展方式为标志。澳鹏 Appen 是一家有着超过 25 年历史的人工智能训练数据服务公司,澳鹏 Appen 近期发布的《2021 年人工智能与机器学习现状调查报告》显示,随着深度学习算法越来越成熟,模型算法本身的迭代优化已经不能带来明显的效果,而 AI 数据的高质量优化是模型效果提升的下一个关键。AI 数据即需要经过人工标注后的数据,才能用于 AI 模型的训练和推理及优化。此前,AI 标注数据的供应基本以作坊式为主,难以保证 AI 标注数据的高质量供给,接下来 AI 标注数据的供给将迎来工业化爆发。
构建 AI 数据供应链能力
随着互联网高科技企业等越来越大规模地将 AI 嵌入到自己的商业运营、产品与服务等方方面面,大规模的 AI 项目对标注数据的快速和持续供给需求已经越来越迫切。以互联网高科技企业为代表的 AI 用户已经率先与外部的数据服务供应商合作,以解决持续的 AI 标注数据外包、数据准备、数据质量评估以及数据供给等挑战。但在 AI 标注数据的规模化供给方面,自动化、标准化和规模化可扩展仍然是需要解决的关键问题。
2022 年将是 AI 标注数据供给产业的一个分水岭——之前的 AI 标注数据行业最佳实践逐渐沉淀为可复用的软件工具,以更为自动化、标准化和规模化可扩展的方式,为整个 AI 模型生命周期提供高精度和高质量的标注数据,满足数据采集、标注、数据版本更新、AI 模型再训练等端到端过程,以工业化方式构建起完整 AI 标注数据供应链。在 2019 年进入中国市场之前,澳鹏 Appen 已经拥有业内先进的人工智能辅助数据标注平台、一体化 AI 数据及资源管理平台、全球 100 多万名众包资源以及丰富的实践。
将 AI 标注数据实践沉淀为方法论,这不是一件容易的事情。其中很多要解决的问题,包括:如何组织大规模的标注数据人员团队、如何保证数据质量、如何更有效地反馈模型训练结果、如何继续优化训练数据集等,同时还要应对用户业务中出现的各种复杂场景,甚至是业务出海场景中的地域差异等。这不仅要将 AI 标注数据的具体实践落地到一个强大而高效的工具集中,还要为项目管理、团队协作等设计灵活、高效、可扩展的工作流程,此外还要能够对外开放一定的 API,将数据标注结果与各种 AIOps 流程相结合。
数据标注平台非常复杂,在某种程度上是 Office +数据仓库+AIOps 的结合体,很多互联网高科技企业 CIO 们都意识到这并不属于自己核心研发部门所需要投入的研发方向和领域。当前,为了更好地训练和再训练 AI 模型以及 AI 推理,企业 CIO 们都构建了自己的数据资产管理平台,数据资产管理平台对接着两端——一端是数据供应链,一端是模型训练环境。对于专业的 AI 标注数据服务公司来说,将已有的方法论进行沉淀,再将行之有效的方式固化下来,形成能够复用且易用的产品级能力,就能大规模赋能 AI 模型迭代。
全场景覆盖 AI 模型生命周期
在意识到数据标注工具平台对于 AIOps 的重要性后,澳鹏 Appen 在 2019 收购了创立于硅谷的数据标注平台 Figure 8,并将之与澳鹏全球上百万的众包工作者和团队相结合,澳鹏中国也于 2022 年 1 月推出了自研的面向中国大陆、港澳台及亚太区域的 MatrixGo 企业版。目前,这些地区的客户可以通过 MatrixGo 的公有云 SaaS 版或纯私有化部署企业版,构建自己的 AI 标注数据供应链。
MatrixGo 作为 AI 标注数据的采标一体化平台,为企业 AI 模型优化实现端到端的数据深度整合,同时提供丰富的标注工具以及一套支持大规模生产和复杂协同的智能标注工作流,在保证企业数据安全的前提下,建立企业 AI 数据供应链能力。MatrixGo 被定位于 AI 行业赋能者,它可覆盖丰富的场景——支持全领域数据类型及应用场景,承诺极致的数据质量——提供海量高质量、无偏见、多元化的 AI 训练数据生产服务,确保数据标注流程合规及隐私保护——通过了 ISO27001 等标准及各种安全测试、众包员工年度完成合规培训。MatrixGo 沉淀了丰富的 AIOps 方法论,提供丰富的 API 能力,可以与上下游系统进行良好集成。
MatrixGo 让数据标注团队获得极高的生产力,大幅降低标注数据人员的门槛。MatrixGo 面向 AI 数据标注的项目经理、标注员/质检员、供应商管理员、供应商项目经理供应商团队标注员/质检员、系统管理员等多种角色提供了丰富的平台功能:项目管理、资源管理、标注工具箱(AI 辅助引擎、工作流引擎)、标注引擎等四大模块,其中项目管理可完成项目配置、工作流配置、资源分配、质量控制、可视化分析等,资源管理则是企业自有团队管理、BPO 管理,数据收集和标注工具箱则提供了手机端数据收集应用、一系列标注工具以及人工智能辅助标注功能,而核心引擎则提供了标注引擎、质检引擎、任务分发和数据服务等。
数据收集和标注工具是 MatrixGo 的核心亮点之一。数据收集包括:手机端应用,可完成视频图像、音频文本甚至是复杂的手写体数据收集等;数据收集后的分发、质检反馈、工作量结算等,可实现系统化的数据收集和分发。特色标注工具则有语音数据处理的语音切分转写,高精度完成长语音的切分,可引导标注员方便地浏览或在不同音频段之间跳转;图像通用关键点标注工具能让标注员一边接受培训一边上手做项目,提高项目冷启动时的效率;2D 图像标注工具支持网格视图模式且将质量保证固化到工具中,3D 点云工具与 2D 标注框逻辑绑定,连续帧模式下可做到线性填充,部分帧可分钟级完成标注,质检达每帧秒级等等。
(澳鹏 2D 图像复合标注示例)
(澳鹏 3D 点云拉框及 2D 映射(融合标注)示例)
此外,MatrixGo 还提供了模板引擎组件:支持脚本编程,可构建适配于项目定制化需求的工具,分钟级完成自定义工具,自定义工具与 MatrixGo 平台的数据统计等各流程节点直接集成。MatrixGo 最重要的亮点是工作流调度:面向海量任务,支持高并发呑吐架构,平台上单点能够支持每秒 3 万任务的吞吐量,还可无限自动横向扩容;工作流并行消费数据中心的数据,进行各自生产再向统一节点进行交付;在项目生产过程中,项目经理可以随时修改任务,平台自动确保数据统计等正确。
推出 MatrixGo 私有化版本主要是为了满足对数据安全有更高诉求、在合规性方面有更高要求的中大型公司,科研和小型创业公司则更适合公有云 SaaS 方式。特别是 MatrixGo 的 SaaS 版本可对接澳鹏全球的数据标注众包人力资源并可通过扩展支持私有化文件服务的方式增强安全性,可满足中国企业出海的需求。目前,澳鹏中国的主要客户包括互联网、高科技、自动驾驶、AI 创业公司、零售、医疗、高校等,2022 年还将拓展更多的传统企业数字化转型市场。
总结来说:2022 年是整个 AI 产业的一个分水岭,更高自动化程度的 AI 数据标注平台,正在定义整个模型生命周期内的 AI 模型质量与效果。AI 数据标注的工业化运作,让 DataOps 成为了整个 AIOps 中最重要的环节。当前,互联网和高科技企业正在引领这一大趋势,未来将有更多的科技企业和传统企业数字化转型也将采用专业的 AI 数据标注平台。以澳鹏中国 MatrixGo 为代表的 AI 数据标注平台,将成为 AI 发展的重要赋能平台。
(注 1:北京智源人工智能研究院:《2021 人工智能的认知神经基础》白皮书。)
评论