写点什么

突破 AI 工业化瓶颈,专业数据服务平台化是关键

用户头像
澳鹏Appen
关注
发布于: 2021 年 07 月 09 日
突破AI工业化瓶颈,专业数据服务平台化是关键


原文转载自:云科技时代

作者: 吴宁川


一份最新的全球《2021 人工智能与机器学习现状》调研报告显示:2021 年,53%的 AI 团队报告预算在 50 万美元到 500 万美元之间(而 2020 年约为三分之一),这个强烈的信号表明 AI 对于各行各业各种规模企业的成功变得越来越重要。这份由全球领先的 AI 数据服务平台公司澳鹏(Appen)连续第 7 年发布的 AI 现状年度报告还强调,在 2020 年由于新冠疫情,各规模的企业都加速推进了 AI 战略,并且在 2021 年还将继续保持这种势头。

在中国,AI 技术应用开始全面覆盖日常生活、科学研究、社会治理、商业创新和国家安全等经济社会的关键领域,以空前的广度和深度推动社会发展。由中国信通院与中国人工智能产业发展联盟推出的《2021 人工智能核心产业白皮书》指出,工程技术正在引领 AI 产业——技术成本快速下降,同等算法水平所需计算量每 8 个月降低一倍、成本降低百倍,涌现了多样化的研发和技术服务平台,这些说明 AI 正从技术理论突破过渡到工程化落地应用的阶段。

深度神经网络是当前 AI 的主要模型,而监督学习则是构建(训练)深度神经网络的主要方法,监督学习所需要的大规模、高质量的人工标注数据集是 AI 产业发展的刚需,也是 AI 工业化的主要瓶颈之一。在中国,正在大量涌现 AI 数据标注产业基地,但当前的 AI 数据标注产业仍处于初级阶段。澳鹏公司产品研发总监张童皓表示,用户对于数据规模、质量和多样性等要求越来越高,专业化数据服务平台是 AI 工业化的突破口。


AI 领先一步的秘诀


获得大规模、高质量的人工标注数据,这不仅是中国企业 AI 实践成功和 AI 工业化的关键,在全球也是类似的刚需。无论从全球还是中国市场来说,专业的数据标注服务商都是 AI 工业化领先一步的关键。澳鹏《2021 人工智能与机器学习现状》调研报告指出,获取足够的优质训练数据来部署 AI 是各种规模企业成功的重大障碍,而全球绝大多数企业都在某种程度上采用了专业数据供应商——这反映了数据采集、准备和管理是 AI 面临的首要挑战。



(人工智能项目部署和投资回报 ,来源:《2021 人工智能与机器学习现状》,澳鹏)


根据澳鹏的调研,使用专业数据供应商的企业表示他们在 AI 部署方面领先于其他企业的可能性要高 1.5 倍,而落后的可能性要低 4 倍,也就是说使用专业数据供应商的企业部署了更多的 AI 项目,而且实现了更大的投资回报率。特别是,澳鹏发现使用专业数据供应商的企业更有可能将 AI 部署到生产环境。

此外,AI 部署是一个持续的过程,而不是一劳永逸。去年,80%的被调研企业至少每季度更新一次模型,今年已增加到 87%;2021 年,57%的受访者表示至少每月更新一次模型,高于 2020 年的 45%。而与较小的企业相比,大型企业更有可能更新 AI 模型,至少每季度更新一次的比例为 91%。其中,使用专业数据供应商的企业最有可能每月更新其模型。

就中国市场来说,以数据标注为代表的专业数据服务行业才刚刚起步,相关技术发展程度低,属于劳动力密集型行业,而且该行业缺乏大型专业数据供应商和服务商,行业以中小企业为主,呈现高度的竞争状态。在另一方面,数据标注正从简单、重复的拉框标注向精细化方向发展,也就是说数据标注行业正从简单的劳动力密集型向专业型数据服务过渡。


AI 数据服务专业化


当前,中国的 AI 行业和 AI 应用正在高速发展,相应带动了 AI 数据标注行业的快速成长。特别是 AI 用户对于 AI 数据标注质量的要求越来越高、越来越精细化和专业化,诸如自动驾驶、工业制造等智能应用场景越来越复杂,高质量、精细化的标注数据将直接影响算法模型的效果。



(文本数据标注示例)


张童皓在加入澳鹏之前供职于人工智能视觉公司,再之前在携程和 e-Bay 都从事过大数据和数据智能相关产品的研发工作。张童皓介绍,自 2015 年国内 AI 行业掀起新一轮热潮以来,用户对于 AI 训练数据的要求越来越高。以图像类项目为例,由于支持高清图像设备的大量出现、流媒体的普及等,相应对训练数据质量要求水涨船高,例如对图像分割任务就要求标注打点的位置与实际像素之间的偏离不超过 1 到 3 个像素,对语音的切分要在毫秒级且前后两段不能有重叠或空隙。

除了要求更高质量的训练数据外,由于深度神经网络的模型效果与训练数据的规模呈正相关性,当前很多客户不仅需要海量的高质量训练数据,而且还要覆盖更多的场景,也就是对同一个场景提出不同的数据标注要求。再加上很多 AI 场景都仍属于探索阶段、场景需求多变,例如智能驾驶从早期的目标跟踪到后来的遮挡、连续性等出现了不同的诉求,因此不同团队需要标注不同的数据属性,很容易出现一个图像数据集却有多种不同标注要求的情况。当然,在 AI 模型生命周期的不同研发阶段,也可能提出完全不同的数据标注要求。这是由于 AI 模型在迭代的过程中,需要用数据进行模型训练和效果验证,如果模型效果不理想就需要调整方向,这就意味着新一轮的数据标注处理。

此外,由于数据合规性和隐私保护的要求越来越高,纯云端的数据标注平台和服务就无法全部满足企业用户要求,这就要求私有化部署的数据标注平台和众包管理平台。不过,私有化部署固然能够更好的保障数据安全,但其部署和维护成本较高,这也带来了相应的挑战。


突破 AI 工业化瓶颈


专业化的 AI 训练数据标注平台及众包管理平台是当前中国 AI 工业化瓶颈的重要突破口之一,这也是澳鹏(Appen)进入中国市场的重要原因。澳鹏迄今已经有 25 年的历史,拥有业内先进的人工智能辅助数据标注平台和一体化 AI 数据及资源管理平台,以及全球 100 多万名技能娴熟的众包资源——来自全球 170 多个国家和 70,000 个地区,支持 235 多种语言和方言。澳鹏中国团队从 2019 年就开始就重新构建面向中国市场的 AI 数据标注平台、相应的工具以及众包资源渠道和管理平台,2021 年澳鹏大中华区正式成立并独立运作。

作为全球领先的 AI 训练数据服务提供商,澳鹏的拳头产品和服务就是数据标注平台和众包资源。针对中国市场,澳鹏中国研发中心借鉴公司在海外的实战经验,重新独立开发了中国版本的数据服务平台。张童皓强调,之所以选择重新开发中国市场的数据标注平台版本,这一方面是针对中国客户的用户习惯与特色需求,另一方面是切合中国市场的数据监管和法规遵从要求。例如,澳鹏中国数据标注平台的公有云版就部署在国内,完全符合中国企业用户对数据安全的要求。



(澳鹏中国数据标注平台支持混合云部署)


澳鹏中国数据标注平台共有三大功能:资源管理、项目管理和标注工具箱。其中,资源管理部分对接了澳鹏全渠道资源,包括签约供应商以及众包人员和澳鹏在无锡和大连的内部标注中心团队;项目管理部分,作为一家综合性数据服务公司,澳鹏平台提供了项目配置和管理、工作流配置、数据资源分配和质检等功能;标注工具箱方面,支持视频、图像和音频的标注和转录、文本标注与翻译,全覆盖文本、音频、2D 和 3D 图像等,还提供了智能辅助标注工具。

数据标注是一个复杂的系统工程,由标注员和质检员一起协同工作。在这个协同的过程中,有数据的提交和打回等复杂操作。此外,澳鹏作为一家综合性专业数据服务公司,平台上往往存在多个并行任务,任务属性各不相同,有的要求流转非常快、有的单条数据工作时间很长,项目组规模从几十人到上万不等,因此澳鹏中国数据标注平台选择了开源的分布式消息队列 Pulsar 作为底层基础架构。Pulsar 被视为下一代企业级分布式消息系统,是 Kafka 的替代型技术,其特点包括多租户、低延迟、读写分离、跨地域复制、快速扩容、灵活容错等特性。

张童皓强调,较前沿的技术架构给平台带来了吞吐性能方面的竞争优势,除此以外,澳鹏全球众包资源的对接也是其独有优势,而即使是在国内也有独到的众包资源——3000 人规模的中文专业医学数据标注团队,都具有临床执业资格和丰富医学项目经验,可对医学影像和问答进行高效标注。


自研专业化数据标注平台


专业化数据标注平台是数据标注行业的核心竞争力,也是 AI 工业化的关键平台之一。在全球,具备专业化数据标注平台及其能力的数据服务商屈指可数,澳鹏就是其中之一。随着澳鹏进入中国市场,也将专业化数据标注平台的实践带入中国市场,由澳鹏中国研发中心全自研的澳鹏中国数据标注平台是一个国产化的数据标注平台,该平台定位于全流程一站式人机协同高质量数据平台,具备从数据需求提出到策略制定、数据收集、高精度标注/分类、数据分析和数据服务,直到数据全量交付的核心场景功能。



(大多数澳鹏标注工具都内置了 AI 辅助标注功能)


张童皓介绍,澳鹏中国数据标注平台具有多种独到的专业技术。其中的标注工具箱在多语言和复杂图像处理方面极具竞争力:图像语义分割技术,可以在保证像素级精度同时,实现 10 分钟处理一张图的高速处理;随着 2D 图像的视频全结构化趋势,澳鹏平台可以同时识别视频中的多类型目标,可进行点、线、框和多边型融合的复杂标注而且支持连续帧,而传统工具仅为单模式单帧;在 3D 图像处理方面,由于 3D 图像数据难于理解以及查看不便(即 3D 空间中的点状物密集聚集在一起形成的 3D 点云),澳鹏投入了大量研发资源,开发了拉框标注和语义分割等一整套的标注工具,其中拉框标注支持 2D&3D 融合标注、自动贴合、连续帧跟踪、可定义对象实例关系、高度集成质检和交付流程等,而最具特色的 2D&3D 融合标注可将 3D 物体映射到 2D 图像中进行关联。

澳鹏中国数据标注平台还提供了:数据有效性验证规则配置功能,例如一辆车消失了多长时间就被视为数据异常,可及时提醒标注员或质检员进行纠正;在数据验收方面,为客户提供了最低粒度验收或打回,即不是对一整张图进行验收或打回,而是对其中的一个框或一个点进行精准的验收和打回,这样标注员就可以直接对被打回的问题数据进行修正;澳鹏中国数据标注平台的标注工具可实现 99.9%的准确率,可达到 5 分钟一张、1 秒一帧极速质检,在交互、超大数据加载、实时切帧进行渲染等方面都达到了行业第一。

在澳鹏中国数据标注工具底层有一个通用的技术组件,这就是模板引擎。开发模板引擎的目的,在于澳鹏是一家综合数据服务提供商,支持多家客户并行并发多种标注任务,因此通过模板引擎让内部团队可以简单编写脚本代码后就能定制化不同标注工具,以支持不同客户的不同标注任务。

澳鹏中国数据标注平台也可以被私有化部署到企业内部,因此对于企业客户来说,该平台还提供了多种企业级能力,包括灵活的工作流配置、多资源组合管理、多种部署方式等。在灵活的工作流配置方面,企业的项目经理通过选项勾选,就可以灵活配置不同的工作流,实现不同的数据流转策略和流程。例如,有的文本标注项目,单条数据处理的速度非常快,就可以配置为让标注员一次领取多条数据;有的翻译标注项目,当标注时出现错别字时,就可以配置为质检员直接修改而无须打回,这样就避免了反复提交数据的时间浪费;而对于 3D 点云标注项目,一条图像数据可达 300 多帧,标注时间不仅非常长而且需要处理完成后马上提交质检以及及时修正问题。

在多资源组合管理方面,澳鹏中国数据标注平台可以让企业同时配置管理内部的标注团队和外部的供应商及众包资源。在多种部署方式方面,澳鹏中国数据标注平台支持 SaaS、私有化部署、混合云方式等,可实现从标注员向客户提交数据文件全程不经由澳鹏中国的服务器,通过物理切割而最大限度保障企业数据的隐私与安全。澳鹏中国数据标注平台还支持白名单、后台日志审计等运营方式,从而在大幅缩减企业服务器运营成本的同时,加速项目上线时间,达到兼顾安全与效率的项目运营优化。

张童皓强调澳鹏中国数据标注平台作为国产自研的数据标注平台,还研发了很多独有的数据标注能力,包括 3D 点云车道线自动识别、专业的 ASR 智能语音识别引擎、AI 辅助标注等,不仅克服了行业中的难点和挑战,还大幅提升了标注和审核的效率和生产力。作为一家服务于 AI 产业和项目的数据服务商,澳鹏在 AI 伦理道德、法规遵从等方面都有专门的策略、技术和管理机制,确保客户的项目在最大程度上避免这些方面的问题。


总结而言:以澳鹏为代表的专业数据标注服务商及其国产自研专业数据标注平台,是 AI 工业化的一大标志。这代表了 AI 数据标注服务正从简单的劳动力密集型向专业数据服务和工业化组织过渡,而高质量、大规模、多样化的标注数据及其工业化生产,将进一步推动 AI 工业化的早日到来。届时,AI 技术无疑将更广泛和更深刻的影响社会与经济发展。



用户头像

澳鹏Appen

关注

还未添加个人签名 2021.03.15 加入

高质量的AI训练数据服务商

评论

发布
暂无评论
突破AI工业化瓶颈,专业数据服务平台化是关键