写点什么

【行业观察】AI 数据标注行业

作者:mtfelix
  • 2021 年 12 月 13 日
  • 本文字数:878 字

    阅读完需:约 3 分钟

自己工作中经常涉及数据标注,也做过一些标注平台的工作。

今天看到艾瑞一篇关于 AI 数据标注的分析报告,特摘录备忘下。

是什么

AI 模型都是吃数据的,需要大量训练数据,多数情况下数据需要进行(人工)标注。 因此,产生了一个行业:AI 基础数据服务。

市场规模将达 100 亿

包含声图文三大类的数据标注。

2019 年市场规模达 30 亿,预计 2025 年达 100 亿,年化增长率 21.8%。

大背景是,2019 年 AI 核心产业规模突破 570 亿。

AI 研发投入

2019 年中国科技企业技术研发投入 4005 亿,其中 AI 方面 9.3%,达 370 亿。细分:

  • 视觉,22.5%

  • 语音,2.3%

  • nlp,7.1%

其中,基础数据服务,2019 年 30 亿,细分:

  • 图像,49.7%

  • 语音,39.1%

  • NLP,11.2%

看来大头还是图像和语音。

对此,作为 NLP 从业者,我的看法是:NLP 的数据标注往往无法外包,很多都是企业内部自己员工参与标注的,所以没统计进来。从某种意义上说,可能耗费的资金更多。

行业集中度低

CR5 占比为 26%。

品牌、中小、内部自建团队分别占比:30%, 47%,22.6%。

其中,

  • 图像类数据:人像、OCR、自动驾驶等,特点是需求分散。百度数据众包占比大。

  • 语音类数据:语音识别、语音合成等,需求集中但门槛高于图像(特别是语音合成),海天瑞声占比大。

  • 自然语言类数据:报告未列。 个人认为此类需求最分散,自建团队做居多,外包不太好搞。

这个行业的集中度还是挺低的,因为基本上也是属于低端人力成本型的服务,所以不容易做成一家独大,也就不会有太高的溢价空间。

壁垒护城河

四步流程:

  • 数据设计(个人觉得应该是业务理解,数据结构标准化设计吧)

  • 数据采集

  • 数据标注

  • 质检

壁垒:无外乎提效提质

  • 「数据标注+项目管理+质量把控」,三位一体

  • 平台管理替代人员管理

  • 数据设计环节:对算法训练需求的深刻理解

  • 数据采集环节:(需求方提供的忽略) 人机协同,去重、聚类

  • 数据标注环节:人机协同,AI 预标注,人工 check,迭代训练

  • 质检环节:失误抖动预警

未来

  • 进入竞争阶段,中小玩家离开"利润中心"而消失,品牌商则需要"居安思危"提高性价比。

  • 技术驱动产生壁垒,到了卷质量效率的时候了。

小结

AI 数据标注行业,总体来看,已经从人力密集型的粗放模式,往需要技术驱动的精益化运作模式卷了, 想吃这碗饭也需要搞 AI 技术了。

发布于: 18 小时前阅读数: 17
用户头像

mtfelix

关注

内心平静是一生的追求 2018.01.17 加入

简单的技术人

评论 (1 条评论)

发布
用户头像
目前还是劳动密集型吧,有些地方已经有成为一个产业链了
16 小时前
回复
没有更多了
【行业观察】AI数据标注行业