【行业观察】AI 数据标注行业
自己工作中经常涉及数据标注,也做过一些标注平台的工作。
今天看到艾瑞一篇关于 AI 数据标注的分析报告,特摘录备忘下。
是什么
AI 模型都是吃数据的,需要大量训练数据,多数情况下数据需要进行(人工)标注。 因此,产生了一个行业:AI 基础数据服务。
市场规模将达 100 亿
包含声图文三大类的数据标注。
2019 年市场规模达 30 亿,预计 2025 年达 100 亿,年化增长率 21.8%。
大背景是,2019 年 AI 核心产业规模突破 570 亿。
AI 研发投入
2019 年中国科技企业技术研发投入 4005 亿,其中 AI 方面 9.3%,达 370 亿。细分:
视觉,22.5%
语音,2.3%
nlp,7.1%
其中,基础数据服务,2019 年 30 亿,细分:
图像,49.7%
语音,39.1%
NLP,11.2%
看来大头还是图像和语音。
对此,作为 NLP 从业者,我的看法是:NLP 的数据标注往往无法外包,很多都是企业内部自己员工参与标注的,所以没统计进来。从某种意义上说,可能耗费的资金更多。
行业集中度低
CR5 占比为 26%。
品牌、中小、内部自建团队分别占比:30%, 47%,22.6%。
其中,
图像类数据:人像、OCR、自动驾驶等,特点是需求分散。百度数据众包占比大。
语音类数据:语音识别、语音合成等,需求集中但门槛高于图像(特别是语音合成),海天瑞声占比大。
自然语言类数据:报告未列。 个人认为此类需求最分散,自建团队做居多,外包不太好搞。
这个行业的集中度还是挺低的,因为基本上也是属于低端人力成本型的服务,所以不容易做成一家独大,也就不会有太高的溢价空间。
壁垒护城河
四步流程:
数据设计(个人觉得应该是业务理解,数据结构标准化设计吧)
数据采集
数据标注
质检
壁垒:无外乎提效提质
「数据标注+项目管理+质量把控」,三位一体
平台管理替代人员管理
数据设计环节:对算法训练需求的深刻理解
数据采集环节:(需求方提供的忽略) 人机协同,去重、聚类
数据标注环节:人机协同,AI 预标注,人工 check,迭代训练
质检环节:失误抖动预警
未来
进入竞争阶段,中小玩家离开"利润中心"而消失,品牌商则需要"居安思危"提高性价比。
技术驱动产生壁垒,到了卷质量效率的时候了。
小结
AI 数据标注行业,总体来看,已经从人力密集型的粗放模式,往需要技术驱动的精益化运作模式卷了, 想吃这碗饭也需要搞 AI 技术了。
版权声明: 本文为 InfoQ 作者【mtfelix】的原创文章。
原文链接:【http://xie.infoq.cn/article/a65831c52335646132f8472f3】。文章转载请联系作者。
评论 (1 条评论)