深度 | 自动驾驶数据服务进入 2.0 时代
导语:何谓“数据服务 2.0 时代”?高工智能汽车认为,过去,数据标注多数只服务于自动驾驶 POC 项目,属于“一锤子买卖”。而在 2.0 时代,软件定义汽车带来了对功能迭代升级频率的高要求,背后则是每家车企积累的数据资产的价值竞争,并直接影响汽车智能化的功能优化和体验升级能力。
过去几年,尽管自动驾驶的技术迭代速度不断加快,但商业化一直是横亘在所有自动驾驶从业者面前的一座大山。而现如今,无论是环卫、干线物流,还是港口、矿山等场景下,自动驾驶的商业化号角已经吹响。
而在商业化落地的阶段中,自动驾驶面临的挑战往往不是自动驾驶技术本身,而是客户要求自动驾驶公司能够快速适配各种车型的同时,还要快速适配多种应用场景。
由此,自动驾驶公司则需要更多数据燃料来不断地进行产品迭代。相应地,行业对于数据标注与处理的需求量也在水涨船高。
另一方面,随着大算力智驾平台在未来几年的规模化落地以及辅助驾驶普及的加快,配套的车载传感器市场也进入了一个高增长周期。
高工智能汽车研究院监测数据显示,在前装市场,传感器的搭载量正处于上升周期。今年一季度前装搭载主要舱外 ADAS 相关摄像头 835.97 万颗,同比增长 41.35%。前向双目、三目,周视等更多摄像头配置成为主流,基于数据认知的训练也成为刚需。
尤其是 4D 毫米波雷达以及激光雷达的搭载也正处于最关键的导入期,这带来了一个全新的市场:多传感器感知的数据融合。此外,舱内人机交互的体验升级,也同样需要数据迭代支持。这也再次表明,无论是在自动驾驶还是辅助驾驶领域,数据标注的需求量都将迎来增长的高峰期。
以一辆搭载 8 个摄像头(前向 3 颗、周视 4 颗、后视 1 颗)的智能汽车为例,每个摄像头以 30 帧/秒的速度拍摄 1 小时,将会产生约 86 万帧的图片,按 10 万辆存量车计算,就是接近 1000 亿帧的数据。即便其中有大部分数据可以进行快速自动化过滤处理,剩下的需要精确标注的数量仍然非常惊人,这还不包括雷达的融合数据。
总体上,企业的数据科学和开发所需机器学习 (ML) 模型的能力已经成熟。然而,他们中的许多人开始意识到真正的挑战在于整个 AI 生命周期中的数据。
数据生产瓶颈
众所周知,自动驾驶想要真正落地,就需要大量高质量的、安全无偏差的数据。与此同时,下游企业对数据也在不断地提出更高的要求。
但某自动驾驶公司负责人表示,获取低成本、高质量的数据依然是当前行业发展的一大痛点。普遍而言,企业并没有过多的资源投入数据标注工作。因此,全球绝大多数企业都在某种程度上采用了专业数据供应商的服务——这也意味着数据采集、分析处理和管理是 AI 面临的首要挑战。
另一方面,在与诸多客户对接的过程中,数据标注公司也逐渐发现,自动驾驶公司对于数据服务强有力的诉求便是随着算法的调整,标注公司可以实现灵活配合。例如,随着算法的更迭与进步,下游客户对于数据标注的准确度会由原来的 90%提升至 95%,甚至 99.99%。
然而,对于数据标注公司来讲,质量的提升也就意味着更多的成本的投入,这与下游客户对于成本的控制又相违背。因此,目前的当务之急便是在提升数据质量的同时又能降低成本。
此外,自动驾驶在不同细分场景的快速开拓意味着下游客户的研发势必会出现波峰与波谷,这也就需要数据标注公司提供持续稳定的产能来应对客户的弹性需求。而对于多数数据服务商而言,这势必带来了更高难度的挑战。
比如,在高阶智能驾驶传感器配置上,摄像头的数量在快速增加。高工智能汽车研究院监测数据显示,今年一季度,ADAS 周视/后视摄像头搭载量为 69.39 万颗,同比增长 93.66%。这是基于 360 车身感知在高阶智能驾驶上的重要性,也带来了区别以往仅仅是关注前向感知数据标注的新市场。
在具体技术方案上,环绕感知系统采用前视、周视、环视、后视实现 360 度环绕感知,能够精确识别、定位、追踪动态和静态物体,包括车辆、行人、自行车、电动车、车道线、标识牌、交通灯、可行驶区域等。
同时,加上高分辨率毫米波雷达、激光雷达的融合感知,意味着数据类型、数据量都比普通的前向感知方案增加几个数量级。
针对上述痛点,业内一家有着超过 25 年历史的人工智能训练数据服务的“尖子生”——澳鹏给出了自己的答案:由于深度学习算法是算力与大数据的产物,因此深度学习算法模型的工业化优化,也就需要 AI 数据供应链的工业化。
“工业化即以自动化、标准化和规模化可扩展方式为标志。此前,AI 标注数据的供应基本以作坊式为主,难以保证 AI 标注数据的高质量供给,接下来 AI 标注数据的供给将迎来工业化爆发。”澳鹏数据科技(上海)有限公司产品及研发总监钱程表示。
钱程介绍,在数据的整个生产环节中,数据获取、数据准备和模型评估最为费力并涉及海量数据。如果处理不当,可能会导致项目质量问题和项目启动延迟。AI 从业者将 80%以上的时间都花在数据管理上,因此他们需要最佳的工具和服务来完成这一过程中极其关键的部分。澳鹏专注研究这三个阶段,并与专业从事模型训练和部署的供应商建立战略合作伙伴关系。
澳鹏数据科技(上海)有限公司销售副总裁马冀则表示:“毫米波和 4D 代表了未来的标注方向,对服务商的标注能力以及研发能力都有很高的要求。澳鹏会陪伴客户共同探索和发展高精尖标注诉求。目前我们已经有毫米波、4D 点云标注等项目正在和客户积极研讨中,期待在今年第三季度会有不错的进展。”
最大难题有解
此外,在自动驾驶领域,仅仅根据已知的场景、障碍和潜在事故原因来部署联网自动驾驶车辆还远远不够。谁能够实现准确预测,并对不寻常的情况做出反应,将是接下来自动驾驶技术落地的争夺焦点。
从 Mobileye 的 RSS,到特斯拉的“影子模式”,从通用 Cruise 的“持续学习机器”到几乎所有企业都在推动的“数据驱动闭环迭代”,都在强化对于不确定性事件的预测和规避、学习能力。
以特斯拉为例,如何创建高性能训练网络所需的大型数据集,不管是依靠手动标记、自动标记和模拟仿真等方式,已经成为高阶智能驾驶落地的关键因素。
该公司的相关负责人强调,未来,数据的重要性远高于算法。同时,以模型为中心的机器学习框架。正在向以数据为中心的方法进行升级,“未来,开发人员的主要任务是修改数据集,而不是优化算法。”
这位负责人坦言,特斯拉在训练视觉和规划神经网络时面临的挑战。已经不再是纯粹的硬件算力问题,唯一可行的方法是用足够多的真实并且是高质量的数据来训练算法,从而覆盖几乎所有可能的场景。
某自动驾驶公司高层表示,在数据方面,自动驾驶面临的最大痛点便是 corner case 的积累。然而,由于不同公司数据采集车的传感器安装位置、采集标准各有不同,下游公司通常只能亲自下场采集各种极限工况,“一步一个脚印地”完成更多的数据积累。
针对上述问题,澳鹏提出了“合成数据”解决方案,可以模拟不同的场景并安全高效地完成数据采集,实现对于极限工况的有效补充。
其具体优势为:改进模型的可靠性、比“真实”数据获取更快、可用于边缘案例的补充,并可有效保护用户隐私安全。
现阶段,虽然合成数据的使用率很低,但业内人士预测,到 2027 年,数据市场预计将增长至 11.5 亿美元,即复合年增长率达到 48%。2030 年,合成数据的崛起将成为主流大趋势。
此前,澳鹏 Appen 曾收购人工智能数据平台 Mindtech 的少数股权,双方将开展深度合作,提升为客户提供合成数据的能力。
“我们对与澳鹏的战略合作感到兴奋,”Mindtech 首席执行官史蒂夫哈里斯分享道。“这将使更多客户能够使用高质量、精确注释的合成数据快速训练他们的人工智能系统,同时补充 Appen 现有的真实世界数据收集、管理和注释产品。通过合作,我们将加速人工智能系统的开发,更好地了解人类如何与彼此以及周围的世界互动。”
迎接数据服务的 2.0 时代
总结这家“尖子生”的成绩,作为澳大利亚证交所上市的科技公司,澳鹏公司已拥有 25+年行业积累与广泛的全球客户基础。
在服务方面,公司拥有一支过硬的数据科学家团队,可以在服务企业之前了解场景,设计如何采集数据/标注数据能真正帮助到企业成功训练模型, 以结果导向。
“这也是我们为什么会选择澳鹏作为数据合作伙伴之一。在标注需求方面,除了质量与成本,自动驾驶公司最看重的标准便是上游服务团队是否拥有专业的算法人员可以与公司对接,真正理解公司的数据需求。而这也是比较难得的一点。”主线科技相关负责人表示。
此外,澳鹏还拥有百万级的众包资源,能够提供全球数据采集和标注服务。其在自动驾驶领域月收入额可达上千万以上,在中国市场覆盖 30+个自动驾驶客户。
在澳鹏看来,数据服务赋能行业的关键就在于整合资源,并与客户深度绑定。例如提供技术接口,让客户参与到标注过程中,可实时反馈(API 集成),或对自有平台的功能进行改造和匹配;帮助客户将重心放在模型开发上,降低数据成本,提升算法效率。
最重要的是,公司拥有完整的数据流转系统,可以不断迭代优化数据与服务工具,并以低成本、高灵活的服务配合客户需求。可以说,在自动驾驶领域,澳鹏高精度高性能的自动驾驶工具套装也是其为客户构筑海量数据资产的利器,这是澳鹏的核心优势之一,也是公司迎接“数据服务 2.0 时代”的不二法门。
何谓“数据服务 2.0 时代”?高工智能汽车认为,过去,数据标注多数只服务于自动驾驶 POC 项目,属于“一锤子买卖”。而在 2.0 时代,软件定义汽车带来了对功能迭代升级频率的高要求,背后则是每家车企积累的数据资产的价值竞争,并直接影响汽车智能化的功能优化和体验升级能力。
高工智能汽车研究院监测数据显示,2021 年中国市场(不含进出口)乘用车前装标配搭载 OTA 功能上险量为 748.41 万辆,同比增长 65.99%,前装搭载率已经提升至 36.7%。而软件召回也已经成为目前汽车召回的主要因素之一。
相应的,从整体行业来看,数据标注正从简单、重复的拉框标注向精细化方向发展,也就是说数据标注行业正从简单的劳动力密集型向专业型数据服务过渡。
以澳鹏自主研发的人工智能辅助数据标注平台 MatrixGo 为例,可支持像素级语义分割、2D 图像复合标注、3D 点云拉框及语义分割等功能;
采标一体的任务能够实现采集-质检-标注-质检-客户验收的双向协同流程,让整个数据生产线上的各个环节实现无缝衔接;内置的多轮质检模块可以按需配置,满足不同复杂度项目的需求;2D 图像复合标注是全结构化的模型训练利器,支持点、线、框、多边型融合标注(常见工具是单模式的,点、线 or 折线,多边形)与连续帧;
另外,此工具还支持像素级语义分割,可将图片中目标对象实例标记出来,并保证像素级的质量。其中丰富的可配置选项可灵活进行 ID 处理,实战中可以做到 10 分钟/张图。
钱程介绍,澳鹏利用 ML 辅助标注等技术手段提高数据质量,通过预识别系统,让算法先进行预识别,再根据结果进行人为调整,最终在成本控制和质量上实现显著提升。
总体上,其标注工具可实现 99.9%的准确率,并达到 5 分钟一张、1 秒一帧极速质检,在交互、超大数据加载、实时切帧进行渲染等方面都达到了行业第一。
高工智能汽车研究院认为,进入数据服务 2.0 时代,谁有能力深度绑定汽车全生命周期,并提供完整且高质量的数据供应服务,谁就有机会成为该领域的 No.1。
版权声明: 本文为 InfoQ 作者【澳鹏Appen】的原创文章。
原文链接:【http://xie.infoq.cn/article/11d7607688811faa365f8b463】。文章转载请联系作者。
评论