如果说数据是推动自动驾驶的原动力,那么存储扮演什么角色?
近年来,互联网、IT 技术正在带动整个汽车产业迎来深刻变革。在此之前,信息技术帮助汽车行业完成了设计、供应链、营销等体系的数字化和互联网化。在传统汽车厂商进行数字化转型的同时,新能源汽车、车联网、自动驾驶等新技术兴起,特斯拉、蔚来、理想、小鹏等新厂商涌入汽车制造行业,汽车行业竞争愈发激烈,十年内实现全自动或“无人驾驶”汽车,成为了传统汽车制造商、新兴汽车制造商、专业自动驾驶解决方案供应商共同争夺的新的技术制高点。
旨在增强乘客、车辆和道路安全性的自动驾驶,对汽车设计和制造过程的 IT 基础设施(尤其是存储系统)提出了革命性的新要求。
01 自动驾驶数据处理流程
自动驾驶是人工智能,尤其是视觉识别及自动化在汽车制造及运行领域的细分应用。自动驾驶与视觉识别的数据处理流程有一定程度的相似之处,都是通过对海量数据的收集、特征分析、训练、验证,最终形成一个高度精准的数据处理模型,用于应对实际道路中实时变化的路况信息,从而实现自动驾驶。
数据收集
AI 核心算法是自动驾驶的发动机,数据是 AI 引擎最不可或缺的燃料。测试车辆上携带的摄像头、声纳、雷达、LIDAR、GPS 以及更先进的传感器设备,可以捕获大量包括视频、图像、天气信息等信息在内的原始非结构化数据。
Figure 1: 开发和验证自动驾驶的典型数据处理流程
模型训练和开发
数据准备就绪后,自动驾驶工程团队使用来自所有传感器、GPS、天气、道路、环境等多要素融合的数据,提取数据特征,并结合这些数据特征下的正确行为,通过深度学习和迭代,获得自动驾驶中的模型和参数,形成初步的自动驾驶模型。
验证和测验
工程师通过在软件环境、汽车实际硬件环境上构建充分的测试用例,对自动驾驶模型进行全方位仿真和实际测试,以期涵盖所有可能的路面情况。并将电子控制单元 ECU 所做的判断和决策与测试司机实际操作进行对比,二者差异视为自动驾驶模型潜在的 bug,进而对模型进行修正。
归档
经过最终验证后,工程团队将自动驾驶的测试数据移至低成本的归档存储中。归档数据必须满足法定的监管要求,这些曾经使用的测试数据可能需要保存数十年,以防在召回的情况下,对数据进行重新验证和计算。
02 自动驾驶数据处理面临的挑战
自动驾驶数据处理过程需要 PB 级的高性能存储。随着数据量的增长,传统存储架构的局限性和不足将被放大,越来越难以忽视。
爆炸性数据增长
由于安全性对自动驾驶系统至关重要,因此自动驾驶对设计制造过程中所经历的测试数据量要求很高,随着自动驾驶程度的增高,所必须的测试数据需求会成倍增加。在汽车工程师协会(SAE)定义自动驾驶的六个级别中,SAE 2-3 级通常要求测试车辆累计收集 20 万至 100 万 km 的真实路测数据,用于自动驾驶软件开发和验证。SAE 4 级将需要 200 万+公里的数据,随着行业向 SAE 5 级(全自动驾驶汽车)发展,这一数据需求将增加到约 2.4 亿公里。
采集、存放并分析这么多里程的传感器数据,对于自动驾驶中的存储系统而言是巨大的挑战。以一个典型的 SAE 2 级自动驾驶项目为例,以 75km/h 的平均速度收集 20 万 km 里程,将生成 2,666 个小时的数据,单个传感器需要大约 3.8PB 的存储空间,而自动驾驶测试车辆中需要有多个传感器。SAE 3 级自动驾驶项目需要收集百万公里的数据,意味着传感器将生成 19.3PB 的原始数据。
大规模环境下的访问性能
随着无人驾驶汽车向 SAE 更高级别发展,存储的架构必须能够满足不断增长的性能需求。自动驾驶开发和验证系统需要存储系统在确保存储容量能无缝扩展的同时,各个数据处理流程中在加载数据时,不存在加载速度瓶颈。
数据准备阶段涉及非常密集的数据预处理,用于读写原始视频数据和传感器二进制文件,这对存储系统提出了高带宽要求。而在训练过程中,AI 训练需要处理海量的小文件(视频或图片),为了保证训练 GPU 处于满负荷运转的状态,存储系统需要提供足够的小文件访问带宽和足够低的延时。此外,自动驾驶训练集群通常由几十甚至数百台 GPU 服务器组成,确保大规模的计算集群对数据的并发访问流畅,也是对存储系统的必要要求。
海量数据存储的总体成本
尽管对自动驾驶数据保留的年限尚未形成国际标准,但是大多数汽车制造商要求自动驾驶数据必须保留数十年。如何高效、低成本地保存这些海量数据,同时保障上层应用无感知、高性能地访问,是汽车制造厂商在存储架构面临的又一挑战。
03 如何应对自动驾驶数据存储挑战
YRCloudFile 是焱融科技面向云+ AI 时代的新型分布式存储产品,其卓越的性能、灵活的水平扩展能力能帮助自动驾驶、人工智能等业务显著提升效率;通过智能分层技术,使数据生命周期得到更精细化的自动管理,极大地降低数据存储成本。
YRCloudFile 横向扩展架构非常适合自动驾驶开发和验证场景,可在不断扩展的单个命名空间中提供数百 PB 级的存储容量。YRCloudFile 可通过 10/40/100GbE 或 InfiniBand 网络进行连接和横向扩展。YRCloudFile 可通过纯软件方式,部署在标准服务器上,减少汽车制造商对传统存储厂商特定存储设备的依赖。
目前焱融科技已成功与科大讯飞、依图等国内知名 AI 公司完成合作,并且在 2020 年获取了国内软件定义存储首个海外客户,完成了产品的国际化。
版权声明: 本文为 InfoQ 作者【焱融科技】的原创文章。
原文链接:【http://xie.infoq.cn/article/3ef95d81d58c0e41642c52032】。
本文遵守【CC BY-NC-ND】协议,转载请保留原文出处及本版权声明。
评论