全面解读自动驾驶数据存储关键
随着计算、存储以及网络等技术的不断发展,数据存储方式开始不断变化。对于需要大量数据的业务应用来说,服务器内置存储空间,或者说内置磁盘已不足以满足存储需要。
因此,在内置存储之外,服务器需要采用外置存储的方式来扩展存储空间,比如集中式存储和软件定义存储。前者即指通过一个或数个固定的盘阵控制器,连接几个磁盘柜的方式,由盘阵控制器作为数据访问入口,为应用服务器提供数据访问;后者是将所有存储相关的访问和控制工作都以软件的方式,部署在多台普通服务器上,应用可以通过网络访问这些外部服务器上的数据。
相对于前者,软件定义存储由于更好的横向扩展能力、软硬件解耦、更高可靠性和可用性,被越来越多行业和应用所接受。目前,国内从事软件定义存储的厂商不少,其中就包括了焱融科技。焱融科技成立于 2016 年,专注于软件定义存储技术的研发,数年的时间便创下不菲的成绩,如 2020 年,焱融科技不仅获取了国内软件定义存储首个海外客户,还实现了客户接近 400%,年销售额 300%以上的增长。
那么,焱融科技是如何做到这样高速发展的?其中 YRCloudFile 功不可没。
01 分布式存储产品——YRCloudFile
YRCloudFile 是焱融科技推出的一款非结构化数据统一存储平台,它可以在公有云、私有云环境下为客户提供高性能、高扩展以及云原生的非结构化数据存储系统;推出后不久,便一举斩获了 IO500 世界存储性能挑战的第六名。
焱融科技产品总监黎俊鸿表示,YRCloudFile 是经过持续的企业/用户访谈、技术交流、全面测试以及版本迭代推出的分布式存储产品,其核心特色是产品的高性能特性,借助这一特性,YRCloudFile 可以为人工智能、自动驾驶领域中的训练环节,以及高计算环境中的数据加载运算阶段提供高速、稳定的数据访问能力。
图:YRCloudFile 产品构架图
黎俊鸿告诉记者,YRCloudFile 有 3 大主要特点:
海量小文件下的高性能,采用元数据节点集群化、多级智能缓存、智能预读等多种技术,深度优化海量文件读写性能、目录访问热点等问题;
云原生容器存储,提供了标准 CSI 接口,支持 PV 配额、Resize、QoS,分别从容量、IO 性能上去对存储资源做了隔离与规划,通过 PV Insight 帮助管理员查看存储卷内部数据分布和冷热情况;
支持公有云/混合云,YRCloudFile 可以在阿里云、腾讯云、AWS 等公有云上实现一键部署,在公有云上提供高性能的文件存储服务,并通过冷热数据分层功能使数据在不同层级之间流动,从而降低存储的总体拥有成本。
由于性能优异,YRCloudFile 目前已被百余家客户应用于生态环境中,包括中国移动、科大讯飞、图森未来、新石器、MORE VFX、树根互联、中国银行等行业头部企业,涉及人工智能、自动驾驶、影视渲染、IoT、金融等多个应用场景。
02 自动驾驶训练环节 YRCloudFile 提供高性能服务
在自动驾驶这一领域,焱融科技已和图森未来、新石器等厂商达成了合作,为其提供数据存储服务。
黎俊鸿告诉记者,自动驾驶属于人工智能中的垂直细分领域,包含了采集、标注、计算等环节,只有通过这些环节形成一个模型,才能确保自动驾驶的落地。然而,随着越来越多的雷达、摄像头等传感器被部署在车上,各个环节的工作量与日俱增,尤其是一些高性能自动驾驶汽车对数据的存储需求更是巨大,一天生成的数据量便可达 8TB 左右。
图:基于 YRCloudFile 高性能分布式文件存储的自动驾驶开发周期结构图
因此,如何高效,稳定地保证自动驾驶过程中收集到的大量数据能快速形成自动驾驶的计算模型成了自动驾驶企业 CTO 们关注的重要问题。焱融科技推出的 YRCloudFile 分布式存储产品便可解决训练过程中数据访问效率的问题。
据黎俊鸿介绍,当前,自动驾驶领域的训练过程中,面临着数据访问性能的瓶颈问题。“自动驾驶汽车中的传感器会收集行驶中的数据,待数据收集完后,会以各种形式存放到数据中心,服务器在获取数据时,由于存储系统提供的访问速度跟不上 GPU 处理数据的速度,导致 GPU 出现闲置现象,进而影响整个自动化训练的进程和效率,造成 GPU 资源浪费,而 YRCloudFile 的定位便是解决自动化驾驶训练过程中的数据存放和使用的问题”。
黎俊鸿认为,YRCloudFile 的主要作用在于充分发挥 GPU 的计算能力,在短时间内为 GPU 提供足够的数据,让 GPU 进行充分计算,“比如,使用焱融科技 YRCloudFile 的存储平台,每秒可以为 GPU 提供获取 5GB 到 10GB 的数据,极大地提高了 GPU 访问数据的效率。在自动驾驶领域中,自动驾驶功能的最终形成一定是经过大量的训练。YRCloudFile 的作用便是在大量的训练中,减少每个轮次的训练时间,使得自动驾驶模型上市的时间可以提前,这就是 YRCloudFile 能为自动驾驶企业带来的核心价值。”黎俊鸿表示。
03 数据存储的未来方向
YRCloudFile 的分布式存储技术目前已被大量企业认可,包括政府、金融、教育、医疗等多个机构。据黎俊鸿介绍,与传统式存储方法相比,分布式存储技术最核心的优势便是解决了当前数据存储中的两大挑战问题。
即通过分布式存储软件,将云平台中的并发存储访问分散至分布式集群的各个节点,满足云平台上客户端的存储访问性能需求;分布式软件可水平扩展,使单集群容量实现按需扩容,解决传统存储单套设备容量上限问题。这两个优势,使得分布式存储技术在云环境及数据规模大的场景下,得到大量应用和发展。
对于分布式存储技术,黎俊鸿表示看好,并表示其有可能是未来存储技术的主流发展方向。据他介绍,未来存储技术的方向会朝着性能适配性和场景优化性进行突破。
“首先未来存储技术一定会适配更多新型部件,包括品牌、网络、架构等,这意味着产品需要适配更加卓越的数据处理能力,因此如何发挥新型部件性能,是上层存储技术供应商必须要做出改进的。其次,从发展的角度,未来存储技术只有针对某些垂直场景进行优化,才能更好地布局该场景。比如目前的自动驾驶、人工智能、视频渲染等领域,只有从存储的角度去理解、瞄准该领域的特点进行优化,才能更好发展。”
现阶段,焱融科技正处于快速发展时期,未来,为了不断适应各行业对于数据存储的需要,焱融科技会持续进行产品迭代,扩展容器应用、混合云存储、统一非结构化数据管理、Data Lakes 等场景应用,加速对优势场景覆盖。同时,进一步加强国际化,加强软件订阅模式的推广以及保持 3 倍的销售额增长。
版权声明: 本文为 InfoQ 作者【焱融科技】的原创文章。
原文链接:【http://xie.infoq.cn/article/8e615f7b54a20a6033b709976】。文章转载请联系作者。
评论