博世(BOSCH)× Milvus:智能驾驶领域的数据挖掘革新
01.博世智能驾控:智能驾驶技术的领航者
博世(BOSCH)智能驾控是全球汽车技术领域的领导者,以其在自动驾驶技术上的创新和深厚历史而闻名。博世的自动驾驶解决方案,包括先进的驾驶辅助系统(ADAS),如自适应巡航控制、车道保持辅助和自动泊车系统等,被业界广泛认可,并被多家顶级汽车制造商采用。通过与多方的合作,博世不断将研究成果应用于实际,引领自动驾驶技术的发展。
公司汇聚了众多资深技术专家,致力于通过先进的数据处理技术,推动智能驾驶的进一步发展。
02.智能驾驶的挑战:应对无穷的“corner case”
在自动驾驶领域,"corner case"指的是那些不常见、异常或极端的交通场景,例如突如其来的大雾、暴雨、暴风雪等极端天气,或是行人、动物、非常规交通工具的意外出现。这些场景对车辆的感知系统,包括雷达、摄像头和激光雷达(LiDAR)等,提出了严峻的挑战。自动驾驶系统的开发和测试必须特别关注这些难以预测的边缘情况,以确保在各种复杂和不可预测的环境下都能安全、可靠地运行。博世智能驾控面临的主要挑战是如何高效且低成本地获取符合这些场景的图片数据集。
03.探索新境界:大模型与向量数据库的结合
那些年,博世智能在探索过程中曾经走过了这些路程:
人工采集:获取数据最传统的方法就是人工采集,为了采集特定的场景数据,可能需要派出多辆数据采集车,这个过程费时低效且不一定能够轻易遇到所需场景,这意味着整个过程需要一个很长的时间周期。
知识图谱:用于将特定的属性或分类标注给数据点,以便于组织、检索和分析。但是 Corner case 是无穷的,为每一种 corner case 打上独特的标签是一项巨大的挑战。
由此可见,无论人工采集还是知识图谱,都存在成本高、效率低、覆盖面有限等问题。
而随着大型预训练模型和向量数据库技术的发展,博世智能驾控开始探索新的解决方案:利用大模型对采集到的数据进行 embedding,再通过向量数据库进行高效的以文搜图或以图搜图。在这一过程中,视觉大模型 LVM(Large Vision Model)以及多模态大模型 LMM (Large Multimodal Models)被确认能够满足业务需求,而落地的真正难点则在于大规模的向量检索,接下来向量数据库就成了关键。
04.向量检索的选型之道
博世智能驾驶业务使用的预训练大模型参数量已经达到数十亿,特征维度都在 1000 多维以上。以 1024 维为例,每个特征值如果是浮点数(4 字节),那么一个特征在内存中的存储就需要大约 4KB。这样的存储需求在大规模数据处理时会导致资源消耗巨大,从而使存储和计算成本变得非常高。
博世智能驾控的图像数据量是巨大的,当前已经至少达到数百亿甚至千亿级别,并且还在增长。在经过基于时序分片的聚类去重后,最终需要入库检索的数据量也在十亿级别。在向量数据库的选型过程中,博世智能驾控通过引入量化索引+分片技术来降低资源消耗,同时提高数据处理的效率。其中量化索引技术更适合大规模数据高效存储和高维特征的索引策略。而分片技术适应数据规模的增长,从而使得大规模的实时检索成为可能,同时提高了计算资源的利用效率。团队做了以下尝试或者调研:
在 nlp 领域,智能问答知识库召回场景很多都采用了 HNSW 图索引,这是一种广泛使用的索引方法,它虽然简单易用,但需要将原始的高维特征直接存储进算法库,资源消耗量巨大,成本极高。
很多传统向量搜索采用的是在结构化数据库中加入向量字段。对于量化索引算法,在分片更新后都需要重新训练码本(codebook),这增加了实现的复杂度。因此,市场上开源的传统数据库中引入的向量检索功能,基本都只支持 HNSW 索引,无法满足博世大规模底库的检索需求。
博世智能资深技术专家张工说到:“我们需要的是一种能够适应大模型和复杂搜索需求的索引技术,它应该能够减少训练成本,提高更新效率,并能够灵活应对不断变化的数据和查询需求。”
因此,一个专门的向量数据库才有可能满足博世智能的业务场景需求,在实践比对筛选后,Milvus 脱颖而出。
注:基于大模型+Milvus 的 coner case 数据挖掘架构示意
Milvus 能够处理高维度数据,支持百亿级向量的毫秒级搜索,因此面对博世智能当前数十亿及未来不断增长的海量数据,依然可以保持高性能。更重要的是,Milvus 的量化索引技术大幅降低了存储和计算资源的消耗,使得博世智能在处理大规模数据集时更加得心应手。
1.成本效益:
数据采集成本降低 80%:通过 Milvus 的高效检索能力,博世智能驾控能够从已有的数据库中挖掘出 70%-80%所需场景,这大幅减少了重新采集数据的成本。同时,使用 Milvus 进行向量搜索,如果所需数据已经存在于数据库中,就可以实现几乎即时的数据获取,数据挖掘效率也得到了大幅提升。张工举例说,如果今天提出了一个数据需求,当天就可能通过意图搜图/文本搜图搜索得到所需的场景数据。这种搜索方式极大提高了数据处理的效率,对业务流程产生了显著的积极影响。
每年数据存储成本减少近千万:因为极大的减少了外采的数据,数据存储的成本就降了下来,“这部分成本是非常夸张的。如果一个企业每一年全靠自己出去采的数据,可能云成本都是要花到接近千万起的。”张工说道。
搜索效率优化:Milvus 的量化索引技术大幅降低了存储和计算资源的消耗。在处理大规模数据集时,博世智能驾控不再受限于传统数据库的性能瓶颈,能够更加灵活和高效地进行数据处理。Milvus 还提供了分段以及分片的搜索方法,这样的效率更高,能够解决业务当前面临的痛点,特别是在处理大规模数据和高维度特征数据时。
2.利于业务拓展的弹性架构——数十亿数据毫秒级检索
目前博世智能驾控的自动驾驶业务架构也是基于云服务,而 Milvus 的云原生架构也简化了许多流程,使得部署过程相对容易。此外,Milvus 的云原生架构也展现出了良好的扩展性,这对于博世智能这种数据规模已经达到数十亿的业务来说至关重要。当需要扩容时,Milvus 能够一键扩容。更重要的是,根据实际生产环境验证,随着业务的扩展,搜索速度依然保持在毫秒级,“我们测过数十个并发搜索,根本感觉不到搜索速度变慢”,张工如是说。
3.活跃的社区服务
Milvus 是全球最受欢迎、迭代最快、架构最成熟的开源向量数据库,拥有最大的中国及海外用户及开发者社区。“我觉得还有一点做的非常好的是 Milvus 社区非常活跃。”张工表示,之前也遇到过一些问题,“在 Milvus 社区里面一反馈,立马就得到响应。这点我觉得也做的非常好。”
4.未来探索——基于多向量列+混合搜索的向量数据库应用
为了保证每个场景的多样性,需要上万张样图数据,这样才可以保证数据集的多样性。目前业务会优先用文本搜图,当文本搜索结果不理性的状态下再去以图搜图。
而随着 Milvus 对多向量列及混合检索的支持,按需搜图变得更有可能性,比如用天气图片叠加锥桶图片可以搜索出各种天气下的锥桶路况图,也可以用三角路牌叠加描述文字来搜索出不同示警功能的路牌。这也是未来 Milvus 和博世智能共同去探索的方向。
05.Milvus 在智能驾驶领域的无限潜力
Milvus 不仅仅是一个工具,它更像是博世智能驾控在智能驾驶领域的一位战略伙伴。通过 Milvus,博世智能驾驶业务能够更深入地理解和利用数据,从而在智能驾驶的赛道上占据先机。Milvus 的引入,让博世智能驾控在数据处理上实现了质的飞跃,从数据采集到处理,再到最终的应用,每一个环节都变得更加高效和精准。期待将 Milvus 的更多创新技术运用到博世智能驾驶业务的未来业务规划中,通过技术创新,让驾驶更安全、更智能、更便捷。
作者信息:高甜甜,Zilliz Product Marketing Manager
评论