跨越语言边界,Greptime 与蚂蚁向量数据库合作实现向量搜索性能 5 倍新突破
跨越语言边界,Greptime 与蚂蚁向量数据库合作实现向量搜索性能 5 倍新突破
Greptime 与蚂蚁集团向量数据库团队的合作成功整合了 VSAG 向量搜索库,解决了跨语言开发的挑战,并实现了 5 倍的性能提升。这一合作为向量数据库领域带来了显著创新,并为未来的进一步发展奠定了基础。
随着人工智能技术的迅猛发展,我们正迎来一场深刻的技术革命。这场变革正在颠覆数据处理和分析的传统方式,加速推动从传统架构向现代智能系统的全面转型。
这一过程中,向量数据库因其在生成式人工智能中的应用而备受关注。随着大模型和基于检索的增强生成等技术的成熟,企业对于管理和快速检索高维向量数据的需求不断增加。向量数据库不仅成为支持大规模模型训练的关键组件,更在实时推理应用中发挥着不可替代的作用。
正是在这样的背景下,近期 Greptime 团队与蚂蚁向量数据库的技术合作更显意义深远:通过整合各自的技术优势,双方在向量数据库的应用场景与性能优化方面取得了显著进展。这次合作不仅为企业提供了更强大的数据处理能力,也为推动行业创新带来了新的动力。
蚂蚁集团向量数据库
蚂蚁集团向量数据库团队,专注于蚂蚁内部向量数据库的研发,团队最近开源了名为 VSAG 的向量搜索索引库。VSAG 以其卓越的性能和易用性,为行业提供了新的选择。
分布式关系数据库 Oceanbase 近期发布的向量数据库能力同样基于 VSAG 构建。
VSAG 源码:https://github.com/alipay/VSAG
Greptime
Greptime 格睿科技专注于为物联网及可观测领域提供实时、高效的时序数据存储和分析服务。GreptimeDB 作为边云协同的云原生分布式时序数据库,也在向向量领域发力。
在 11 月即将发布的 0.10 版本中,将引入向量类型和搜索功能,进一步扩展数据处理的多样性。
GreptimeDB 源码:https://github.com/GreptimeTeam/greptimedb
VSAG 的基础能力
VSAG 支持多种索引算法,如 HNSW 和 DiskAnn,索引算法允许用户搜索各种大小的向量集,特别是那些无法放入内存的向量集。
在距离计算上,提供 L2 距离、内积和余弦相似度,适合多种应用需求。在性能表现方面,VSAG 在 ann-benchmarks 的 GIST-960 测试中排名第一,展现了其在向量搜索中的高效和可靠。
架构优化的加速效果
GreptimeDB 采用 VSAG 作为向量搜索的加速索引后,获得了 5 倍以上的向量检索性能提升。
在测试场景中,GreptimeDB 选用了 VSAG 提供的 HNSW 索引类型,来处理 10 万行 512 维的图片嵌入向量。在文字搜图应用中,相较于未使用索引的情况,获得了显著的性能提升。测试结果如下:
(图 1:GreptimeDB 使用 VSAG 提供的 HNSW 索引类型进行测试)
从架构层面看,向量索引位于承担存储层角色的 Datanode,通过向存储层下推 TopN 相似度的计算,有效减少了计算层 Frontend 所需处理的数据量,提升了整体性能。
GreptimeDB 的云原生分布式架构设计,使其在处理大规模向量数据时具有近乎无限的水平扩展能力。此外,GreptimeDB 在物联网车端等边缘场景中也能高效运行,确保了向量处理的支持能力,为推动 AI 技术在车载系统中的应用奠定了基础。
(图 2:GreptimeDB 云原生分布式架构设计展示的无限水平扩展能力)
跨语言的技术对接
VSAG 库采用 C++ 编写,而 GreptimeDB 则是完全基于 Rust 自研的数据库。这种跨语言的集成带来了显著的技术挑战。为解决这一难题,Greptime 团队开发了 VSAG 的 Rust Bindings,并将其开源。
这项工作不仅成功提升了 VSAG 在 Rust 生态中的兼容性和适用性,还为其他 Rust 开发者提供了直接的支持与便利,大大降低了跨语言开发的复杂性。
VSAG-sys 源码:https://github.com/GreptimeTeam/VSAG-sys
总结与展望
此次 Greptime 与 蚂蚁集团向量数据库团队的合作,不仅展示了 VSAG 在向量搜索中的卓越性能,还为 GreptimeDB 的技术升级带来了实质性进展。通过引入 VSAG 作为加速索引,GreptimeDB 的数据处理能力获得了显著提升,进一步优化了用户在向量搜索场景中的体验,帮助企业应对海量高维数据的复杂挑战。
展望未来,VSAG 的持续迭代将为向量数据库引入更多前沿功能,包括新的索引框架、支持多种数据类型和量化技术等。这将为数据处理的灵活性和效率注入新的动力,进一步拓宽其应用领域。
敬请期待 11 月即将上线的 GreptimeDB v0.10 版本,也期待 Greptime 和 蚂蚁集团向量数据库继续携手深化合作,共同迎接向量数据库领域的挑战与机遇,为行业的技术革新和创新贡献更多力量。
关于 Greptime
Greptime 格睿科技专注于为可观测、物联网及车联网等领域提供实时、高效的数据存储和分析服务,帮助客户挖掘数据的深层价值。目前基于云原生的时序数据库 GreptimeDB 已经衍生出多款适合不同用户的解决方案,更多信息或 demo 展示请联系下方小助手(微信号:greptime)。
欢迎对开源感兴趣的朋友们参与贡献和讨论,从带有 good first issue 标签的 issue 开始你的开源之旅吧~期待在开源社群里遇见你!添加小助手微信即可加入“技术交流群”与志同道合的朋友们面对面交流哦~
Star us on GitHub Now: https://github.com/GreptimeTeam/greptimedb
Twitter: https://twitter.com/Greptime
Slack: https://greptime.com/slack
评论