Databend 八月月报:向量检索重磅上线,性能飞跃几十倍

Hi,Databend 的朋友们!🚀
八月我们重磅推出:基于对象存储的向量检索功能。通过 HNSW 索引算法实现了相似性搜索 23 倍性能提升,AI 应用终于可以在对象存储上高效运行了。结合我们已有的结构化数据和 JSON 处理能力,Databend 现在是完全基于对象存储构建的多模态数据仓库。
八月数据
15+ 个新功能,20+ 个 bug 修复,15+ 项性能优化。最亮眼的还是向量检索,让 AI 应用在对象存储上也能获得极致性能。
本月亮点
🔥 重磅功能
HNSW 向量检索 - 基于 HNSW 索引,相似性搜索快 23 倍
时间切片函数 - 时序数据分析更强大
JSON5 解析增强 - JSON 处理更灵活
⚡ 性能和稳定性
防栈溢出 - 解决了 CTE 和物理计划的递归溢出
内存管理升级 - 大数据操作的溢出配置更合理
Meta 服务优化 - 压力减少 40%
向量检索稳定性 - 修复了刷新时丢数据的问题
向量检索
📊 23 倍性能提升
优化前:
优化后(HNSW 索引加速):
🎮 生产验证:游戏行业成功实践
在 Databend Cloud 上,已有多家游戏公司在生产环境使用向量检索:
游戏推荐系统:基于玩家行为特征向量,实时推荐游戏内容和商品
用户画像分析:通过玩家行为向量聚类,精准识别用户类型和价值
反作弊检测:利用行为特征向量,快速识别异常玩家行为模式
内容匹配:根据玩家偏好向量,智能匹配游戏关卡和活动
这些客户的真实业务需求持续推动着我们的技术改进,让向量检索功能越来越成熟可靠。
🚀 快速上手指南
语义搜索三步搞定:
1. 建表加索引
2. 插入数据
3. 高性能搜索
支持三种距离算法:
Cosine(余弦) - 文本语义相似性
L2(欧式距离) - 图像视觉相似性
L1(曼哈顿距离) - 特征对比分析
多模态数据仓库的价值
Databend 在对象存储上支持三大类数据的统一处理:
🏗️ 结构化数据 - 传统行列数据,列式存储高性能分析
📄 半结构化数据 - JSON 文档,虚拟列技术 3 倍加速(七月)
🔍 非结构化数据 - 向量嵌入,HNSW 索引加速检索 23 倍(八月)
💰 成本优势
传统方案: 多系统拼凑
结构化数据:ClickHouse/PostgreSQL
JSON 数据:MongoDB/Elasticsearch
向量搜索:Pinecone 等专用向量数据库
复杂的数据管道连接各系统
Databend 方案: 统一平台
所有数据类型存储在对象存储,成本降低 80%
一套 SQL 处理所有数据类型,开发效率大幅提升
无需数据搬迁和系统整合
🎯 实际应用
现在你可以用纯 SQL 搭建完整的 AI 应用 —— 推荐系统、语义搜索、RAG 知识库,各种数据类型无缝配合。
Databend:多模态数据仓库,为 AI 应用而生
🔗 立即体验
开源:https://github.com/databendlabs/databend
云服务:https://databend.cn
文档:https://docs.databend.cn
版权声明: 本文为 InfoQ 作者【Databend】的原创文章。
原文链接:【http://xie.infoq.cn/article/ed9da22edb797dffb22e3a45b】。文章转载请联系作者。
评论