Databend 产品月报(2025 年 5 月)

五月份的更新来啦!这个月我们为大家带来了不少实用的新功能和性能优化,希望能让你的大数据处理工作更加得心应手。
这个月我们一共推出了 31 个新功能,修复了 18 个 bug,还做了 15 项性能优化!
📊 五月更新亮点
重磅功能
Ngram Index - 让
LIKE '%pattern%'
查询飞起来,自带 bloom filter 加速Iceberg 功能增强 - 新增 ORC 文件支持,数据缓存和 merge-on-read 优化
AVRO 文件支持 - 现在可以直接导入和查询 AVRO 文件了
Streaming Load API - 重新上线,性能比之前更强
Sequence 管理 - 新增
SHOW SEQUENCES
和DESC SEQUENCE
命令类型转换优化 - 数字转布尔值、数字字符串转换更智能了
性能提升
Query Optimizer - 优化了 JOIN 条件中的关联子查询
Fragment Forest 执行引擎 - 分布式查询的 Broadcast 操作更高效
Histogram 计算 - 字符串类型的统计信息计算更快了
内存管理 - 没有工作负载时自动释放内存
并发处理 - Row-Fetch 和数据库操作的并发性能提升
存储和稳定性
Auto-Vacuum 选项 - 新增
enable_auto_vacuum
表级设置数据保留策略 -
data_retention_num_snapshots_to_keep
参数控制快照保留Meta-Service 改进 - 基于时间戳的 Semaphore 序列,缓存管理更智能
超时处理 - 存储操作的取消机制更安全
开发体验
时间序列 Profiling - 新的统计指标帮你更加详细的了解每个算子的实时吞吐
错误处理优化 - 异常分类和日志记录更清晰
Python Bindings - 发布了 Python 集成支持
Arrow 升级 - 升级到 v55,兼容性更好
🚀 本月最值得关注的功能
文本搜索的双重加速:两种 Index 各有所长
我们这次推出了两种文本搜索的解决方案,各有特色,可以根据不同场景选择。最棒的是 两种 index 都是全自动维护的 - 创建后就不用管了,数据插入更新时会自动同步。
Ngram Index:让你的 LIKE 查询起飞
专门为加速 LIKE '%pattern%'
查询设计:
Ngram Index 文档:https://docs.databend.cn/guides/performance/ngram-index
Full-Text Index:专业级文档搜索
支持 Elasticsearch 语法,Elasticsearch 用户可以无缝迁移:
ES 用户的福音:我们的全文搜索语法兼容 Elasticsearch,如果你之前用过 Elasticsearch,可以直接上手,零学习成本。
怎么选择?
选择建议:
用 Ngram Index 如果你想让现有的
LIKE '%pattern%'
查询跑得更快,不想改代码用 Full-Text Index 如果你要做搜索功能,或者从 Elasticsearch 迁移过来
Full-Text Index 文档:https://docs.databend.cn/guides/performance/fulltext-index
🔮 总结
五月份对 Databend 来说是个重要的里程碑。双重索引方案让查询性能有了质的飞跃,我们正在打造下一代云数据仓库的基础设施。
社区的反馈超出了我们的预期 - 很多用户已经在生产环境中使用,给了我们很多宝贵的建议。感谢所有社区成员、贡献者,以及愿意尝鲜的朋友们。
想体验一下未来的数据仓库吗?来看看我们的项目:github.com/databendlabs/databend 🚀
关于 Databend
Databend 是一款开源、弹性、低成本,基于对象存储也可以做实时分析的新式湖仓。期待您的关注,一起探索云原生数仓解决方案,打造新一代开源 Data Cloud。
👨💻 Databend Cloud:databend.cn
📖 Databend 文档:docs.databend.cn
💻 Wechat:Databend
✨ GitHub:github.com/databendlab...
版权声明: 本文为 InfoQ 作者【Databend】的原创文章。
原文链接:【http://xie.infoq.cn/article/c2b157511eed652d56b5a31a1】。文章转载请联系作者。
评论