数据所在,计算随行:Databend 的 2023 年度总结
2023 年是 Databend 为用户和客户全面交付 Data Cloud 数据云平台的一年,真正实现了「数据所在,计算随行」的理念,即将计算力带至数据之处,致力于为用户交付更澎湃的算力。
Databend 自 2021 年开始研发,「三年之期已到」,作为 Snowflake 的开源竞品,Databend 会交出怎样的一份答卷呢?让我们一起看看吧。
Large Scale,直面规模化挑战
以往第一个 Part 是留给开源/社区的,但是今年我们将第一个部分留给用户,谈「规模化」。
一方面,越来越多的用户信任并选择 Databend ,应对生产环境中的海量数据分析场景,我们已经服务于广告投放、医疗健康、AIGC、电信服务、快递物流、企业服务等多个行业,为技术栈现代化、数据汇聚平台、数据归档、广告投放分析、 用户行为分析等多个场景贡献力量。
Databend 提供高性能低成本的查询解决方案,支持标准 SQL 和自动索引,减少研发运维的学习成本。Databend 在 DMALL 除了 TiDB、 MySQL 数据归档场景外,又添加一新场景: 日志归档与实时查询,10 亿数据量级下,常用查询均可做到秒级响应。
Databend 能够基于对象存储提供高性能查询,数据迁移成本低,并且兼容原有协议和查询语句。使用 Databend 替换 CDH ,某医药集团大表查询和历史归档数据关联查询场景下,查询加载速度提升 2 倍,存储成本降低为本地盘多副本模式的 1/15。
另一方面,Databend 所处理的数据也在规模化,凭借存算分离、算算分离、读写分离的能力,直面业内顶级的数据分析场景。除了云和私有化部署之外,也解锁了混合云的新姿势。
Databend 能够应对超大规模数据导入和分析场景,结合读写分离策略,在单表数据数万亿行、 原始数据 超 10 PB 的场景下,可以做到秒级写入、秒级读取。
Databend 采用了存算分离的设计理念,既增强系统的灵活性和扩展性,又优化多租户环境下的读写分离策略,显著提升性能、安全性和稳定性。万全网络中台架构从 Greenplum 成功迁移到 Databend:查询性能增加了 3.7 倍,数据导入性能提高了 1.5 倍,数据导出速度提升了 2.5 倍,存储效率增加了 2 倍,同时 schema 维护的效率也提高了 4 倍。
凭借 Databend 对存储和计算资源的优化,在数据湖场景(数据汇聚平台) 中,帮助用户实现按需按量付费模式。Databend 的数据压缩技术可以将用户数据压缩比提高至 8 - 15 倍,同时,结合高效的 ETL/ELT 工作流,用户能够更便捷地完成数据的清洗和整理工作。
MoreConnectivity,打破数据孤岛新范式
Databend 致力于打破数据孤岛,帮助企业更合理地管理和利用现有的数据资源和计算资源。通过构建更加开放的数据生态和统一的数据管理抽象,Databend 可以助力用户整合公有云、私有云和边缘设备,自如地管理和处理超大规模数据。
在 2023 年,Databend 的着眼点在于如何让数据更加高效流转,让数据活起来、用起来。我们提供了一站式的 ETL 数据处理工作流:
对接丰富的数据存储服务,利用 Stage 打通数据中转链路
支持接入丰富的数据源和数据格式,提供数据清洗与转化能力,让数据立等可用
提供替换、合并、数据流等多样化数据更新方式,保持数据新鲜度和可用性
打造数据开放生态朋友圈,帮助数据「引进来」和「走出去」
Databend 支持对 JSON 的高效查询处理,利用 Databend Cloud 的高效数据摄入能力和丰富的可视化集成支持,某 AIGC 初创公司的用户行为分析成本降低至原有方案的十分之一。
Databend 支持混合云架构以优化私有化部署成本,结合 Databend Cloud 的弹性计算能力,某短视频内容产业客户采用混合云方案,在环境规模和 IT 成本限制的前提下满足大规模数据分析的算力调度需求。
云数据库或者新一代数仓,并不是 Databend 的最终目标,我们希望通过构建 Connectivity Cloud Database 的范式,为用户创造更具联通性的数字未来。
Crest of Innovation,勇攀数据库之巅
没有持续投入创新和研发,再好的理念也只是空中楼阁。前一部分讲述了理念,接下来我们将介绍 Databend 在 2023 年迭代过程中取得的一些进展。
性能登顶与资源调度优化
TPC-H 是一款面向商品零售业的决策支持系统测试基准,在 TPC-H SF100 测试中,我们利用 22 条查询和接近 6 亿行数据综合评估 Snowflake 和 Databend Cloud 的性能与成本。Databend Cloud 以不到一半的成本实现了更高性能,有关测试详情与复现方式,请参考 https://docs.databend.com/guides/benchmark/tpch 。
ClickBench 是 ClickHouse 发起的分析型数据库性能测试排行榜,收录了 Snowflake、ClickHouse 等 50 多个主流分析型数据库的测试结果,采用公开标准来衡量数据库的性能。2023 年 3 月,在三种不同机型测试中,Databend 的导入性能均获得第一名,Hot Run 查询下,我们有一个机型是第一名,其他两个机型分别是第二,第三名。
(数据采集自 benchmark.clickhouse.com ,2023 年 03 月)
此外,Databend 的 Python 绑定的出色性能和高效资源调度能力也得到用户认可,以是少数几个提供 Python API 且能够在资源有限条件下完成复杂查询的 SQL 数据分析工具之一。
迭代:更贴心的一站式 Lakehouse
2023 年,Databend 的形态更加贴近 Lakehouse ,我们提供一站式的数据分析解决方案,覆盖数据全生命周期,并特别增强以下能力:
更强劲的数据处理能力,支持在导入数据过程中进行数据清洗,
MERGE INTO
和ATTACH TABLE
,保证数据始终就绪。更完备的类型和函数支持, 丰富的 JSON 处理函数和 GEO 地理位置函数。
更自如的数据源集成:提供
CONNECTION
复用访问凭据,支持 Delta Table 和 Iceberg 表引擎。更全面的安全策略和权限模型,涵盖网络、密码、用户访问控制等。
此外,Databend 也正式推出企业版,以提供更丰富的高级特性,助力用户业务成功:
计算列(Computed Columns) :通过表达式从其他列计算生成数据的列,使用计算列可以将表达式的数据存储下来加快查询速度,同时可以简复杂的查询表达式。
VACUUM TABLE
:从表中永久删除历史数据文件来释放存储空间,有助于优化系统性能。聚合索引:通过预计算与索引聚合技术,聚合索引可以满足高性能查询;支持自定义索引,支持业务的不同需要。
数据脱敏:基于角色的数据掩码策略,保护您的敏感信息;在提供默认安全的同时保证数据的可用性,满足业务合规需求。
Serverless Background Service :自动发现数据写入之后需要压缩、重排序、清理的表,无需其他服务,也无需手动操作,自动触发对应表的维护工作,降低维护负担。
Databend 目前支持的企业级特性可以访问下方链接获取:
https://docs.databend.com/guides/overview/editions/dee/enterprise-features
用户业务从 Snowflake 转换到 Databend / Databend Cloud 几乎没有迁移和使用成本。 我们也提供了详细的特性对照表,可以访问 https://github.com/datafuselabs/databend/issues/13059 获取。
AIR&D,探索大模型驱动的产研工作流
今年最火的关键词莫过于生成式 AI ,Databend 也是最早一批投入精力探索大模型与数据库结合的项目。我们在 Databend 中内置了 AI 函数,支持通过 SQL 调用 OpenAI 兼容 API 、创建了开源的知识库问答方案 AskBend 。
随着 Databend 开源社区的快速发展,新功能的持续增加和现有功能的优化提出了新的测试挑战。除了原有的严格且丰富的测试方案之外,我们还引入了 GPT-4 作为质量保障的一个关键环节,帮助我们执行正确性和优化器层面的测试,智能挖掘潜在的 bug ,确保稳定性。
目前,我们开源了一套由 GPT-4 驱动的数据生成和结果集校验方案,可以访问 https://github.com/datafuselabs/wizard 获取,其中包括:
双缝探测模型:比较当前 PR 版本与主分支(main)版本的结果集来进行验证。
结果集正确性模型:对照其他数仓方案,确保 Databend 的结果集的正确性。
除此之外,Databend 的工作流中也包含丰富的 AI 基础设施,文档团队可以借助 GPT-4 改善文档质量、进行多语言支持,并且提供更符合业务需要的用例,大幅解放生产力。
Beyond Code,构建更棒的社区
(采集自 ossinsight.io ,数据更新略有延迟)
开源,是 Databend 团队不变的初心。在过去一年里,Databend 主 Repo:
新增约 1900 star ,star 总数量达到 6963 。
新增 PR 约 3700 个,总 PR 数量达到 9100+ 。
解决 Issue 1100 余个,累计已解决 Issue 接近 4200 个。
新增 33 位贡献者,在特性支持、功能完善、文档等多个不同方面贡献力量。
总计提交次数突破 30000 。
Databend 团队在 2023 年也积极举办和参与各项技术分享活动,共话技术创新:
举办 7 场线上 Data Infra 分享和 1 场线下的 Rust Tuesday
参与包括 InfoQ、3306π、Rust 中文社区等伙伴举办的多场分享活动
除了贡献者社区和合作伙伴社区的不断发展之外,2023 年的重要变化是,Databend 的用户社区得到进一步的壮大,我们的缘分从代码开始,又在代码之上建立了更加广泛和深刻的联系。感谢大家的一路支持与陪伴,我们期望与大家有更多机会,共同畅聊数字未来。
Crafting the Future,展望 2024
对于 Databend 团队而言,2023 年是一个重要的里程碑,我们直面了规模化挑战,获得了客户的认可与信赖。
2024 年,我们的目标是基于 Databend,通过 SQL 交付包括 CPU 和 GPU 资源在内的更多算力,Compute Where Data Lives: Swift, Smart, Seamless,服务于更多数据科学场景,让算力更加触手可及 。
当前 Databend 的 2024 年开源产品路线图正在讨论中,也欢迎大家关注和参与:https://github.com/datafuselabs/databend/issues/14167
版权声明: 本文为 InfoQ 作者【Databend】的原创文章。
原文链接:【http://xie.infoq.cn/article/1c0b43b125936fba154167d3f】。文章转载请联系作者。
评论