【活动回顾】Databend 云数仓与 Databend Playground 扩展组件介绍
2023 年 12 月 7 日,作为 KubeSphere 的合作伙伴,Databend 荣幸地受邀参与了 KubeSphere 社区主办的云原生技术直播活动。本次活动的核心议题为「Databend 云数仓与 Databend Playground 扩展组件介绍」,此次分享由 Databend Labs 的研发工程师尚卓燃担任主讲嘉宾,向与会者呈现了一场内容丰富的在线分享会。
大纲回顾
什么是 Databend
Databend 是一款使用 Rust 研发的新一代云原生数据仓库,完全面向云架构并基于对象存储构建。它具备即时扩缩容能力,能够在数分钟内增加数百倍的算力,为企业提供了一个基于对象存储、湖仓一体化、计算和存储分离的大数据管理和分析集中式平台。实现了一份数据,统一计算入口,供多用种业务使用,从而助力企业更准确地洞察业务、制定战略,很好的满足了客户私有化部署的不同需求。
作为一个开源项目,Databend 的源代码托管于 GitHub,并已获得超过 6700 个 star ,成为 Rust 社区云数仓领域的明星项目。Databend 的查询引擎完全自主研发,这一点使其有别于其他基于 Apache Arrow Datafusion 的 Rust 数据库项目。
Databend 采用存储与计算分离的架构,支持弹性扩缩容,让用户可以根据需要灵活规划资源使用。特别是在云环境中,这意味着用户可以按实际使用量付费,从而降低使用成本。在混合云应用方面,Databend 支持本地资源与云端资源的协同工作,满足超大规模数据分析的需求。安全性方面,Databend 引入了多租户基于角色的权限管理,确保数据的安全和合规。除了存储与计算分离,Databend 还引入了计算资源的分离概念,包括读写集群的分离,以提升数据分析体验。
Databend 还整合了丰富的数据生态系统,协助用户进行高效的数据集成。此外,Databend 支持多语言的用户定义函数(UDF)和 PB 级的数据处理能力,进一步扩展了其功能和应用范围。
Databend 架构
Databend Labs 团队精心设计并实现了 Databend 的架构,旨在为超大规模数据集提供经济高效的复杂分析能力。以下是 Databend 架构的关键特性:
云友好性:Databend 与各种云存储平台(如 AWS S3、Azure Blob、CloudFlare R2 等)实现无缝集成。
高性能:采用 Rust 语言开发,结合 SIMD 和向量化处理技术,实现了极速的数据分析处理。
经济弹性:通过创新的设计,实现了存储和计算的独立伸缩,优化了成本效益和系统性能。
简易数据管理:内置数据预处理功能,减少对外部 ETL 工具的依赖,简化了数据处理流程。
数据版本控制:提供类似 Git 的多版本存储,支持任意时间点的数据查询、克隆和回退。
丰富的数据支持:支持 JSON、CSV、Parquet 等多种数据格式和类型。
AI 增强分析:集成 AI 函数,提供由大模型驱动的数据分析能力。
社区驱动:拥有一个友好且持续增长的社区,致力于提供一个易用且高效的云上分析平台。
Databend 生态全景图
Databend 自身支持一定 ETL 能力,能够使用 Stage 和 Multiple Catalog 挂载外部数据源,提供全量、增量、条件等多种导入方式,支持使用 PRESIGN 上传和下载数据。
Databend 积极融入大数据生态,拓展「Databend 朋友圈」,提供全链路解决方案,帮助用户将数据转化为商业洞见。
性能
当探讨数据仓库服务,特别是那些专为分析型工作负载设计的服务时,性能成为一个关键指标。为了全面评估 Databend 的性能,我们选择了 ClickBench —— 一个由 ClickHouse 发起、广受认可的公信力基准测试榜单。
在 ClickBench 的测试中,Databend 展示了其卓越的导入性能,成功在三种不同的机型测试中均获得第一名。这一成绩不仅突显了 Databend 在数据处理速度方面的优势,也反映了其在不同硬件环境下的高效适应能力。在查询性能方面,Databend 在这三种机型测试中分别位列第一、第二和第三名,再次证明了其在数据查询处理方面的高效率和稳定性。
这些测试结果充分证明了 Databend 在处理大规模数据集时的强大性能,凸显了其作为云原生数据仓库解决方案的领先地位。
主要特性和行业案例
主要特性
Databend 作为一款现代化的数据仓库,不仅提供了高效的常规查询支持,而且采用了以 ETL (Extract, Transform, Load)为核心的构建方式。在整个数据处理链路中,Databend 能够更有效地进行数据清洗、归档和存储,从而提升数据的整体质量和分析的准确性。
Databend 支持多种用户自定义函数能力,包括 SQL UDF 和 External Function 两类方式。用户可以使用受支持的语言构建 UDF Server ,以与现有数据科学工作流无缝集成,甚至在 SQL 中支持发送邮件通知、调用即时通讯机器人等功能。
最近我们引入的一个高级特性——流,目前支持追加模式,可以实时捕获数据的插入。使用流的典型应用场景是模拟触发器功能,此外你也可以用它来收集一些临时表里的一些更改,并根据这些更改以一定频率更新其他表。
我们目前正处在 AI 的黄金时期,云数据与 AI 的结合正在开启新的可能性。Databend 内置 AI 集成功能,以进一步增强其数据处理和分析能力。
内置 AI 函数:Databend 集成了一系列 AI 函数,支持用户调用兼容 OpenAI 的 API。能够将自然语言转化成对应的 SQL 查询语句,极大地简化了数据查询过程,使非技术用户也能轻松访问和分析数据。
向量相似度计算:Databend 支持基本的向量相似度计算功能,为用户提供了构建复杂数据模型和执行高级数据分析的能力。
✍️ 创新应用案例:AskBend.rs
AskBend.rs - 一个基于 Databend 构建的智能问答系统。这个系统以 Databend 文档为基础,提供一个用户友好的交互界面,用户可以通过自然语言查询来获取信息和帮助。这一集成同样内置于 Databend 官方文档的检索之中,不仅为用户带来便利,也展示了 Databend 在数据智能领域的先进应用。
更多关于 AskBend.rs 的信息,请访问:https://ask.databend.rs。
行业案例
案例 1:AIGC 初创公司的成本优化 Databend 为一家 AIGC 初创公司提供了显著的成本效益。通过使用 Databend 和 Databend Cloud,结合对象存储和弹性调度的特点,并利用 Databend 丰富的生态支持,该公司能够将用户行为分析的成本降至原方案的 1% 。相较于传统数据仓库,Databend 可以节约高达 80% 的成本。这不仅体现了 Databend 在数据处理和存储效率方面的优势,也显示了其在降低企业运营成本方面的巨大潜力。
案例 2:混合云解决方案的弹性优势 Databend 仅需维护少量本地实例即可满足常规查询需求,展示了其高效的资源管理能力。对于偶发的超大规模查询,可以利用 Databend Cloud 弹性调度能力协同调配大量节点,从而加速处理速度,提升查询效率。
数字化转型的推动者作为一个基于对象存储构建的现代云数仓,Databend 也助力多家企业实现数字化转型。助力企业从传统的 Hive 技术栈向 Databend 生态过渡,显著降低存储成本和数据迁移成本,并且优化了网络带宽利用率。
Databend Playground 扩展组件介绍
Databend Playground(社区尝鲜版)是我们为 KubeSphere 设计的一款扩展组件,作为 Databend 的一站式部署、运维和查询可视化解决方案。借助 KubeSphere 的扩展系统,Databend Playground 可以帮助用户快速部署和启动数据分析环境,并且集成前端 SQL IDE,使用户能够轻松进行数据分析而无需担心规模化部署的复杂性。
该扩展组件的主要目标用户是 Databend 新手或初学者,适用于学习 Databend 的 SQL 语法和体验数据分析方案。
部署模式和未来发展
目前,Databend Playground 仅支持单 Query 、单 Meta 、单 Playground 一键部署的模式。我们计划在此基础上继续迭代产品,未来将允许用户自定义存储后端、引入高可用 Meta 架构和计算资源的弹性扩展机制。此外,还将提供监控大盘和其他附加服务,以增强用户体验和系统的可管理性。
如何体验
欢迎前往 KubeSphere Marketplace 订阅 Databend Playground,开始您的数据分析之旅!
关于 Databend
Databend 是一款开源、弹性、低成本,基于对象存储也可以做实时分析的新式数仓。期待您的关注,一起探索云原生数仓解决方案,打造新一代开源 Data Cloud。
👨💻 Databend Cloud:https://databend.cn
📖 Databend 文档:https://databend.rs/
💻 Wechat:Databend
版权声明: 本文为 InfoQ 作者【Databend】的原创文章。
原文链接:【http://xie.infoq.cn/article/8aec666e682fa3df6201f3d3f】。文章转载请联系作者。
评论