活动回顾|首次 Cloudberry Database Meetup · 北京站成功举办
8 月 3 日,由酷克数据 HashData 主办的 Cloudberry Database Meetup 北京站活动圆满结束。本次 Meetup 以“以开源应对 Greenplum 闭源,原厂开发者再聚首”为主题,深入探讨了 Greenplum 闭源所带来的影响,并聚焦于 Cloudberry Database,邀请核心贡献者与大家分享了 Cloudberry Database 的开源孵化历程、发展路线图以及部分关键功能的实现细节。本次 Meetup 吸引了 30 多位开源数据库技术爱好者前来参加,现场朋友们提问不断、互动热烈。
近期 Greenplum 源码归档及走向闭源在圈内讨论火热,原有开源用户面临断档风险。作为 Greenplum 衍生版和开源替代,Cloudberry Database 由原厂核心开发者打造,与其保持兼容,并且具备更新内核和更丰富功能。Cloudberry Database 逐渐引起大家的关注,当前越来越多的社区用户正在考虑并选型 Cloudberry Database 作为 Greenplum 开源替代。为了加速 Cloudberry Database 开源生态建设,酷克数据 HashData 以线下交流的形式发起主题 Meetup,汇聚各方智慧,凝聚各方力量。
本次活动上,Cloudberry Database 社区负责人王殿进首先分享了 Cloudberry Database 的开源孵化之路。他回顾了 Cloudberry Database 项目自 2022 年 6 月初首个 commit 以来的重要里程碑,包括 2023 年 6 月底项目正式开源以及 Greenplum 闭源事件的影响。王殿进强调,Cloudberry Database 是由前 Greenplum 原厂工程团队倡议发起的项目。酷克数据 HashData 目前拥有全球第二大 Greenplum 内核开发团队,为 Cloudberry Database 长期发展提供了强大开发力量支撑。Cloudberry Database 遵循 Apache License 2.0 协议,确保项目的开放性和商业友好性,整体目标是实现与 Greenplum 的原生兼容和无缝迁移。
王殿进分享 Cloudberry Database 的开源孵化之路
Cloudberry Database 技术负责人杨瑜,全面介绍了 Cloudberry Database 作为新一代开源 MPP 数据库的功能全景与未来路线图。Cloudberry Database 集成了 PostgreSQL 的多样数据类型与复杂查询能力,支持 MPP 架构实现高并发处理,具备行列混合存储、全文检索等先进特性,并承诺持续优化性能与增强安全性。同时,Cloudberry Database 致力于保持与 Greenplum 的原生兼容性,确保无缝迁移,为用户提供了高性能、可扩展且安全的数据库解决方案,以满足日益增长的数据处理需求。
杨瑜分享 Cloudberry Database 功能全景与路线图
在关键功能特性分享环节中,Cloudberry Database 研发工程师宋东晓深入剖析了 Cloudberry Database 的向量化计算引擎。他指出,Cloudberry Database 通过向量化处理和并行计算,显著提升了 OLAP 查询性能。通过减少外层循环次数、提高数据局部性和利用 SIMD 指令,Cloudberry Database 大幅降低了 CPU 消耗。同时,Cloudberry Database 向量化引擎还支持灵活的并行执行和向量化 Motion 操作,进一步增强了数据处理能力和响应速度,为用户提供了更高效、更强大的数据分析支持。
宋东晓分享 Cloudberry Database 向量化计算引擎
Cloudberry Database 研发工程师段猛猛分享了 Cloudberry Database 在湖仓一体架构上的实现与应用。他指出,湖仓一体之前,数据分析经历了数据库、数据仓库和数据湖分析三个时代。数据仓库解决了数据快速分析的需求,数据湖解决了数据的存储和管理的需求,而湖仓一体旨在无缝集成两者,促进数据自由流动,使用户能借数据仓库之力解数据湖分析之困,并依托数据湖管理能力提升数据价值。
Cloudberry Database 通过其高效的 OLAP 查询引擎和 MPP 向量化分布式查询层,为湖上数据提供加速分析,并通过通过引入外部数据包装器(FDW)机制,支持多数据源联邦查询和数据整合,构建统一的数据分析平台,满足了企业对多样化数据处理和分析的需求,为构建企业级湖仓一体数据平台提供了强有力的支持。
段猛猛分享湖仓一体在 Cloudberry Database 上的实现
此外,针对非结构化数据的管理难题,Cloudberry Database 研发工程师张文超分享了管理非结构化数据的 Directory Table 技术的原理与实现。他详细介绍了 Directory Table 作为一种新型表类型,如何支持非结构化数据的存储、查询和管理。通过引入 DFS Tablespace 和 Catalog/Schema 表结构,Directory Table 实现了非结构化数据的高效组织和管理,提供了包括数据导入、查询、删除在内的全面功能。未来,Cloudberry Database 还将进一步优化 Directory Table 技术,实现数据文件的加密/解密、备份等功能。
张文超分享 Directory Table 的原理与实现
最后在演示环节,Cloudberry Database 研发工程师王晓冉演示了 Cloudberry Database 的 Web 管控台,展示了该管控台在数据库管理、集群监控、SQL 编辑、系统监控以及查询监控等方面的丰富功能。通过 Web 管控台,用户可以方便地进行自动化部署、实时监控集群性能、编辑和执行 SQL 查询、管理数据库表空间和连接,以及监控和分析查询执行情况。这一平台不仅提升了数据库管理的便捷性和效率,还为企业提供了全面的系统监控能力,确保了数据库的稳定运行。
王晓冉演示 Cloudberry Database Web 管控台
讲师们的分享内容精彩纷呈,引发了现场开发者的热烈提问和积极互动,技术的交流与思想的碰撞贯穿始终。会后,在交流环节,多位参会者纷纷表达了对 Cloudberry Database 的期待与愿景。其中,一位参会者表示:“Cloudberry Database 不仅有效缓解了我们对 Greenplum 闭源的担忧,更凭借其强大的内核功能,让我们看到了未来数据库发展的新方向。我们计划在产品生态中引入 Cloudberry Database,相信它能为我们提供坚实的数据底座。”更有参会者主动提出愿意成为 Cloudberry Database 的社区贡献者,并表示非常愿意为 Cloudberry Database 社区贡献在数据库领域的经验和技能,与大家携手并进,共同推动社区的进步与发展。
参会者现场互动交流
展望未来,Cloudberry Database 将坚定地走开源路线,秉持开放、共享的理念,提升用户使用和开发者开发体验。我们期待与更多的开发者、企业以及社区成员携手合作,共同向世界交付一个优秀的开源数据库项目。同时,我们后续也将在其他城市举办更多的活动,邀请更多技术爱好者共同探索数据库的未来发展之路。让我们一同见证并参与 Cloudberry Database 的成长!
评论