活动回顾|Apache Cloudberry™ Meetup · 上海站暨中文用户组年终聚会
Apache Cloudberry™ (Incubating) 由 Greenplum Database 原厂核心开发者创建,是一款领先且成熟的开源大规模并行处理(Massively Parallel Processing,MPP)数据库。它基于开源版的 Pivotal Greenplum Database® 衍生而来,但采用了更新的 PostgreSQL 内核,并具备更先进的企业级功能。Cloudberry 可以作为数据仓库使用,也很适合大规模分析和 AI/ML 工作负载。为了加速 Apache Cloudberry 开源生态建设,酷克数据 HashData 以线下交流的形式发起主题 Meetup,汇聚各方智慧,凝聚各方力量。
1 月 11 日,由酷克数据 HashData 组织的 Apache Cloudberry™(Incubating)Meetup·上海站暨中文用户组年终聚会在亚马逊云科技上海办公室成功举办。本次 Meetup 吸引了一批业内专家、Greenplum 资深用户及技术爱好者,共同探讨了 Apache Cloudberry 的发展路线图、前沿技术进展以及场景实践案例,现场氛围热烈,讨论深入。

话不多说,让我们一起来看整场活动的回顾吧!

杨瑜分享 Apache Cloudberry 2024 回顾与 2025 展望
活动伊始,由 Apache Cloudberry PPMC 成员、酷克数据研发 VP 杨瑜带来了《Apache Cloudberry 2024 回顾与 2025 展望》的主题分享。杨瑜介绍,Cloudberry 项目始于 2022 年,最初作为基于 Greenplum 的衍生项目。面对 Greenplum 项目的突然闭源,酷克数据团队携手国内外合作伙伴共同推动,将其捐赠给 Apache 基金会,确保项目由社区共同维护。2024 年 11 月,Cloudberry 正式进入 Apache 孵化器并进入孵化阶段,获得了越来越多外部贡献者和用户的支持。
Cloudberry 在过去的两年中坚持不断的技术革新,弥补了 Greenplum 在性能和功能上的多个空白,成为开源 MPP 数据库领域的重要力量。Cloudberry 继承了 PostgreSQL 强大的生态体系,内核升级至 PostgreSQL 14.4 版本,带来了哈希分区表、向量化执行、增量视图等诸多崭新特性(更多模块计划开源中!);跨集群查询性能得到了优化;向量化执行引擎与并行计算的支持提升了整体执行效率;增量视图的支持则提高了查询效率。
酷克数据 HashData 联合其他社区伙伴正在规划更多核心功能开发和开源,进一步增强系统的灵活性与扩展性,并持续优化跨集群的查询能力,以满足企业多样化的使用场景。

周嘉祺分享 Apache Cloudberry 的行列混存方案
Apache Cloudberry PPMC 成员,酷克数据内核研发工程师周嘉祺为与会者深入讲解了 Cloudberry 中的 PAX 存储引擎的优势。他从数据编码、压缩支持、行列混存到查询性能的提升等多个角度,剖析了 PAX 的设计与架构。
相比于其他开源 MPP 数据库,Cloudberry 的 PAX 存储引擎能够同时支持行存和列存,自动切换数据访问模式,针对不同的查询需求优化性能。这使得用户在处理混合工作负载时,能够充分发挥存储和查询的优势,无论是 OLTP 还是 OLAP 场景,都能获得卓越的性能。他特别强调了 PAX 对 PostgreSQL 的全类型支持和对多种数据操作的支持,展示了 PAX 如何支持大规模数据的高效处理,如何通过优化存储结构提升整体性能,为 Cloudberry 提供了强大的存储引擎支撑。

杨江华分享 Apache Cloudberry 并行查询原理详解
Apache Cloudberry PPMC 成员、酷克数据内核研发工程师杨江华,带来了一场关于 Cloudberry 并行查询的深入讲解。他强调,Cloudberry 的并行查询功能具备动态调整并行度的能力,支持在不需要停机的情况下灵活扩容或缩容,从而大幅提升资源利用率和查询响应速度。
通过虚拟 QE 节点,Cloudberry 可以在现有节点基础上动态扩展并行度。例如,在一个由三台节点组成的系统中,Cloudberry 能够将并行度扩展至六个虚拟节点,显著提升查询性能。此外,Cloudberry 还通过优化并行算子(如 Scan 和 Hash Join),进一步加速了查询过程。为了提升并行查询的性能,Cloudberry 采用了去中心化的并行框架和智能内存共享机制,避免了传统架构中可能出现的资源瓶颈,确保了高效的资源分配和快速的数据处理。

陈淼分享客户端工具 GPAdmin for Cloudberry
六边形合伙人、Greenplum 资深专家陈淼为大家介绍了自己开发的客户端工具——GPAdmin。该工具专门为 Greenplum 及 Cloudberry 提供支持,优化了传统工具的性能瓶颈,特别是在大规模表的处理上,展现了秒级响应的强大能力。GPAdmin 工具以其小巧高效、没有性能限制、优化的查询性能、避免误操作、自动补全与提示、权限管理等特点,为开发者提供了极大的便利。

郝艳丰分享基于 Apache Cloudberry 构建现代化企业数据平台
上海罗盘大数据首席架构师郝艳丰分享了基于 Apache Cloudberry 构建现代化企业数据平台的经验。郝老师从实际项目出发,介绍了如何利用 Cloudberry 搭建一个高效、敏捷且可扩展的数据平台。他强调,现代化的数据平台不仅仅是存储和处理数据,更要支持智能分析、决策支持、数据治理等多方面功能。他进一步探讨了如何在数据平台建设过程中避免过度技术堆砌,避免企业在追求技术前沿的同时,陷入复杂化与不必要的资源浪费。

王桂处分享基于 Apache Cloudberry 打造生命科学产业供应链企业数仓
上海帕科王桂处分享了基于 Cloudberry 在生命科学产业中应用的实际案例。他介绍了 Cloudberry 如何帮助医药行业客户实现快速自动化报表生成,提升决策效率,通过 Cloudberry 解决客户在数据集成、性能瓶颈和复杂报表支持方面的问题。本次分享不仅涉及技术层面的优化,还强调了如何将技术应用于实际业务场景,推动行业数字化转型。
本次 Apache Cloudberry™(Incubating) Meetup · 上海站暨中文用户组年终聚会圆满结束,通过各位专家的精彩分享和深入交流,观众对 Apache Cloudberry 有了更深入的了解和认识。
同时,本次活动也为 Greenplum 和 Cloudberry 用户提供了一个良好的交流平台。我们相信,在未来的发展中,Apache Cloudberry 将继续保持开源开放、社区共创的氛围,为更多合作伙伴和用户提供优质的数仓解决方案和服务选择。
评论