Amoro 试用 & 贡献活动 | 10 月社区评选揭晓
Amoro 是一个构建在 Apache Iceberg 等开放数据湖表格之上的湖仓管理系统,提供了一套可插拔的数据自优化机制和管理服务,旨在为用户带来开箱即用的湖仓使用体验。
Amoro 开源社区在 2023 年 8 月 10 号发起了新版本的试用与贡献活动。试用活动旨在帮助用户更快地上手 Amoro,同时也在试用过程中收集用户的使用场景,挖掘项目存在的优化改进内容和新的功能需求。贡献活动则希望更多的开发者更加深度地参与到 Amoro 的贡献中来,使得 Amoro 社区更加多元化,以获的更加长远的发展。
目前共有 27 位用户参与试用活动,20 位开发者参与贡献活动。非常感谢每位活动参与者的热情参与和无私奉献,你们的付出和努力是帮助 Amoro 不断前进的重要支撑。同时社区精心准备了礼品赠送给在活动中做出了杰出贡献的同学。贡献统计范围为 2023 年 10 月 1 日至 2023 年 10 月 30 日。经过统计共有 3 名试用用户在统计时间范围内提交了试用反馈,社区也从所有贡献者中挑选出了 2 名 MVC(Most Vauable Contributor)。
01 10 月 MVC
zhongqishang, Amoro Committer
Mentor:来自企查查的仲启尚(Github ID: zhongqishang)从 2022 年 11 月开始参与 Amoro 社区的贡献,距今已经贡献了 29 个 PR(Pull Requet),在 10 月份的贡献活动中解决了 Optimizer 在自动优化 Iceberg equality delete 文件过多的表时可能出现优化过慢或者内存溢出的问题,大大提升了 Optimizer 的稳定性。同时还优化了 Dashboard 上表详情中 Optimizing 页面的展示,方便了用户查看 Optimizing 任务详情。
个人介绍:我来自企查查大数据架构部,之前对 Apache Flink、Flink CDC、Debezium 都有一些小的贡献,参与度不高,第一次深度参与一个开源项目。
社区经历:22 年公司内部计划引入数据湖 Iceberg 的同时,也遇到了 Amoro 开源,Amoro 很好的解决了我们 Iceberg compaction 的问题。在落地的同时,社区贡献上也从一开始简单的 typos 修改到现在的一些合并性能的优化、Planner 的改进等等。
社区寄语:感谢开源,让我们不必重复造轮子;感谢社区,提供了 Amoro 这么优秀的项目,感谢社区成员对于不仅限于 Amoro 上的指导和建议。这一年多时间,Amoro 社区蓬勃发展,让我们一起加油。
huyuanfeng2018, Amoro Contributor
Mentor:来自虎牙的胡源峰(Github ID: huyuanfeng2018)从 2023 年 7 月开始参与 Amoro 社区的贡献,距今已经贡献了 12 个 PR(Pull Requet),在 10 月份的贡献活动中为 Iceberg 表支持了 Tag&Branch 的展示。同时参与了 Amoro metric 功能的开发,提供了表 Optimizing 相关的 metric 信息。
个人介绍:我来自虎牙的大数据平台团队,主要负责实时计算和数据湖的建设。
社区经历:23 年 7 月份,我们寻找一个能很好地管理 iceberg 表以及友好对其进行合并的方案时,邂逅了 amoro。我们决定尝试使用 amoro 来管理我们的 iceberg 表,在 amoro 社区的帮助下,不仅成功地使用 amoro 进行 iceberg 表的管理,还深度参与了社区一些功能的开发。在降低 ams 内存占用方面做了一些优化,也参与了多个 bug 的修复,以及社区多个规划 feature 的讨论并提出建议。
社区寄语:希望 amoro 社区和数据湖一样,持续优秀的发展,拥抱更多的变化、更多的挑战,并在这过程中不断创新和突破。也祝愿社区的开发者越来越多,在更多的场景下解决问题,和我们一起助推 amoro 社区的发展,让他变得更强大、更美好!
02 试用用户反馈
试用活动中,浙江电信、九章数据、多点 DMALL 共 3 位用户向社区提交了试用反馈。
浙江电信:
浙江电信使用 Amoro 解决了自动优化 iceberg 湖仓表的线上需求。为了提升数仓数据时效性,系统改造上云之后, 避免离线传输扫描生产(teledb)源库影响数据库性能的情况下,引入 iceberg format,并且通过网易有数实时传输将业务数据写入 iceberg 表。在使用 iceberg 过程中,遇到由于 eq-delete 文件过多,iceberg 原生的 spark compaction 执行发生 OOM 等原因失败的问题。在接入了 Amoro 后通过 Amoro 提供的 self-optimizing 功能, 可以及时的处理 iceberg 表的小文件问题,维持表可用的基础上提升了表的读取性能。
九章数据:
九章数据基于 Amoro 的 Mixed-Iceberg 格式构建流批一体的数据湖。通过 Flink CDC 数据同步入湖,通过 Mixed Iceberg 表格式保证入湖数据主键的唯一约束。在构建测试场景过程中,发现并反馈了 Mixed Iceberg Format 在生产场景下的多个问题,并与社区开发者一起排查定位,为 Mixed Iceberg Format 在生产场景下使用的稳定性提供了宝贵经验。目前已经接入测试 ODS 表规模超过 1K 张,并且验证了数据实时同步,并发补数据,使用 Iceberg Catalog 读取 Mixed Iceberg 表构建低延迟的 BI 报表等场景,未来期待一起完成流批一体的实时湖仓系统构建。
多点 DMALL:
在上云改造的背景下,多点 DMALL 引入了 Iceberg 表应对 Hive 表在实效性和表结构变更等方面的痛点。通过 Amoro 提供生产级的 Iceberg 表的运维管理能力,降低人工调度批任务对大量 Iceberg 表进行文件合并、数据过期的维护成本。此外,多点 DMALL 还实践了 Spark 引擎调度 Amoro Optimizer ,避免更新不太频繁的场景下,常驻的 Flink Optimizer 持续占用资源,并充分利用 Spark 的动态资源分配(DRA)特性,从而进一步降低资源消耗。
03 欢迎试用与贡献
试用与贡献活动持续至 2023 年 12 月,社区将每月统计上一个月的试用与贡献情况,有效试用反馈的小伙伴将获得一份社区周边大礼包,月度 MVC(Most Valuable Contributor)可获得社区准备的 AirPods 奖品一份。
如果你也有试用或者贡献的意愿,可以在微信中添加”kllnn999“(Amoro 小助手)为好友并报名。小助手邀请进入专门的试用群,会有社区 Mentor 联系你,协助你完成版本试用和项目贡献。
End~
如果你对数据湖,湖仓一体、table format 或 Amoro 社区感兴趣,欢迎联系我们深入交流。
关于 Amoro 的更多资讯可查看:
作者:Amoro Community
编辑:Viridian
版权声明: 本文为 InfoQ 作者【Amoro Community】的原创文章。
原文链接:【http://xie.infoq.cn/article/0db543ced21bcac956416f7ee】。文章转载请联系作者。
评论