盘点下近几年退役的顶级 Apache 大数据项目 - 继 Sentry,Sqoop 之后,Ambari 正式退役
1. Apache Ambari 正式退役
正所谓几家欢乐几家愁,2022 年初,又一款顶级 Apache 大数据项目,正式宣告退役:Apache Ambari 于 2022-01 悄然宣布,项目不再维护,正式进入退役阶段!
image
笔者听闻该消息,恰逢虎年春节之际,虽然对 Ambari 的退役早有预期,但由于早年与 Ambari 颇有渊源,还是不免唏嘘一场!
所以谨以一篇博文,纪念下 Apache Ambari!
2. 忆 Ambari 往昔,唏嘘一下
遥想当年,大概 2015 年初,大数据三驾马车(Cloudera,Hortonworks,MapR)正值春风得意,Ambari 作为市面上唯一的开源的大数据集群管理系统,其开源社区相当活跃,市面上的应用者也很多,很多公司都基于开源的 Ambari 进行二次开发构建自己的大数据平台,Hortonworks 更是将 Ambari 作为其大数据平台 HDP (Hortonworks Data Platform) 内置的大数据集群管理系统,其市场占用率不可谓不高!
遥想当年,大概 2015 年初,笔者刚刚转行进入大数据领域,获得的第一个大数据相关证书 HDPCA (Hortonworks Data Platform Cluster Administrator),其在线考试,底层对大数据集群的操作,都是通过 Ambari 来进行的,对 Ambari 的运维管理不可谓不熟悉!
可是时过境迁,短短六七年时间,Ambari 就从当初的鼎盛时期,走到了今天退役的境地!真是沧海桑田,花无百日红呀!
这背后的原因:
有 IT 市场大环境变化的影响:随着 IT 生态大环境的变化,尤其是云计算的突起,市场竞争愈加激励,Cloudera 不得不改变市场策略,于 2019 年 1 月与 Hortonworks 进行了合并;另一驾马车 MapR,也被笔者曾经的东家 HPE 于 2019 年 8 月收购;
有科技大公司产品策略调整的直接影响:Cloudera 与 Hortonworks 合并后,逐步摒弃了 HDP 与 CDH 大数据平台,推出了 CDP 大数据平台;并在底层的大数据集群管理系统上,摒弃了 Ambari,主推原 CDH 底层的 Cloudera Manager;
更有开源社区宣传和运营的问题:Ambari 作为一款优秀的开源大数据管理系统,时至今日,仍有不少公司的大数据平台是基于其开源版本二开构建的,正所谓酒香也怕巷子深,如果 Ambari 社区有着良好的宣传和运营,如果基于 Ambari 二开的公司能更主动地秉承开元精神回馈社区,相信即使 Cloudera 做了了上述调整,Ambari 项目也不至于退役。。
3 Apache Ambari 回顾介绍
Apache Ambari 提供了一系列工具软件,辅助集群管理员,进行集群搭建/集群管理/集群监控,从而使得大数据集群的运维管理更简单易捷;
除了提供基于浏览器的 WEB-UI 方便运维人员对集群进行运维管理外,Ambari 也提供了一系列 REST APIs, 方便应用开发人员与系统集成人员,将集群搭建/集群管理/集群监控功能,提成到应用系统中;
Apache Ambari 创建于 2013-11,其最新版本,也是最后一个版本,是 Ambari 2.7.6,发布于 2021-11 月;
Ambari 的功能概括如下:
辅助集群搭建:Provision a Hadoop Cluster:Ambari provides an easy-to-use, step-by-step wizard for installing Hadoop services across any number of hosts.Ambari handles configuration of Hadoop services for the cluster.
辅助集群运维管理:Manage a Hadoop Cluster:Ambari provides central management for starting, stopping, and reconfiguring Hadoop services across the entire cluster.
辅助集群监控:Monitor a Hadoop Cluster:Ambari provides a dashboard for monitoring health and status of the Hadoop cluster.Ambari will send emails when your attention is needed (e.g., a node goes down, remaining disk space is low, etc).
image
4. 盘点下近几年退役的顶级 Apache 大数据项目
回顾盘点下,近几年退役的顶级 Apache 大数据项目,笔者使用过的/关注比较多的,主要有:
Ambari: 如上文所述,Ambari 于 2022 年 1 月正式退役;
Sentry:Sentry 对大数据 HADOOP 集群中的数据和元数据提供了细粒度的授权管理(即安全 3A+1E 中的 Authorization),sentry 于 2020-12 正式退役;
Sqoop:Sqoop 在大数据集群 HADOOP 和关系型数据库 RDBMS 之间,提供了高效的大批量数据同步功能(Bulk Data Transfer) ,sqoop 于 2021-06 正式退役.
5. 项目中正在使用的开源组件退役了,短期来讲,我们该何去何从?
首先大家要明白“项目退役”的含义:
某个 Apache 项目退役了,就代表背后的 Apache 开源社区不再维护该项目,也就是说,Apache 官方不会再推出该项目的新版本(包括 BUG 修复版本);
但该项目的官方网站(一般是 xxx.apache.org),源码包(可以通过 github/maven 仓库获取),二进制包(可以通过官方网站/github/maven 仓库获取),问题追踪系统(一般是 JIRA 系统或 github issues)等,一般都还是可用的;
所以短期来讲,项目中正在使用的开源组件退役后,用户仍然可以正常获取该组件的源码包和二进制包,仍然可以正常使用,几乎不受影响;对于代码能力比较强有二次开发能力的大公司,很多都会基于开源版本 fork 自己的新分支并维护在自己的代码库中,其影响更是有限。
6. 项目中正在使用的开源组件退役了,长期来讲,我们该何去何从?
如上文所说,已经退役的开源组件,Apache 官方不会再维护该项目,也就是说不会出新版本和新特性,对后续陆续发现的 BUG 也不会出修复版本,所以虽然该组件仍可以正常使用,但由于不能复用其背后开源社区的力量,所以长期来讲,一般都会重新进行技术选型,寻找替代品,在新产品新项目中切换使用新组件,在旧产品旧项目中逐步淘汰替换旧组件。
具体来讲:
sentry: 可以考虑使用 ranger 替代(CDP 中内置的就是 ranger 而不再是 sentry);
sqoop: 可以考虑使用 datax/sparksql/kafka-connect/seatunnel/flink-cdc 等替代;
ambari: 目前来看,没有替代品,只能切换使用 cdp 等大数据平台(当然底层是 cloudera-manager),或自己 fork 开源 ambari 二开维护了;
image
微信公众号主要用来信息的传播和分享,同名知识星球主要用来知识的沉淀和积累!欢迎大家加入免费知识星球 “明哥的 IT 随笔”,这是一个围绕泛大数据生态的技术交流社区,可以探讨任何 IT 技术话题和工作上的问题,一起学习共同进步! https://t.zsxq.com/2jaeqfE
版权声明: 本文为 InfoQ 作者【明哥的IT随笔】的原创文章。
原文链接:【http://xie.infoq.cn/article/4624c75589cf8e30029f38020】。文章转载请联系作者。
评论