写点什么

大数据集群搭建,CDH 让你事半功倍!

  • 2024-11-01
    四川
  • 本文字数:1867 字

    阅读完需:约 6 分钟

大数据集群搭建,CDH让你事半功倍!

若你正面临 Cloudera 环境部署、下载安装等方面的挑战,不妨回头看看我们之前发布的《

深度挖掘|Cloudera安装不再难!基础环境搭建全解析》详尽指南。

大数据集群搭建及管理问题

问题:

需要搭建 1000 台服务器的集群,其中集群包含 Hive、Hbase、Flume、Kafka、Spark 等集群,需要多长时间搭建好?


思考:

搭建四台集群与搭建 1000 台集群的区别?比较相似。


解决问题:(以搭建 HDFS 为例)


集群环境规划

首先我们需要进行集群基础环境的规划:比如每台节点的网络 ip 规划,节点时间同步,每台节点的名称,每台节点安装 jdk,节点之间配置免密等。


其次需要进行 Hadoop 的集群规划:比如搭建 HDFS 的版本,搭建的 HDFS 模式,搭建单机模式?还是完全分布式模式?还是 HA 的完全分布式模式?搭建 HDFS 是否需要依赖?比如 zookeeper。


最后对节点进行规划:比如那些节点搭建 zookeeper?那些节点搭建 Hadoop 集群等。


实际搭建步骤: 基础环境的搭建

搭建 zookeeper 集群搭建 HDFS 集群


存在的问题:

  1. 各个大数据技术包的下载。升级复杂。

  2. 配置文件多节点之间分发。部署过程复杂。

  3. 大数据技术各个版本的匹配兼容。版本对应混乱,兼容性差。

  4. 集群使用状态、日志查看麻烦。去节点查看详细内容,安全性差。

CDH 简介

目前 Hadoop 发行版非常多,除了原生的 Apache Hadoop 外,还有 Cloudera 发行版(CDH)、Hortonworks 发行版[2018 年与 Cloudera 公司已经合并],MapR 的 MapR 产品、AWS[Amazon Web Services]的 EMR[Elastic MapReduce]等。


目前市场份额占比最高的是前三家。所有这些发行版都是基于 Apache Hadoop 衍生出来的,之所以有这么多版本,是由于 Apache Hadoop 的开源协议决定的:任何人可 以对其进行修改,并作为开源或者商业产品发布或者销售。


Apache Hadoop 版本: 最原始的版本,所有的发行版都是基本这个版本改进,也称为社区版 Hadoop


Cloudera 版本:Cloudera’s Distribution Including Apache Hadoop ,简称 CDH。


Hortonworks 版本:Hortonworks Data Platform 简称“HDP”。 


对于国内的用户来说,CDH 版本使用最多。CDH 基于 Web 的用户界面,支持大多数 Hadoop 的组件,包括:HDFSMapReduceHive、HbaseZookeeper 等组件, 并且简化了大数据平台的安装和使用,使集群方便管理。


Cloudera 的 CDH 和 Apache 原生的 Hadoop 的区别如下:


1.CDH 对版本的划分非常清晰,CDH 共有 6 个版本,前三个版本已经不再更新,目前更新的两个版本为 CDH5 和 CDH6,CDH4 基于 Hadoop2.0,CDH5 基于 Hadoop2.2-2.6,CDH6 基于 Hadoop3.0,而原生的 Apache Hadoop 版本比较多,CDH 相比原生 Apache Hadoop 做到版本统一管理。


2.CDH 相比原生 Hadoop 在兼容性、安全性、稳定性上有较大改善,对 Hadoop 一 些 bug 进行了修复,支持 Kerberos 安全认证,更新速度快且 CDH 文档完善清晰。


3.CDH 支持 yum 包rpm 包tar 包Cloudera Manager 几种方式安装,原生的 Apache Hadoop 只支持 tar 包安装。


4.提供了部署、安装、配置工具,大大提高了集群部署的效率,可以在短时间内部署好集群。


5.运维简单,提供了管理、监控、诊断、配置修改工具,管理配置方便,定位问题快速,准确,使运维工作简单高效。


CDH 集成组件

CDH 集成了数据整合、存储、计算、搜索、分析等大数据相关技术组件,如下图:  



CDH 中文官网:https://cn.cloudera.comCDH 

英文官网:https://www.cloudera.com 

CDH 界面



CDH 架构


Server:Cloudera Manager 的核心是 Cloudera Manager Server ,Server 管理控制台服务和托管应用程序逻辑,负责软件的安装、配置、服务的启动与关闭及管 理集群。


Agent:安装在每台主机上。Agent 负责进程的启动和停止,解压配置,触发安装及监控主机。


Management Service:由一组角色组成的服务,这些角色执行各种监视,警报和报告功能。


DataBase:存储配置及监控信息。


ClouderaRepository:Cloudera Manager 分发软件的存储库。

Clients:与 Server 交互的接口,有两部分,Admin Console :管理员 web 界面版Api:用于开发者创建 Cloudera Manager 程序。 


以上就是今天分享的全部内容。


如果你想了解更多关于:Cloudera 系统环境准备、基础环境安装、集群部署以及应用组件安装等全方位的技术的问题。例如:从环境搭建/集群部署,内存扩容/问题排查,数据迁移等助你轻松应对数据管理的复杂性。可以联系我。


*加入社群,共享资料+赠送指导。


感谢你的阅读,如果喜欢我的文字,可以持续关注我,会陆续为你更新更多干货小知识。    


如果你想深入探讨了解 Cloudera 大数据技术的(内存扩容/缩容策略,故障诊断与问题排查)的方法论,欢迎找我:15928721005

用户头像

公众号:【TASKCTL】官方免费直接授权使用 2020-12-23 加入

一款国产免费企业级ETL调度批处理工具;支持各类脚本任务程序和扩展;具备可视化图形拖拽设计界面以及可视化任务管理、计划调度、实时监控、消息预警和日志分析;有效弥补了传统ETL工具在调度管理和监控分析方面不足

评论

发布
暂无评论
大数据集群搭建,CDH让你事半功倍!_cloudera_敏捷调度TASKCTL_InfoQ写作社区