写点什么

hadoop

1 人感兴趣 · 211 次引用

  • 最新
  • 推荐
https://static001.geekbang.org/infoq/08/08742c4a209ed1f500369319cb2cc979.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

Docker 搭建 Hadoop 集群教程。

搭建Hadoop集群是一个相对复杂的过程,涉及到多个步骤和配置。下面是一个基本的Docker搭建Hadoop集群的教程,供参考:

Hadoop RPC 简介

RPC(Remote Procedure Call)远程过程调用协议,一种通过网络从远程计算机上请求服务,而不需要了解底层网络技术的协议。RPC它假定某些协议的存在,例如TPC/UDP等,为通信程序之间携带信息数据。在OSI网络七层模型中,RPC跨越了传输层和应用层,RPC使得开发

https://static001.geekbang.org/infoq/ea/ea2a88b56de4450811fbf1140e79bb61.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

灵活、可用、高扩展,EasyMR 带来全新 Yarn 的队列管理功能及可视化配置

用户头像
袋鼠云数栈
2023-10-25

本文为大家介绍各类资源划分和队列管理方式,以及 EasyMR YARN 的队列管理功能,如何通过可视化界面管理,给广大用户带来更高效和便捷的队列管理体验。

https://static001.geekbang.org/infoq/b6/b6198cdceaab2a6df8fd0320faf7e7eb.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

Hadoop 集群间同步数据的最佳实践

用户头像
冰心的小屋
2023-10-11

1. Hadoop 集群间如何同步数据? 2. Hadoop 集群间单方开启 Kerberos 认证如何同步数据? 3. Hadoop 集群间均开启 Kerberos 认证如何同步数据?

https://static001.geekbang.org/infoq/14/1464e810b7fda2b3455d69ed3e06cd42.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

深入理解 HDFS(一):Block

用户头像
冰心的小屋
2023-07-30

HDFS 使用类似 Linux 文件目录结构来抽象表示存储的数据结构,使用 INode 来表示目录或文件,而 Block 是 HDFS 存储数据的基本单元。

https://static001.geekbang.org/infoq/82/82177ac82fb02b6983eadd79c480cc68.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

hive 数据迁移

​Distcp是hadoop内部自带的一个程序,用于hdfs之间的数据拷贝。Distcp是作为一个 MapReduce作业来实现的,该复制作业是通过集群中并行运行的 map来完成。

求爷爷告奶奶,阿里大佬才甩出这份 Spark+Hadoop+ 中台实战 pdf

用户头像
程序知音
2023-05-20

Spark大数据分析实战 1、Spark简介 初识Spark Spark生态系统BDAS Spark架构与运行逻辑 弹性分布式数据集 2、Spark开发与环境配置 Spark应用开发环境2置 使用Intelli i开发Spark 远程调试Spark程序 Spark编译

windows 下 Hive 搭建踩坑汇总

用户头像
北桥苏
2023-05-13

Hive是一个基于Hadoop的数据仓库工具,以一种类SQL的HQL语句操作Hadoop数据仓库(HDFS等)。所以本地windows安装前需要先搭建Hadoop。前面文章已经大概介绍了环境搭建和踩坑汇总,所以这里也依旧只是介绍基础的安装方法。因为关于Hive的安装,网上其实有

Windows 下 hadoop 环境搭建之 NameNode 启动报错

用户头像
北桥苏
2023-05-13

因为平时工作和日常接触到的大都是的中型项目,所以少有个性化推荐等涉及大数据的功能。但是后期应该也会在自己项目中添加信息推荐模块,所以就开始关注spark,hadoop,Thrift等工具,以下就以hadoop先开始,包括环境搭建和配置过程中踩坑过程。

https://static001.geekbang.org/infoq/e4/e473c67665461ee7b220f47e2a23133f.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

袋鼠云产品功能更新报告 05 期|应有尽“优”,数栈一大波功能优化升级!

用户头像
袋鼠云数栈
2023-05-12

袋鼠云产品功能更新报告05期来啦!这段时间,我们对产品本身以及客户反馈的一些问题进行了持续的更新和优化,包括对离线平台数据同步功能的更新,数据资产平台血缘问题的优化等,欢迎点进正文查看数栈产品的最新功能。

膜拜!华为内部都在强推的 783 页大数据处理系统:Hadoop 源代码

大数据处理系统:Hadoop源代码情景分析,采用的是Hadoop2.6。如果你有点野心,想对大数据处理系统有比较深入透彻的了解,特别是想有朝一日自己也设计一个这样的系统,甚至自己把它写出来,那么你真应该认真读一下这本文,以及 Hadoop的源代码,看看人家是怎么设计怎

https://static001.geekbang.org/infoq/84/844045fe40ad92019c1a969eba899d30.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

深入理解 Taier:MR on Yarn 的实现原理

用户头像
袋鼠云数栈
2023-03-15

我们今天常说的大数据技术,它的理论基础来自于2003年 Google 发表的三篇论文,《The Google File System》、《MapReduce: Simplified Data Processing on Large Clusters》、《Bigtable: A Distributed Storage System for Structured Data》。这三篇论文分

https://static001.geekbang.org/infoq/fc/fcf9e41592072babfabd616f7c9d07ca.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

hive etl 通过 ETL 导出 Hive 中的数据

用户头像
weigeonlyyou
2023-02-27

Hive 数据如何导出到关系型数据库中,ETL 导出 Hive 数据

https://static001.geekbang.org/infoq/2d/2d41bd28675ac118649abd01b71a318a.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

云原生 + AI 时代已至,大数据底座何去何从?

用户头像
Kyligence
2023-02-23

大家都知道,对于很多架构师而言,做技术选型是一件“常态化工作”。要找准一项技术是否适合某个场景,最核心的是要看这项技术当初是因为什么而诞生的,这个最初始的需求往往就是这项技术的基因。

https://static001.geekbang.org/infoq/3b/3b5c8d4eb54f792dc115181626fcd428.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

Hadoop 及 Spark 分布式 HA 运行环境搭建

工欲善其事必先利其器,在深入学习大数据相关技术之前,先手动从0到1搭建一个属于自己的本地Hadoop和Spark运行环境,对于继续研究大数据生态圈各类技术具有重要意义。本文旨在站在研发的角度上通过手动实践搭建运行环境,文中不拖泥带水过多讲述基础知识,结

分享一个 HIVE SQL 性能优化点 - 使用公共表表达式 CTE 替换临时表

hive 作业的性能优化是一个永恒的话题,其优化方法也有很多,在此分享一个优化点,即编写 SQL 时使用公共表表达式 CTE 替换临时表,经测试优化效果还不错,尤其是涉及到当量IO的场景。

https://static001.geekbang.org/infoq/fc/fcf9e41592072babfabd616f7c9d07ca.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

国产 ETL 工具 ETL 产品 数据交换系统

用户头像
weigeonlyyou
2023-01-27

ETL产品的选型工作一直以来都是困扰架构师的一块心病,国外付费产品用不起,国外免费产品学习成本高、不易实施。

更改 HIVE 表字段数据类型有哪些注意事项?

更改HIVE 表字段数据类型有哪些注意事项? 1. 使用 HIVE 表的常见规范 2. 更改HIVE 表字段数据类型的注意事项 3. 相关JIRA

https://static001.geekbang.org/infoq/39/390a9a43930ed27d60390a9c40f7d093.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

Flink on Yarn 三部曲之一:准备工作

用户头像
程序员欣宸
2022-12-02

搭建Flink on Yarn环境并体验,本文是三部曲第一篇,将部署前的准备工作做好

https://static001.geekbang.org/infoq/05/05850edbb07fc47d9260ba93e0056be2.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

国产自研、安全、高可用——袋鼠云大数据基础平台 EasyMR 筑基企业数字化转型

用户头像
袋鼠云数栈
2022-12-01

近年来,国际形势的风云变幻,中美双边关系的恶化,自 2013 年 “棱镜门” 事件之后,又一次警示国人,对于科技领域,只有自己掌握核心关键技术,实现自主可控,才能摆脱越来越频繁的 “卡脖子事件”,保证企业和国家信息安全。

https://static001.geekbang.org/infoq/59/590cfd04f755ca3fdf3899f40f8e62b7.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

超简单的 CDH6 部署和体验 (单机版)

用户头像
程序员欣宸
2022-12-01

借助ansible,和已经调试好的playbook,快速部署和体验单机版CDH6

https://static001.geekbang.org/infoq/d2/d21f5eaabf1cbe869b7c4ce3bd72c41b.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

Hadoop 完全分布式环境搭建 (三节点)

用户头像
指剑
2022-11-30

Hadoop完全分布式环境搭建(三节点)

https://static001.geekbang.org/infoq/bb/bb33663b62341a0b71fa5379fbe16e51.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

CDH5 部署三部曲之三:问题总结

用户头像
程序员欣宸
2022-11-29

启动CDH5之后,部分组件未能启动成功,将所有修复过程汇总再次,期待能给您一些参考

公共大数据集群中如何配置 YARN 的公平调度器和容量调度器

公共大数据集群中如何配置 YARN 的公平调度器和容量调度器 1 YARN 资源管理框架与公平/容量调度器 2 公平/容量调度器配置原则概述 3 如何排查调度器资源配置引起的业务问题 4 公平调度器相关重要参数 5 容量调度器相关重要参数

https://static001.geekbang.org/infoq/29/297936de067418587f00d48a723dee25.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

CDH5 部署三部曲之二:部署和设置

用户头像
程序员欣宸
2022-11-28

本文是《CDH5部署三部曲》的第二篇,前文将集群所有机器做了必要的设置,今天一起来完成CDH的部署、启动、设置等操作

https://static001.geekbang.org/infoq/9d/9d02b40bf3dfd194f600a40e7b6256a1.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

多点 DMALL × Apache Kyuubi:构建统一 SQL Proxy 探索实践

用户头像
网易数帆
2022-11-25

伴随着国家产业升级的推进和云原生技术成熟,多点 DMALL 大数据技术也经历了从存算一体到存算分离的架构调整变迁。本文将从引入 Kyuubi 实现统一 SQL Proxy 的角度讲述这一探索实践的历程。

一篇文章彻底理解 HDFS 的安全模式

一篇文章彻底理解 HDFS 的安全模式

如何杜绝 spark history server ui 的未授权访问?

如何杜绝 spark history server ui 的未授权访问? 默认状况下,Spark history Sever ui 是没有任何访问控制机制的,任何用户只要知道 shs 对应的 url,就可以访问链接查看 spark 作业的运行状况。

https://static001.geekbang.org/infoq/87/87365255506453797711345a853ea3d3.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

漫游 Hadoop(一):NameNode 公平队列

用户头像
冰心的小屋
2022-11-09

HDFS NameNode是Hadoop最重要的模块,负责文件系统命名空间管理的同时,还需要处理来自所有客户端的RPC读写请求,通常负载严重,为了防止单用户批量请求导致其他用户服务质量下降,NameNode通过Fair Call Queue机制来保证不同用户请求被处理的公平性,该机制

hadoop_hadoop技术文章_InfoQ写作社区