写点什么

hadoop

1 人感兴趣 · 215 次引用

  • 最新
  • 推荐
https://static001.geekbang.org/infoq/92/9261d95e0466af494d5ecdfa2922af65.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

Kafka 集群管理:如何实现数据均衡与性能最大化

如果你想了解更多关于:大数据运维相关的系统环境准备、基础环境安装、集群部署以及应用组件安装等全方位的技术的问题。 例如:从环境搭建/集群部署,内存扩容/问题排查,数据迁移等助你轻松应对数据管理的复杂性。可以联系我:15928721005

https://static001.geekbang.org/infoq/51/51fb155743b0c3468058ad3b9dd01e83.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

Hive on Spark 实战:深入理解与配置 Spark 集群

主要记录如何安装配置Hive on Spark,在执行以下步骤之前,请先确保已经安装Hadoop集群,Hive,MySQL,JDK,Scala,具体安装步骤不再赘述。

https://static001.geekbang.org/infoq/8f/8f2d0b1a7974582a7b0adb0250390a51.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

Hadoop 作业调度优化,提升数据处理速度的杀手锏!

在大数据处理项目中,HDFS存储多目录、集群数据均衡和Hadoop参数调优是三个关键的领域,它们对于确保Hadoop集群的高效运行和数据管理至关重要。

https://static001.geekbang.org/infoq/51/51fb155743b0c3468058ad3b9dd01e83.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

Cloudera Impala 与 Hive:架构对比及协同工作机制

深入探讨了解关于大数据技术的内存扩容、缩容策略,详尽解析了故障诊断与问题排查的方法论,更不乏数据迁移的实战技巧与最佳实践。

https://static001.geekbang.org/infoq/51/51fb155743b0c3468058ad3b9dd01e83.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

Cloudera Hue 深度解析:安装、配置到高级用法

HUE 是一个开源的 Apache Hadoop UI 系统,早期由 Cloudera 开发,它是基于 Python Web 框架 Django 实现,后来贡献给开源社区。它包括 3 个部分 hue ui,hue server, hue db。

https://static001.geekbang.org/infoq/58/58356a61550f94c10486e11619066f58.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

Kafka 集群升级项目实施方案,打造高效数据处理平台

深入探讨大数据技术的内存扩容、缩容策略,详尽解析了故障诊断与问题排查的方法论,更不乏数据迁移的实战技巧与最佳实践。

https://static001.geekbang.org/infoq/51/51fb155743b0c3468058ad3b9dd01e83.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

打造数据平台:Cloudera 下载安装全流程!

汇集了Hadoop Cloudera的系统环境准备、基础环境安装、集群部署以及应用组件安装等全方位的技术运维内容。无论您是初学者还是资深工程师,都能在这里找到适合自己的学习资料和实战经验。

https://static001.geekbang.org/infoq/c7/c7808fef9044ccb7c0fafe230aaa864d.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

EasyMR6.2 全面解读:四大功能深度优化,解锁全新大数据处理和计算体验

在刚刚过去的2024春季发布会上,袋鼠云带来了数栈产品V6.2版本的全新发布。其中,EasyMR 作为数栈V6.2中的一项关键能力,代表了袋鼠云对大数据生态的深入理解和持续创新。本文将对EMR6.2 版本四大功能优化进行详细介绍,帮助用户全面了解这一创新产品。

https://static001.geekbang.org/infoq/08/08742c4a209ed1f500369319cb2cc979.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

Docker 搭建 Hadoop 集群教程。

搭建Hadoop集群是一个相对复杂的过程,涉及到多个步骤和配置。下面是一个基本的Docker搭建Hadoop集群的教程,供参考:

Hadoop RPC 简介

RPC(Remote Procedure Call)远程过程调用协议,一种通过网络从远程计算机上请求服务,而不需要了解底层网络技术的协议。RPC它假定某些协议的存在,例如TPC/UDP等,为通信程序之间携带信息数据。在OSI网络七层模型中,RPC跨越了传输层和应用层,RPC使得开发

https://static001.geekbang.org/infoq/ea/ea2a88b56de4450811fbf1140e79bb61.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

灵活、可用、高扩展,EasyMR 带来全新 Yarn 的队列管理功能及可视化配置

用户头像
袋鼠云数栈
2023-10-25

本文为大家介绍各类资源划分和队列管理方式,以及 EasyMR YARN 的队列管理功能,如何通过可视化界面管理,给广大用户带来更高效和便捷的队列管理体验。

https://static001.geekbang.org/infoq/b6/b6198cdceaab2a6df8fd0320faf7e7eb.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

Hadoop 集群间同步数据的最佳实践

用户头像
冰心的小屋
2023-10-11

1. Hadoop 集群间如何同步数据? 2. Hadoop 集群间单方开启 Kerberos 认证如何同步数据? 3. Hadoop 集群间均开启 Kerberos 认证如何同步数据?

https://static001.geekbang.org/infoq/14/1464e810b7fda2b3455d69ed3e06cd42.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

深入理解 HDFS(一):Block

用户头像
冰心的小屋
2023-07-30

HDFS 使用类似 Linux 文件目录结构来抽象表示存储的数据结构,使用 INode 来表示目录或文件,而 Block 是 HDFS 存储数据的基本单元。

https://static001.geekbang.org/infoq/82/82177ac82fb02b6983eadd79c480cc68.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

hive 数据迁移

​Distcp是hadoop内部自带的一个程序,用于hdfs之间的数据拷贝。Distcp是作为一个 MapReduce作业来实现的,该复制作业是通过集群中并行运行的 map来完成。

求爷爷告奶奶,阿里大佬才甩出这份 Spark+Hadoop+ 中台实战 pdf

用户头像
程序知音
2023-05-20

Spark大数据分析实战 1、Spark简介 初识Spark Spark生态系统BDAS Spark架构与运行逻辑 弹性分布式数据集 2、Spark开发与环境配置 Spark应用开发环境2置 使用Intelli i开发Spark 远程调试Spark程序 Spark编译

windows 下 Hive 搭建踩坑汇总

用户头像
北桥苏
2023-05-13

Hive是一个基于Hadoop的数据仓库工具,以一种类SQL的HQL语句操作Hadoop数据仓库(HDFS等)。所以本地windows安装前需要先搭建Hadoop。前面文章已经大概介绍了环境搭建和踩坑汇总,所以这里也依旧只是介绍基础的安装方法。因为关于Hive的安装,网上其实有

Windows 下 hadoop 环境搭建之 NameNode 启动报错

用户头像
北桥苏
2023-05-13

因为平时工作和日常接触到的大都是的中型项目,所以少有个性化推荐等涉及大数据的功能。但是后期应该也会在自己项目中添加信息推荐模块,所以就开始关注spark,hadoop,Thrift等工具,以下就以hadoop先开始,包括环境搭建和配置过程中踩坑过程。

https://static001.geekbang.org/infoq/e4/e473c67665461ee7b220f47e2a23133f.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

袋鼠云产品功能更新报告 05 期|应有尽“优”,数栈一大波功能优化升级!

用户头像
袋鼠云数栈
2023-05-12

袋鼠云产品功能更新报告05期来啦!这段时间,我们对产品本身以及客户反馈的一些问题进行了持续的更新和优化,包括对离线平台数据同步功能的更新,数据资产平台血缘问题的优化等,欢迎点进正文查看数栈产品的最新功能。

膜拜!华为内部都在强推的 783 页大数据处理系统:Hadoop 源代码

大数据处理系统:Hadoop源代码情景分析,采用的是Hadoop2.6。如果你有点野心,想对大数据处理系统有比较深入透彻的了解,特别是想有朝一日自己也设计一个这样的系统,甚至自己把它写出来,那么你真应该认真读一下这本文,以及 Hadoop的源代码,看看人家是怎么设计怎

https://static001.geekbang.org/infoq/84/844045fe40ad92019c1a969eba899d30.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

深入理解 Taier:MR on Yarn 的实现原理

用户头像
袋鼠云数栈
2023-03-15

我们今天常说的大数据技术,它的理论基础来自于2003年 Google 发表的三篇论文,《The Google File System》、《MapReduce: Simplified Data Processing on Large Clusters》、《Bigtable: A Distributed Storage System for Structured Data》。这三篇论文分

https://static001.geekbang.org/infoq/fc/fcf9e41592072babfabd616f7c9d07ca.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

hive etl 通过 ETL 导出 Hive 中的数据

用户头像
weigeonlyyou
2023-02-27

Hive 数据如何导出到关系型数据库中,ETL 导出 Hive 数据

https://static001.geekbang.org/infoq/2d/2d41bd28675ac118649abd01b71a318a.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

云原生 + AI 时代已至,大数据底座何去何从?

用户头像
Kyligence
2023-02-23

大家都知道,对于很多架构师而言,做技术选型是一件“常态化工作”。要找准一项技术是否适合某个场景,最核心的是要看这项技术当初是因为什么而诞生的,这个最初始的需求往往就是这项技术的基因。

https://static001.geekbang.org/infoq/3b/3b5c8d4eb54f792dc115181626fcd428.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

Hadoop 及 Spark 分布式 HA 运行环境搭建

工欲善其事必先利其器,在深入学习大数据相关技术之前,先手动从0到1搭建一个属于自己的本地Hadoop和Spark运行环境,对于继续研究大数据生态圈各类技术具有重要意义。本文旨在站在研发的角度上通过手动实践搭建运行环境,文中不拖泥带水过多讲述基础知识,结

分享一个 HIVE SQL 性能优化点 - 使用公共表表达式 CTE 替换临时表

hive 作业的性能优化是一个永恒的话题,其优化方法也有很多,在此分享一个优化点,即编写 SQL 时使用公共表表达式 CTE 替换临时表,经测试优化效果还不错,尤其是涉及到当量IO的场景。

https://static001.geekbang.org/infoq/fc/fcf9e41592072babfabd616f7c9d07ca.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

国产 ETL 工具 ETL 产品 数据交换系统

用户头像
weigeonlyyou
2023-01-27

ETL产品的选型工作一直以来都是困扰架构师的一块心病,国外付费产品用不起,国外免费产品学习成本高、不易实施。

更改 HIVE 表字段数据类型有哪些注意事项?

更改HIVE 表字段数据类型有哪些注意事项? 1. 使用 HIVE 表的常见规范 2. 更改HIVE 表字段数据类型的注意事项 3. 相关JIRA

https://static001.geekbang.org/infoq/39/390a9a43930ed27d60390a9c40f7d093.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

Flink on Yarn 三部曲之一:准备工作

用户头像
程序员欣宸
2022-12-02

搭建Flink on Yarn环境并体验,本文是三部曲第一篇,将部署前的准备工作做好

hadoop_hadoop技术文章_InfoQ写作社区