hadoop

0 人感兴趣 · 29 次引用

  • 推荐
  • 最新
https://static001.geekbang.org/infoq/26/260fddbb23bd752f08e5f01f82f59ebb.png?x-oss-process=image/resize,w_416,h_234

大数据技术发展 (二):Hadoop 技术生态圈的发展

用户头像
Jeffy 2020 年 8 月 19 日

Hadoop 是大数据领域中最重要的一门技术,我们很多人知道它是发源于 google 的"三驾马车",实际上真的是这样的吗?这篇文章一探 Hadoop 技术的起源。

https://static001.geekbang.org/infoq/80/80431977c6a2ea495b1be7127dcb3e2b.png?x-oss-process=image/resize,w_416,h_234

大数据技术思想入门 (三):分布式文件存储的流程

用户头像
Jeffy 2020 年 8 月 24 日

相对于单机版本的文件的读写,分布式文件的读写还是稍微的复杂点的,这篇文章就带你掌握分布式文件读写的原理

https://static001.geekbang.org/infoq/80/80431977c6a2ea495b1be7127dcb3e2b.png?x-oss-process=image/resize,w_416,h_234

大数据技术思想入门 (四):分布式文件的元数据是怎么存储的

用户头像
Jeffy 2020 年 8 月 25 日

分布式存储集群中的主节点存储的是元数据信息,那么这个元数据到底是存储在主节点的内存还是主节点的磁盘呢?原因又是什么呢?这篇文章带你掌握主节点中的元数据是怎么存储的

https://static001.geekbang.org/infoq/91/918589b90f9e80c285c34fa2a3dcfafe.png?x-oss-process=image/resize,w_416,h_234

MapReduce 简介及过程详解

用户头像
犟马骝 2020 年 10 月 20 日

MapReduce是面向大数据并行处理的计算模型、框架和平台,对于大数据开发或者想要接触大数据开发的开发者来说,是必须要掌握的,它是一种经典大数据计算框架,现在有很多开源项目的内部实现都会直接或间接地借鉴了MR过程的实现。Hadoop中的MapReduce 是一个离

https://static001.geekbang.org/infoq/07/07bf01d04192185bfea489dc9cb694bf.png?x-oss-process=image/resize,w_416,h_234

Impala UDTF 功能实现

用户头像
小鹏 2020 年 5 月 5 日

如果你需要将表中的一行记录转成多行,Hive 中可以使用 UDTF 做到,然而 Impala 中没有实现 UDTF,那么该怎么办?

https://static001.geekbang.org/infoq/c0/c0eac81aa9fec2a0dd3d5829a72acb9f.png?x-oss-process=image/resize,w_416,h_234

大数据技术发展 (三):Spark 代替 Hadoop ? Spark Or Flink ?

用户头像
Jeffy 2020 年 8 月 20 日

在大数据领域中,选择使用 Hadoop、还是 Spark、还是 Flink,这个话题是一个非常热门的话题,这篇文章就带你探个究竟,看看到底选择哪一个技术?

https://static001.geekbang.org/infoq/ef/ef31cee6402768154776625481cab026.png?x-oss-process=image/resize,w_416,h_234

大数据技术思想入门 (一):分布式存储特点

用户头像
Jeffy 2020 年 8 月 21 日

分布式存储是整个大数据技术的核心,也是基础,对分布式存储的原理和特点的深入理解是很有必要的,这篇文章我们站在原理的层面上来理解分布式存储的特点

https://static001.geekbang.org/infoq/e7/e7b973e4a8485752b3c1c1b7ff817931.png?x-oss-process=image/resize,w_416,h_234

DolphinScheduler-1.3.0-dev 功能体验

用户头像
Eights 2020 年 7 月 11 日

Apache Dolphin Scheduler - 1.3.0 dev分支部署及新功能体验

3.7 亿条保单数据怎么分析?这个大数据平台有绝招

用户头像
华为云开发者社区 2020 年 8 月 25 日

受到新冠疫情影响,全球经济面临冲击,国内经济已进入复工复产有序发展的新常态阶段,企业想要实现持续增长需另寻突破点,越来越多的企业把视线转向了企业内部,希望通过推进精细化管理来实现降本增效。

https://static001.geekbang.org/infoq/c4/c4034e1236b91f9c83daf84a45863228.png?x-oss-process=image/resize,w_416,h_234

大数据技术发展 (一):大数据技术的起源

用户头像
Jeffy 2020 年 8 月 18 日

我们知道大数据技术是时下应用非常广泛的技术,也是未来的趋势,但是你知道大数据技术的起源吗?本文带你一探大数据技术的起源

https://static001.geekbang.org/infoq/27/2774ed9092d31ea4d4394671a511c8b7.png?x-oss-process=image/resize,w_416,h_234

Hadoop 集群搭建 -01 前期准备

用户头像
虚拟世界的懒猫 2020 年 5 月 1 日

整个搭建hadoop集群的流程,包括 前期准备 安装zookeeper并配置环境 编译安装hadoop并启动 安装HDFS管理namenode和dataname管理集群硬盘资源 安装启动yarn建立MapReduce管理cpu和内存资源

https://static001.geekbang.org/infoq/1c/1c327499501d80c3d29e30435e2c878c.jpeg?x-oss-process=image/resize,w_416,h_234

YARN 的架构设计和工作原理(通俗易懂)

用户头像
Shockang 2020 年 5 月 31 日

​ 本文旨在用最通俗易懂的语言帮你理解Apache Yarn的架构设计和工作原理。相信学习大数据的同学都有相同的感受,知识点又多又密又杂,所以我将会按照我自己的理解帮你归纳梳理Apache Yarn的知识点,这些知识点都是Yarn最核心的内容

https://static001.geekbang.org/infoq/b3/b31ef99194a2498ff4edbd5e2028bb9e.png?x-oss-process=image/resize,w_416,h_234

大数据技术思想入门 (二):分布式存储集群特点

用户头像
Jeffy 2020 年 8 月 22 日

要解决分布式存储的问题,可以采用主从结构的分布式架构,那么主节点存储什么呢?从节点又存储什么呢?这篇文章带你掌握分布式存储集群的特点

https://static001.geekbang.org/infoq/30/3095f314acb159be69993c1645db7f6c.png?x-oss-process=image/resize,w_416,h_234

大数据技术思想入门 (五):分布式计算特点

用户头像
Jeffy 2020 年 8 月 26 日

在单台机器上进行计算理解起来很简单,但是如果是基于分布式存储分布式计算理解起来实际上也不难,这篇文章带你理解怎么样对分布式文件进行计算

https://static001.geekbang.org/infoq/95/9561fbd2b907b29ee67a23c89579693f.png?x-oss-process=image/resize,w_416,h_234

三大 OSS 缓存加速系统巅峰对决

用户头像
苏锐 2020 年 7 月 13 日

在上篇文章 《OSS太慢?看我们怎么提速10倍!》中提到,JuiceFS 可以提高 OSS 在大数据场景下的性能 10 倍,当时有朋友在朋友圈建议我们用 JuiceFS 和类似的对象存储加速方案做一下比较。在花了一个月时间准备之后,有一些阶段性成果跟大家分享一下。

https://static001.geekbang.org/infoq/a5/a57a850dfea866b530236d03e6274f55.png?x-oss-process=image/resize,w_416,h_234

Hive 中的 GroupBy, Distinct 和 Join

用户头像
tkanng 2020 年 5 月 2 日

深度剖析Hive中的 Groupby,Distinct 与 Join

https://static001.geekbang.org/infoq/b9/b9cbb350ce90825dc1833c66de32361d.jpeg?x-oss-process=image/resize,w_416,h_234

如何搭建一个 Hadoop 集群

用户头像
Rayjun 2020 年 6 月 27 日

搭建一个简单的集群

https://static001.geekbang.org/infoq/47/47bae64eed6cd41015226caea9014684.png?x-oss-process=image/resize,w_416,h_234

搭建 Hadoop 开发环境并编写运行测试类

用户头像
大数据学徒 2020 年 7 月 21 日

本文基于 Hadoop 2.7.0 进行搭建配置

https://static001.geekbang.org/infoq/47/47bae64eed6cd41015226caea9014684.png?x-oss-process=image/resize,w_416,h_234

NameNode 架构图解

用户头像
大数据学徒 2020 年 7 月 27 日

用一张图展示NameNode的内部架构

https://static001.geekbang.org/infoq/47/47bae64eed6cd41015226caea9014684.png?x-oss-process=image/resize,w_416,h_234

命令行一键启动 Hadoop 集群

用户头像
大数据学徒 2020 年 7 月 18 日

不装虚拟机,不配环境变量,不写配置文件,命令行一键启动单机Hadoop集群

https://static001.geekbang.org/infoq/8a/8a57c9d10169b13a4dc670e7c3b0fc18.png?x-oss-process=image/resize,w_416,h_234

基于 Ambari 的大数据平台搭建

用户头像
WindyQin 2020 年 8 月 20 日

同CDH部署类似,步骤分为ambari的部署和hdp的部署,先以1台为例(内存>6G,磁盘划分/至少40G,/data/10G),后续节点可以通过扩容方式加入集群,可参考:https://blog.csdn.net/qq_32593713/article/details/81429573

奈学教育分享:Hadoop 分布式系统 HDFS 工作原理

用户头像
奈学教育 2020 年 5 月 22 日

Hadoop分布式文件系统(HDFS)是一种被设计成适合运行在通用硬件上的分布式文件系统。

https://static001.geekbang.org/infoq/27/2774ed9092d31ea4d4394671a511c8b7.png?x-oss-process=image/resize,w_416,h_234

Hadoop 集群搭建 -04 安装配置 HDFS

用户头像
虚拟世界的懒猫 2020 年 5 月 1 日

Hadoop集群搭建-05安装配置YARN

极客大学架构师训练营 大数据 GFS、MapReduce、BigTable,Hadoop HDFS Yarn Hive 第 12 次作业

用户头像
John(易筋) 2020 年 9 月 2 日

笔者在一家成立于1885年的全球性跨国银行,用大数据处理的业务包括:分析出洗黑钱的用户,根据用户的存款和消费数据给用户信用评分,贷款的时候给出相应额度。

Hadoop 简介

用户头像
yuanhang 2020 年 9 月 10 日

Hadoop 简介

https://static001.geekbang.org/infoq/27/2774ed9092d31ea4d4394671a511c8b7.png?x-oss-process=image/resize,w_416,h_234

Hadoop 集群搭建 -05 安装配置 YARN

用户头像
虚拟世界的懒猫 2020 年 5 月 1 日

Hadoop集群搭建-04安装配置HDFS 

https://static001.geekbang.org/infoq/ae/aebb61960a314a7d98264d1a477507d5.png?x-oss-process=image/resize,w_416,h_234

Hadoop 集群搭建 -02 安装配置 Zookeeper

用户头像
虚拟世界的懒猫 2020 年 5 月 1 日

 这一篇接着记录集群搭建,开始安装配置zookeeper,它的作用是做集群的信息同步,zookeeper配置时本身就是一个独立的小集群,集群机器一般为奇数个,只要机器过半正常工作那么这个zookeeper集群就能正常工作,

https://static001.geekbang.org/infoq/27/2774ed9092d31ea4d4394671a511c8b7.png?x-oss-process=image/resize,w_416,h_234

Hadoop 集群搭建 -03 编译安装 hadoop

用户头像
虚拟世界的懒猫 2020 年 5 月 1 日

Hadoop集群搭建-05安装配置YARN

深度对比 Apache CarbonData、Hudi 和 Open Delta 三大开源数据湖方案

摘要:今天我们就来解构数据湖的核心需求,同时深度对比Apache CarbonData、Hudi和Open Delta三大解决方案,帮助用户更好地针对自身场景来做数据湖方案选型。

hadoop_hadoop资料文章-InfoQ写作平台