写点什么

hadoop

0 人感兴趣 · 88 次引用

  • 最新
  • 推荐
https://static001.geekbang.org/infoq/bf/bf2e3b5e4eafb4d4d07596a12c8a7036.jpeg?x-oss-process=image/resize,w_416,h_234

100 万级车辆数据监控的 hadoop 大数据架构探索与实践

用户头像
黑马腾云17 小时前

作者有幸在前些年主导并尝试使用hadoop大数据生态技术对传统车联网项目进行改造,取得了一些成果。本文对该项目进行复盘,聊聊大数据架构在车联网行业中的实践。

https://static001.geekbang.org/infoq/2a/2a98a65f312bcc5cecea52488077ad4a.jpeg?x-oss-process=image/resize,w_416,h_234

MapReduce 优化

//以下参数是在用户自己的MapReduce应用程序中配置就可以生效

https://static001.geekbang.org/infoq/6e/6e8380454de5fbb178ef8212d99cd54d.jpeg?x-oss-process=image/resize,w_416,h_234

HDFS 的 block 块和副本机制

hdfs将所有的文件全部抽象成为block块来进行存储,不管文件大小,全部一视同仁都是以block块的统一大小和形式进行存储,方便我们的分布式文件系统对文件的管理

https://static001.geekbang.org/infoq/88/882aded58ff48e1528f1f53d51831751.jpeg?x-oss-process=image/resize,w_416,h_234

Hadoop 3.x 版本相对于 Hadoop 2.x 的新特性

Apache Hadoop 3.0.0在以前的主要发行版本(hadoop-2.x)上进行了许多重大改进。

跟我学丨如何用鲲鹏服务器搭建 Hadoop 全分布式集群

摘要:今天教大家如何利用鲲鹏服务器搭建Hadoop全分布式集群,动起来···

https://static001.geekbang.org/infoq/cd/cde68a4ae8066020cd531f8ae2047b3b.jpeg?x-oss-process=image/resize,w_416,h_234

MapReduce 的运行机制详解

整个Map阶段流程大体如上图所示。

https://static001.geekbang.org/infoq/89/8975485cc2a68e227c5c1135f4674c83.png?x-oss-process=image/resize,w_416,h_234

MapReduce 中 shuffle 阶段的数据压缩机制

在shuffle阶段,可以看到数据通过大量的拷贝,从map阶段输出的数据,都要通过网络拷贝,发送到reduce阶段,这一过程中,涉及到大量的网络IO,如果数据能够进行压缩,那么数据的发送量就会少得多,那么如何了解hadoop当中支持文件的那些压缩算法, 已经如何配置

https://static001.geekbang.org/infoq/db/db32c73e38c6f291ce88d1b834c20a35.jpeg?x-oss-process=image/resize,w_416,h_234

Hadoop 之 YARN 的内部机制

用户头像
hanke3 月 15 日

前面两篇文章,我们介绍了Hadoop里两个重要的组件MapReduce和HDFS。本文我们一起看一下,作为大数据业内用的比较普遍的YARN的内部机制。

https://static001.geekbang.org/infoq/88/882aded58ff48e1528f1f53d51831751.jpeg?x-oss-process=image/resize,w_416,h_234

使用 Hadoop 相关框架进行网站流量日志分析

网站分析整体来说是一个内涵非常丰富的体系,整体过程是一个金字塔结构:

https://static001.geekbang.org/infoq/6d/6debbb36e9760819a9d489c526511e31.png?x-oss-process=image/resize,w_416,h_234

Hadoop 核心 -HDFS 的 API 详解

在windows系统需要配置hadoop运行环境,否则直接运行代码会出现以下问题:

https://static001.geekbang.org/infoq/bd/bdd2e69ab378ef5883a180b278d43842.png?x-oss-process=image/resize,w_416,h_234

与 Hadoop 对比,我是如何看待 Spark 技术?

用户头像
会飞的鱼3 月 2 日

首先看一下Hadoop解决了什么问题,Hadoop就是解决了大数据(大到一台计算机无法进行存储,一台计算机无法在要求的时间内进行处理)的可靠存储和处理。

https://static001.geekbang.org/infoq/f4/f4750edbc89855514dc0f0e7e0374817.jpeg?x-oss-process=image/resize,w_416,h_234

用形象比喻理解大数据技术 Hadoop、NoSQL、Spark

用户头像
读字节2 月 22 日

大数据技术平台就是一个生态圈,生态里面的各类技术让人眼花缭乱,即便是资深工程师也需要学习跟实践很多年才有一些积累,非专业的人去看当然晕了!因此我们需要把这么一大堆的内容分解开,找出关键的部分,用形象比喻的方式,更容易得让广大初学者从整体架构

Hive HMS Canary 时间较长异常分析

用户头像
笨小康2 月 19 日

Cloudera 管理的 Hadoop 集群中 Hive 服务 MetaStore 角色出现 canary 异常,表现为用户通过 Hive 客户端 create/drop/alter 等操作时间很慢,基本维持在 200s 多一点,本文主要针对问题分析这一现象的原因之一。

12 周架构

用户头像
FreeOcean2 月 12 日

大数据概要总结

https://static001.geekbang.org/infoq/88/882aded58ff48e1528f1f53d51831751.jpeg?x-oss-process=image/resize,w_416,h_234

【史上最全】Hadoop 核心 - HDFS 分布式文件系统详解 (上万字建议收藏)

Hadoop 分布式系统框架中,首要的基础功能就是文件系统,在 Hadoop 中使用 FileSystem 这个抽象类来表示我们的文件系统,这个抽象类下面有很多子实现类,究竟使用哪一种,需要看我们具体的实现类,在我们实际工作中,用到的最多的就是HDFS(分布式文件系统)以

https://static001.geekbang.org/infoq/6d/6df3238c99ad87b130f78d282c4b721c.jpeg?x-oss-process=image/resize,w_416,h_234

基于 Docker 的大数据开发环境 - HDP Sandbox

用户头像
大数志2 月 6 日

采用HDP Sandbox搭建基于Docker的大数据开发环境。

https://static001.geekbang.org/infoq/15/158874317c00cdf7b0b884c33d102790.jpeg?x-oss-process=image/resize,w_416,h_234

企业是如何解决 HDFS 单点问题的?

用户头像
大数据老哥1 月 31 日

在早期Hadoop刚出来的时候是没有解决HDFS单点问题的,这就意味着当NameNode的服务器宕机了就会导致整个集群瘫痪,这是非常危险的于是在Hadoop不断的更新下提出了Hadoop HA来解决NameNode单点问题,接下来我们就来聊一聊。

https://static001.geekbang.org/infoq/cb/cbe2ee8a39ff55c4091dd55343ceedcb.jpeg?x-oss-process=image/resize,w_416,h_234

真狠!涵盖了 Netty+Spark+Hadoop+ 分布式五部分!讲的清清楚楚!

用户头像
996小迁1 月 30 日

Hadoop是Apache软件基金会旗下的一一个开源分布式计算平台。以Hadoop分布式文件系统(HDFS,Hadoop Distributed Filesystem)和MapReduce ( Google MapReduce的开源实现)为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构。HDFS的高容错性、高伸缩性

https://static001.geekbang.org/infoq/71/71dae3826e559ebc0b9688c2bec3efbf.jpeg?x-oss-process=image/resize,w_416,h_234

MapReduce 练习案例 4 - 求共同好友

用户头像
小马哥1 月 29 日

大数据专栏系列文章: 通过该文章, 学会使用MapReduce模型灵活编程.

https://static001.geekbang.org/infoq/b7/b7bf560239f33eca19c06de4fbfd653f.jpeg?x-oss-process=image/resize,w_416,h_234

大数据知识专栏 - MapReduce 的自定义分组求 TopN

用户头像
小马哥1 月 28 日

大数据专栏系列文章: 通过该文章, 教会如何在 MapReduce 中使用自定义分组技术求取TopN.

https://static001.geekbang.org/infoq/8b/8b6e2d94c8c4669b5ae654ea5d6a981d.jpeg?x-oss-process=image/resize,w_416,h_234

MapReduce 练习案例 3 - 自定义分区

用户头像
小马哥1 月 26 日

大数据知识专栏, 通过系列文章, 总结大数据知识 ; 本篇文章作用: 练习 MapReduce 的自定义分区.

https://static001.geekbang.org/infoq/fc/fc248a578c72e8ec2183de56150983d6.jpeg?x-oss-process=image/resize,w_416,h_234

Hadoop 之 HDFS 内部机制知多少?

用户头像
hanke1 月 26 日

探寻Hadoop里另外一个重要组件HDFS的架构和高可用相关机制

https://static001.geekbang.org/infoq/97/97fac923fea9c6b5444224553aecc6a0.jpeg?x-oss-process=image/resize,w_416,h_234

MapReduce 练习案例 2 - 自定义排序

用户头像
小马哥1 月 26 日

大数据知识专栏, 通过系列文章, 总结大数据知识; 本篇文章作用: 练习MapReduce的自定义排序.

https://static001.geekbang.org/infoq/8a/8ab3c0e215fafcaff9aad5e253fd3c47.jpeg?x-oss-process=image/resize,w_416,h_234

大数据知识专栏 - Hadoop 的资源管理 Yarn 介绍

用户头像
小马哥1 月 23 日

大数据专栏系列文章: 通过该文章, 了解Yarn的运行机制, 包括资源调度与应用管理.

https://static001.geekbang.org/infoq/c0/c045440f5d71d210599cc068292e400d.jpeg?x-oss-process=image/resize,w_416,h_234

大数据知识专栏 - MapReduce 的 Map 端 Join

用户头像
小马哥1 月 22 日

大数据专栏系列文章: 通过该文章, 教会如何在 MapReduce 中使用 Map 端 Join.

https://static001.geekbang.org/infoq/17/1729e33e6a89f0313d1b159252b2273e.jpeg?x-oss-process=image/resize,w_416,h_234

大数据知识专栏 - MapReduce 的 Reduce 端 Join

用户头像
小马哥1 月 21 日

大数据专栏系列文章: 通过该文章, 教会你什么是MapReduce的Reduce端Join.

https://static001.geekbang.org/infoq/71/715fcfe8f759239850381ae4a6d4d670.jpeg?x-oss-process=image/resize,w_416,h_234

HDFS 杂谈:DFSAdmin Report 解读

用户头像
罗小龙1 月 21 日

在DFS管理员指令中,有一条report指令可以实时查看集群的运营情况

https://static001.geekbang.org/infoq/a4/a4b3b2b05384515b991f64146fccb03b.jpeg?x-oss-process=image/resize,w_416,h_234

大数据知识专栏 -MapReduce 自定义排序技术

用户头像
小马哥1 月 20 日

大数据专栏系列文章: 今天告诉你如何通过MapReduce的排序技术, 来实现对数据的任意顺序输出.

https://static001.geekbang.org/infoq/a4/a47aa78c763b5bde519c84d6e22595b7.jpeg?x-oss-process=image/resize,w_416,h_234

Hadoop 编程实战:HDFS 用户 Shell 详解

用户头像
罗小龙1 月 20 日

HDFS Shell主要分为两部分,分别为用户Shell及管理员Shell,对应的关键字分别是dfs与dfsadmin。本文将介绍用户Shell 39个指令的功能描述,选项详解及样例演示。

hadoop_hadoop资料文章-InfoQ写作平台