写点什么

hadoop

0 人感兴趣 · 50 次引用

  • 最新
  • 推荐
https://static001.geekbang.org/infoq/b3/b32ede53196caf7e2a8fa3fd92807138.jpeg?x-oss-process=image/resize,w_416,h_234

Hadoop 的 MapReduce 到底有什么问题?

用户头像
hanke3 小时前

作为Hadoop里重要的分布式计算组件MapReduce到底存在什么样的问题,大家纷纷都转投其他技术栈?我们来一起探个究竟。本文会先详细解析一下整个MapReduce的过程,编程方式,然后再去分析一下存在的问题和其中可以借鉴的点。

HDFS SHELL 详解(7)

用户头像
罗小龙17 小时前

HDFS SHELL 总共有 39 条指令,本系列将逐步介绍每个指令的功能、选项含义及示例。

https://static001.geekbang.org/infoq/71/715fcfe8f759239850381ae4a6d4d670.jpeg?x-oss-process=image/resize,w_416,h_234

HDFS SHELL 详解(6)

用户头像
罗小龙1 月 13 日

HDFS SHELL 总共有 39 条指令,本系列将逐步介绍每个指令的功能、选项含义及示例。

技术干货!HDFS 读写原理和代码简单实现

摘要:本文主要研究了HDFS文件系统的读写流程以及基于MRS在windows客户端下读写HDFS文件的实现。

https://static001.geekbang.org/infoq/71/715fcfe8f759239850381ae4a6d4d670.jpeg?x-oss-process=image/resize,w_416,h_234

HDFS SHELL 详解(5)

用户头像
罗小龙1 月 12 日

HDFS SHELL 总共有 39 条指令,本系列将逐步介绍每个指令的功能、选项含义及示例。

https://static001.geekbang.org/infoq/71/715fcfe8f759239850381ae4a6d4d670.jpeg?x-oss-process=image/resize,w_416,h_234

HDFS SHELL 详解(4)

用户头像
罗小龙1 月 11 日

HDFS SHELL 总共有 39 条指令,本系列将逐步介绍每个指令的功能、选项含义及示例。

https://static001.geekbang.org/infoq/16/1625de768c185aca4e60ba5927afc43b.jpeg?x-oss-process=image/resize,w_416,h_234

Hadoop 安装配置

用户头像
小马哥1 月 10 日

大数据专栏系列文章: 本章介绍 hadoop 的环境安装

https://static001.geekbang.org/infoq/71/715fcfe8f759239850381ae4a6d4d670.jpeg?x-oss-process=image/resize,w_416,h_234

HDFS SHELL 详解(3)

用户头像
罗小龙1 月 10 日

HDFS SHELL 总共有 39 条指令,本系列将逐步介绍每个指令的功能、选项含义及示例。

https://static001.geekbang.org/infoq/24/24849e3fcbb673eb1494f3a90b96da10.jpeg?x-oss-process=image/resize,w_416,h_234

大数据知识专栏 1-Hadoop 环境安装

用户头像
小马哥1 月 9 日

大数据专栏系列文章: 本章介绍hadoop的环境安装

https://static001.geekbang.org/infoq/71/715fcfe8f759239850381ae4a6d4d670.jpeg?x-oss-process=image/resize,w_416,h_234

HDFS SHELL 详解(2)

用户头像
罗小龙1 月 9 日

HDFS SHELL 总共有 39 条指令,本系列将逐步介绍每个指令的功能、选项含义及示例。

https://static001.geekbang.org/infoq/34/34832e20a1d04071578cd97ead9010d6.jpeg?x-oss-process=image/resize,w_416,h_234

Flink 自定义 Avro 序列化 (Source/Sink) 到 kafka 中

用户头像
大数据老哥1 月 9 日

最近一直在研究如果提高kafka中读取效率,之前一直使用字符串的方式将数据写入到kafka中。当数据将特别大的时候发现效率不是很好,偶然之间接触到了Avro序列化,发现kafka也是支持Avro的方式于是就有了本篇文章。

https://static001.geekbang.org/infoq/71/715fcfe8f759239850381ae4a6d4d670.jpeg?x-oss-process=image/resize,w_416,h_234

HDFS SHELL 详解 (1)

用户头像
罗小龙1 月 8 日

HDFS SHELL总共有39条指令,本系列将逐步介绍每个指令的功能、选项含义及示例。

https://static001.geekbang.org/infoq/e1/e1e1713fb52c1ad7990123b8403ea677.jpeg?x-oss-process=image/resize,w_416,h_234

Hive 的调优你都知道那些?

用户头像
大数据老哥1 月 8 日

我们在工作中还是在学习中有都会遇到我们写的HQL语句执行效率不高,那我们该怎么提高查询效率那,这篇文章就带你从不同维度讲解,让你的HQL瞬间提高一个档次。记得收藏

https://static001.geekbang.org/infoq/77/772f95c083c8ed17db69e6d507b081c4.jpeg?x-oss-process=image/resize,w_416,h_234

一文教你学会 Hive 视图和索引

用户头像
大数据老哥1 月 6 日

我们在写HQL有没有遇到过数据量特别大的时候比如,使用HQL 处理起来非常复杂,非常慢,这时候我们可以使用Hive给加个索引来提高我们的速度。点赞 点赞 点赞

https://static001.geekbang.org/infoq/f0/f0903b5eb90cf27641542b212eca993c.png?x-oss-process=image/resize,w_416,h_234

建立大数据技术体系学习的新思维

用户头像
守护石论数据2020 年 12 月 26 日

我们真正需要的是一种有生命力的思维逻辑,形成对大数据理念的理解、领会和贯通,需要在这种思维的引导下,就像手指捏住细线一样,小心翼翼将其中的道理串在一起。

https://static001.geekbang.org/infoq/bf/bf480e1054c377596823e436fb230738.png?x-oss-process=image/resize,w_416,h_234

深度探索 Hadoop 分布式文件系统(HDFS)数据读取流程

用户头像
守护石论数据2020 年 12 月 24 日

Hadoop分布式文件系统(HDFS)是Hadoop大数据生态最底层的数据存储设施。因其具备了海量数据分布式存储能力,针对不同批处理业务的大吞吐数据计算承载力,使其综合复杂度要远远高于其他数据存储系统。

https://static001.geekbang.org/infoq/c8/c8985280042d0d64d6ad98006bb79b1c.jpeg?x-oss-process=image/resize,w_416,h_234

分布式文件系统(Hadoop HDFS)客户端写入机制

用户头像
守护石论数据2020 年 12 月 22 日

Hadoop分布式文件系统(HDFS)是Hadoop大数据生态底层的数据存储设施。因其具备了海量数据的分布式存储能力,并针对不同批处理业务的大吞吐数据计算承载力,使其综合复杂度要远远高于大多数存储系统。

https://static001.geekbang.org/infoq/3e/3e283810b52bfe322116ea70d55c07ed.jpeg?x-oss-process=image/resize,w_416,h_234

本文将大数据学习门槛降到了地平线

用户头像
MySQL从删库到跑路2020 年 10 月 29 日

Hadoop-大数据开源世界的亚当夏娃。

深度对比 Apache CarbonData、Hudi 和 Open Delta 三大开源数据湖方案

用户头像
华为云开发者社区2020 年 10 月 29 日

摘要:今天我们就来解构数据湖的核心需求,同时深度对比Apache CarbonData、Hudi和Open Delta三大解决方案,帮助用户更好地针对自身场景来做数据湖方案选型。

https://static001.geekbang.org/infoq/91/918589b90f9e80c285c34fa2a3dcfafe.png?x-oss-process=image/resize,w_416,h_234

MapReduce 简介及过程详解

用户头像
犟马骝2020 年 10 月 20 日

MapReduce是面向大数据并行处理的计算模型、框架和平台,对于大数据开发或者想要接触大数据开发的开发者来说,是必须要掌握的,它是一种经典大数据计算框架,现在有很多开源项目的内部实现都会直接或间接地借鉴了MR过程的实现。Hadoop中的MapReduce 是一个离

Hadoop 简介

用户头像
yuanhang2020 年 9 月 10 日

Hadoop 简介

极客大学架构师训练营 大数据 GFS、MapReduce、BigTable,Hadoop HDFS Yarn Hive 第 12 次作业

用户头像
John(易筋)2020 年 9 月 2 日

笔者在一家成立于1885年的全球性跨国银行,用大数据处理的业务包括:分析出洗黑钱的用户,根据用户的存款和消费数据给用户信用评分,贷款的时候给出相应额度。

https://static001.geekbang.org/infoq/30/3095f314acb159be69993c1645db7f6c.png?x-oss-process=image/resize,w_416,h_234

大数据技术思想入门 (五):分布式计算特点

用户头像
抖码算法2020 年 8 月 26 日

在单台机器上进行计算理解起来很简单,但是如果是基于分布式存储分布式计算理解起来实际上也不难,这篇文章带你理解怎么样对分布式文件进行计算

3.7 亿条保单数据怎么分析?这个大数据平台有绝招

用户头像
华为云开发者社区2020 年 8 月 25 日

受到新冠疫情影响,全球经济面临冲击,国内经济已进入复工复产有序发展的新常态阶段,企业想要实现持续增长需另寻突破点,越来越多的企业把视线转向了企业内部,希望通过推进精细化管理来实现降本增效。

https://static001.geekbang.org/infoq/80/80431977c6a2ea495b1be7127dcb3e2b.png?x-oss-process=image/resize,w_416,h_234

大数据技术思想入门 (四):分布式文件的元数据是怎么存储的

用户头像
抖码算法2020 年 8 月 25 日

分布式存储集群中的主节点存储的是元数据信息,那么这个元数据到底是存储在主节点的内存还是主节点的磁盘呢?原因又是什么呢?这篇文章带你掌握主节点中的元数据是怎么存储的

https://static001.geekbang.org/infoq/80/80431977c6a2ea495b1be7127dcb3e2b.png?x-oss-process=image/resize,w_416,h_234

大数据技术思想入门 (三):分布式文件存储的流程

用户头像
抖码算法2020 年 8 月 24 日

相对于单机版本的文件的读写,分布式文件的读写还是稍微的复杂点的,这篇文章就带你掌握分布式文件读写的原理

https://static001.geekbang.org/infoq/b3/b31ef99194a2498ff4edbd5e2028bb9e.png?x-oss-process=image/resize,w_416,h_234

大数据技术思想入门 (二):分布式存储集群特点

用户头像
抖码算法2020 年 8 月 22 日

要解决分布式存储的问题,可以采用主从结构的分布式架构,那么主节点存储什么呢?从节点又存储什么呢?这篇文章带你掌握分布式存储集群的特点

hadoop_hadoop资料文章-InfoQ写作平台