写点什么

hdfs

0 人感兴趣 · 30 次引用

  • 最新
  • 推荐
https://static001.geekbang.org/infoq/6e/6e8380454de5fbb178ef8212d99cd54d.jpeg?x-oss-process=image/resize,w_416,h_234

HDFS 的 block 块和副本机制

hdfs将所有的文件全部抽象成为block块来进行存储,不管文件大小,全部一视同仁都是以block块的统一大小和形式进行存储,方便我们的分布式文件系统对文件的管理

https://static001.geekbang.org/infoq/6d/6debbb36e9760819a9d489c526511e31.png?x-oss-process=image/resize,w_416,h_234

Hadoop 核心 -HDFS 的 API 详解

在windows系统需要配置hadoop运行环境,否则直接运行代码会出现以下问题:

https://static001.geekbang.org/infoq/1b/1b3f61b785e982a54452e06e1ea45cc1.jpeg?x-oss-process=image/resize,w_416,h_234

纯干货 | 详解 HDFS 3.x 新特性 - 纠删码

HDFS是一个高吞吐、高容错的分布式文件系统,但是HDFS在保证高容错的同时也带来了高昂的存储成本,比如有5T的数据存储在HDFS上,按照HDFS的默认3副本机制,将会占用15T的存储空间。那么有没有一种能达到和副本机制相同的容错能力但是能大幅度降低存储成本的机

https://static001.geekbang.org/infoq/fc/fc248a578c72e8ec2183de56150983d6.jpeg?x-oss-process=image/resize,w_416,h_234

Hadoop 之 HDFS 内部机制知多少?

用户头像
hanke1 月 26 日

探寻Hadoop里另外一个重要组件HDFS的架构和高可用相关机制

https://static001.geekbang.org/infoq/71/715fcfe8f759239850381ae4a6d4d670.jpeg?x-oss-process=image/resize,w_416,h_234

HDFS 杂谈:DFSAdmin Report 解读

用户头像
罗小龙1 月 21 日

在DFS管理员指令中,有一条report指令可以实时查看集群的运营情况

https://static001.geekbang.org/infoq/1a/1ade4bb8582c34fb9a26d4ef885df1c6.png?x-oss-process=image/resize,w_416,h_234

HDFS 中的常用压缩算法及区别

用户头像
王知无1 月 20 日

首先我们要明确一点,为什么要进行数据压缩?

https://static001.geekbang.org/infoq/71/715fcfe8f759239850381ae4a6d4d670.jpeg?x-oss-process=image/resize,w_416,h_234

HDFS 杂谈:数据读写原理

用户头像
罗小龙1 月 19 日

文件系统的核心流程是数据的存储与访问流程。本文将详细介绍HDFS client读写数据的原理及流程。

https://static001.geekbang.org/infoq/71/715fcfe8f759239850381ae4a6d4d670.jpeg?x-oss-process=image/resize,w_416,h_234

HDFS 杂谈:SnapShot 快照

用户头像
罗小龙1 月 18 日

HDFS数据备份及恢复手段:snapshot(快照)功能

https://static001.geekbang.org/infoq/71/715fcfe8f759239850381ae4a6d4d670.jpeg?x-oss-process=image/resize,w_416,h_234

HDFS 杂谈:Xattrs 扩展属性

用户头像
罗小龙1 月 17 日

HDFS xattrs来源于linux xattrs,属于HDFS对象自定义的元数据信息

https://static001.geekbang.org/infoq/1a/1ade4bb8582c34fb9a26d4ef885df1c6.png?x-oss-process=image/resize,w_416,h_234

HDFS 中的常用压缩算法及区别

用户头像
王知无1 月 17 日

首先我们要明确一点,为什么要进行数据压缩?

https://static001.geekbang.org/infoq/71/715fcfe8f759239850381ae4a6d4d670.jpeg?x-oss-process=image/resize,w_416,h_234

HDFS 杂谈:ACL 访问控制列表

用户头像
罗小龙1 月 16 日

HDFS ACL功能灵感来源于Linux ACL,可以在原有的权限控制模式额外对特定的用户或用户组添加权限

https://static001.geekbang.org/infoq/88/882aded58ff48e1528f1f53d51831751.jpeg?x-oss-process=image/resize,w_416,h_234

详解 HDFS3.x 新特性 - 纠删码

Erasure Coding 简称EC,中文名:纠删码

技术干货!HDFS 读写原理和代码简单实现

摘要:本文主要研究了HDFS文件系统的读写流程以及基于MRS在windows客户端下读写HDFS文件的实现。

Spark 扫描 HDFS lzo/gz/orc 异常压缩文件

用户头像
笨小康1 月 8 日

考虑到 Hadoop 3.0.0 的新特性 EC 码,我们将 Hadoop 2.6.0 集群的数据冷备到 Hadoop 3.0.0,来缓解 HDFS 存储的压力,但在冷备操作进行了一段时间后,用户反馈数据读取存在异常,由于文件暂时不可恢复,需要把异常文件给排查出来。

Spark HistoryServer 日志解析 & 清理异常

用户头像
笨小康1 月 8 日

线上集群在使用 Spark HistoryServer 出现过两类问题,一类问题是日志解析异常导致无法查看 Spark 作业执行记录,另一类问题是日志清理异常导致 Spark 作业写 HDFS 目录达到上限无法提交作业,针对这两类问题,我们对 Spark HistoryServer 源码展开了研究。

https://static001.geekbang.org/infoq/74/74855cd85f573c258518005f92eb14ca.jpeg?x-oss-process=image/resize,w_416,h_234

Hadoop 编程实战:HDFS API 编程

用户头像
罗小龙2020 年 12 月 27 日

前言:Hadoop分布式计算平台不等同大数据。大数据是当前时代数据爆炸的一种表征,Hadoop是通过生态圈内的分布式工具,凝聚计算机集群的算力,对大数据进行计算的一个平台。

https://static001.geekbang.org/infoq/bf/bf480e1054c377596823e436fb230738.png?x-oss-process=image/resize,w_416,h_234

深度探索 Hadoop 分布式文件系统(HDFS)数据读取流程

用户头像
读字节2020 年 12 月 24 日

Hadoop分布式文件系统(HDFS)是Hadoop大数据生态最底层的数据存储设施。因其具备了海量数据分布式存储能力,针对不同批处理业务的大吞吐数据计算承载力,使其综合复杂度要远远高于其他数据存储系统。

https://static001.geekbang.org/infoq/e2/e255c2666f2d4e2702132d81e9c562b7.jpeg?x-oss-process=image/resize,w_416,h_234

环球易购数据平台如何做到既提速又省钱?

用户头像
苏锐2020 年 11 月 5 日

本文详细分析了环球易购数据平台在上云之后,在没有任何性能损失的前提下,借助 JuiceFS 降低存储 TCO 90%,同时实现数据平台存储计算分离的架构调整,为下一步实现计算弹性伸缩做好准备......

https://static001.geekbang.org/infoq/3e/3e283810b52bfe322116ea70d55c07ed.jpeg?x-oss-process=image/resize,w_416,h_234

本文将大数据学习门槛降到了地平线

用户头像
MySQL从删库到跑路2020 年 10 月 29 日

Hadoop-大数据开源世界的亚当夏娃。

https://static001.geekbang.org/infoq/39/3936b9caa775a175bb843e9e99510807.jpeg?x-oss-process=image/resize,w_416,h_234

大数据简介 & 架构 (一)

用户头像
dony.zhang2020 年 9 月 2 日

随着近年来,信息技术迅猛发展,通过各种终端设备收集大量的用户信息、操作行为等日志,数据的来源和数量正以前所未有的速度增长。对这些数据进行分析、挖掘、机器学习,实现个性化营销、智能推荐等应用,为公司挖掘更多的商业价值,为用户带来更好的体验。

https://static001.geekbang.org/infoq/06/06b47a436abc1f36f4a3235727395f46.jpeg?x-oss-process=image/resize,w_416,h_234

第 8 周命题作业

用户头像
hifly2020 年 7 月 29 日

在HDFS系统中,当DataNode 服务器节点宕机的时候,HDFS如何处理的时序图

https://static001.geekbang.org/infoq/8f/8f16f5ff67721dc2d2cc25d38515d26a.jpeg?x-oss-process=image/resize,w_416,h_234

链表合并算法和 HDFS 工作流程

用户头像
拈香(曾德政)2020 年 7 月 28 日

有两个单项链表(链表长度分别为m,n),这两个链表可能在某个元素合并,如下图,也可能不合并。现在给出这两个链表的头指针,在不修改链表的情况快速判断两个链表是否合并,如果合并找出合并元素,并给出实现算法的时间复杂度和空间复杂度。

「架构师训练营」作业:第 8 周

用户头像
Amy2020 年 7 月 28 日

两个单向链表的第1个公共点 请画出 DataNode 服务器节点宕机的时候, HDFS的处理过程时序图

https://static001.geekbang.org/infoq/47/47bae64eed6cd41015226caea9014684.png?x-oss-process=image/resize,w_416,h_234

命令行一键启动 Hadoop 集群

用户头像
大数据学徒2020 年 7 月 18 日

不装虚拟机,不配环境变量,不写配置文件,命令行一键启动单机Hadoop集群

奈学教育分享:Hadoop 分布式系统 HDFS 工作原理

用户头像
奈学教育2020 年 5 月 22 日

Hadoop分布式文件系统(HDFS)是一种被设计成适合运行在通用硬件上的分布式文件系统。

https://static001.geekbang.org/infoq/27/2774ed9092d31ea4d4394671a511c8b7.png?x-oss-process=image/resize,w_416,h_234

Hadoop 集群搭建 -01 前期准备

用户头像
虚拟世界的懒猫2020 年 5 月 1 日

整个搭建hadoop集群的流程,包括 前期准备 安装zookeeper并配置环境 编译安装hadoop并启动 安装HDFS管理namenode和dataname管理集群硬盘资源 安装启动yarn建立MapReduce管理cpu和内存资源

hdfs_hdfs资料文章-InfoQ写作平台