写点什么

hdfs

0 人感兴趣 · 37 次引用

  • 最新
  • 推荐
https://static001.geekbang.org/infoq/81/81fa606a95b564035e37b5ebb88a45aa.jpeg?x-oss-process=image/resize,w_416,h_234

This BigData,Hadoop 组成及生态

用户头像
Simon郎5 月 21 日

随着科技的发展,我们在网上留下的数据越来越多,大到网上购物、商品交易,小到浏览网页、微信聊天、手机自动记录日常行程等,可以说,在如今的生活里,只要你还在,你就会每时每刻产生数据,但是这些数据能称为大数据么?不,这些还不能称为大数据。那么大数

https://static001.geekbang.org/infoq/29/2942095ecc9aefda5e10f385e171ddcd.jpeg?x-oss-process=image/resize,w_416,h_234

HDFS 的 HA 以及 Yarn 的 HA 高可用

​ HA(High Available), 高可用,是保证业务连续性的有效解决方案,一般有两个或两个以上的节点,分为活动节点(Active)及备用节点(Standby)。通常把正在执行业务的称为活动节点,而作为活动节点的一个备份的则称为备用节点。当活动节点出现问题,导致正在

hdfs 的集群间拷贝、归档、回收站等功能剖析

在我们实际工作当中,极有可能会遇到将测试集群的数据拷贝到生产环境集群,或者将生产环境集群的数据拷贝到测试集群,那么就需要我们在多个集群之间进行数据的远程拷贝,hadoop自带也有命令可以帮我们实现这个功能

HDFS 的 Java API

在 Java 中操作 HDFS, 主要涉及以下 Class:

HDFS NameNode 中的 FSImage 与 edits 详解

所有的元数据信息都保存在了FsImage与Eidts文件当中,这两个文件就记录了所有的数据的元数据信息,元数据信息的保存目录配置在了hdfs-site.xml当中

hdfs 中抽象为 block 块的好处

hdfs将所有的文件全部抽象成为block块来进行存储,不管文件大小,全部一视同仁都是以block块的统一大小和形式进行存储,方便我们的分布式文件系统对文件的管理

https://static001.geekbang.org/infoq/29/2942095ecc9aefda5e10f385e171ddcd.jpeg?x-oss-process=image/resize,w_416,h_234

HDFS 的动态扩容及动态缩容

​ 随着公司业务的增长,数据量越来越大,原有的datanode节点的容量已经不能满足存储数据的需求,需要在原有集群基础上动态添加新的数据节点。也就是俗称的动态扩容。

https://static001.geekbang.org/infoq/6e/6e8380454de5fbb178ef8212d99cd54d.jpeg?x-oss-process=image/resize,w_416,h_234

HDFS 的 block 块和副本机制

hdfs将所有的文件全部抽象成为block块来进行存储,不管文件大小,全部一视同仁都是以block块的统一大小和形式进行存储,方便我们的分布式文件系统对文件的管理

https://static001.geekbang.org/infoq/6d/6debbb36e9760819a9d489c526511e31.png?x-oss-process=image/resize,w_416,h_234

Hadoop 核心 -HDFS 的 API 详解

在windows系统需要配置hadoop运行环境,否则直接运行代码会出现以下问题:

https://static001.geekbang.org/infoq/1b/1b3f61b785e982a54452e06e1ea45cc1.jpeg?x-oss-process=image/resize,w_416,h_234

纯干货 | 详解 HDFS 3.x 新特性 - 纠删码

HDFS是一个高吞吐、高容错的分布式文件系统,但是HDFS在保证高容错的同时也带来了高昂的存储成本,比如有5T的数据存储在HDFS上,按照HDFS的默认3副本机制,将会占用15T的存储空间。那么有没有一种能达到和副本机制相同的容错能力但是能大幅度降低存储成本的机

https://static001.geekbang.org/infoq/fc/fc248a578c72e8ec2183de56150983d6.jpeg?x-oss-process=image/resize,w_416,h_234

Hadoop 之 HDFS 内部机制知多少?

用户头像
hanke1 月 26 日

探寻Hadoop里另外一个重要组件HDFS的架构和高可用相关机制

https://static001.geekbang.org/infoq/71/715fcfe8f759239850381ae4a6d4d670.jpeg?x-oss-process=image/resize,w_416,h_234

HDFS 杂谈:DFSAdmin Report 解读

用户头像
罗小龙1 月 21 日

在DFS管理员指令中,有一条report指令可以实时查看集群的运营情况

https://static001.geekbang.org/infoq/1a/1ade4bb8582c34fb9a26d4ef885df1c6.png?x-oss-process=image/resize,w_416,h_234

HDFS 中的常用压缩算法及区别

用户头像
王知无1 月 20 日

首先我们要明确一点,为什么要进行数据压缩?

https://static001.geekbang.org/infoq/71/715fcfe8f759239850381ae4a6d4d670.jpeg?x-oss-process=image/resize,w_416,h_234

HDFS 杂谈:数据读写原理

用户头像
罗小龙1 月 19 日

文件系统的核心流程是数据的存储与访问流程。本文将详细介绍HDFS client读写数据的原理及流程。

https://static001.geekbang.org/infoq/71/715fcfe8f759239850381ae4a6d4d670.jpeg?x-oss-process=image/resize,w_416,h_234

HDFS 杂谈:SnapShot 快照

用户头像
罗小龙1 月 18 日

HDFS数据备份及恢复手段:snapshot(快照)功能

https://static001.geekbang.org/infoq/71/715fcfe8f759239850381ae4a6d4d670.jpeg?x-oss-process=image/resize,w_416,h_234

HDFS 杂谈:Xattrs 扩展属性

用户头像
罗小龙1 月 17 日

HDFS xattrs来源于linux xattrs,属于HDFS对象自定义的元数据信息

https://static001.geekbang.org/infoq/1a/1ade4bb8582c34fb9a26d4ef885df1c6.png?x-oss-process=image/resize,w_416,h_234

HDFS 中的常用压缩算法及区别

用户头像
王知无1 月 17 日

首先我们要明确一点,为什么要进行数据压缩?

https://static001.geekbang.org/infoq/71/715fcfe8f759239850381ae4a6d4d670.jpeg?x-oss-process=image/resize,w_416,h_234

HDFS 杂谈:ACL 访问控制列表

用户头像
罗小龙1 月 16 日

HDFS ACL功能灵感来源于Linux ACL,可以在原有的权限控制模式额外对特定的用户或用户组添加权限

https://static001.geekbang.org/infoq/88/882aded58ff48e1528f1f53d51831751.jpeg?x-oss-process=image/resize,w_416,h_234

详解 HDFS3.x 新特性 - 纠删码

Erasure Coding 简称EC,中文名:纠删码

技术干货!HDFS 读写原理和代码简单实现

摘要:本文主要研究了HDFS文件系统的读写流程以及基于MRS在windows客户端下读写HDFS文件的实现。

Spark 扫描 HDFS lzo/gz/orc 异常压缩文件

用户头像
笨小康1 月 8 日

考虑到 Hadoop 3.0.0 的新特性 EC 码,我们将 Hadoop 2.6.0 集群的数据冷备到 Hadoop 3.0.0,来缓解 HDFS 存储的压力,但在冷备操作进行了一段时间后,用户反馈数据读取存在异常,由于文件暂时不可恢复,需要把异常文件给排查出来。

Spark HistoryServer 日志解析 & 清理异常

用户头像
笨小康1 月 8 日

线上集群在使用 Spark HistoryServer 出现过两类问题,一类问题是日志解析异常导致无法查看 Spark 作业执行记录,另一类问题是日志清理异常导致 Spark 作业写 HDFS 目录达到上限无法提交作业,针对这两类问题,我们对 Spark HistoryServer 源码展开了研究。

https://static001.geekbang.org/infoq/74/74855cd85f573c258518005f92eb14ca.jpeg?x-oss-process=image/resize,w_416,h_234

Hadoop 编程实战:HDFS API 编程

用户头像
罗小龙2020 年 12 月 27 日

前言:Hadoop分布式计算平台不等同大数据。大数据是当前时代数据爆炸的一种表征,Hadoop是通过生态圈内的分布式工具,凝聚计算机集群的算力,对大数据进行计算的一个平台。

https://static001.geekbang.org/infoq/bf/bf480e1054c377596823e436fb230738.png?x-oss-process=image/resize,w_416,h_234

深度探索 Hadoop 分布式文件系统(HDFS)数据读取流程

用户头像
读字节2020 年 12 月 24 日

Hadoop分布式文件系统(HDFS)是Hadoop大数据生态最底层的数据存储设施。因其具备了海量数据分布式存储能力,针对不同批处理业务的大吞吐数据计算承载力,使其综合复杂度要远远高于其他数据存储系统。

https://static001.geekbang.org/infoq/e2/e255c2666f2d4e2702132d81e9c562b7.jpeg?x-oss-process=image/resize,w_416,h_234

环球易购数据平台如何做到既提速又省钱?

用户头像
苏锐2020 年 11 月 5 日

本文详细分析了环球易购数据平台在上云之后,在没有任何性能损失的前提下,借助 JuiceFS 降低存储 TCO 90%,同时实现数据平台存储计算分离的架构调整,为下一步实现计算弹性伸缩做好准备......

https://static001.geekbang.org/infoq/3e/3e283810b52bfe322116ea70d55c07ed.jpeg?x-oss-process=image/resize,w_416,h_234

本文将大数据学习门槛降到了地平线

用户头像
MySQL从删库到跑路2020 年 10 月 29 日

Hadoop-大数据开源世界的亚当夏娃。

https://static001.geekbang.org/infoq/39/3936b9caa775a175bb843e9e99510807.jpeg?x-oss-process=image/resize,w_416,h_234

大数据简介 & 架构 (一)

用户头像
dony.zhang2020 年 9 月 2 日

随着近年来,信息技术迅猛发展,通过各种终端设备收集大量的用户信息、操作行为等日志,数据的来源和数量正以前所未有的速度增长。对这些数据进行分析、挖掘、机器学习,实现个性化营销、智能推荐等应用,为公司挖掘更多的商业价值,为用户带来更好的体验。

hdfs_hdfs资料文章-InfoQ写作平台