写点什么

hdfs

0 人感兴趣 · 71 次引用

  • 最新
  • 推荐
https://static001.geekbang.org/infoq/5e/5e8b78a8486199cce481fa8adb906bcc.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

深入理解 HDFS(四):Socket

当 HDFS 集群启动时,Datanode 如何向 Namenode 进行注册? 当 HDFS 集群运行时,Namenode 如何收集汇总所有的 Block 信息?又通过什么方式·监听 Datanode 心跳?主动还是被动?

https://static001.geekbang.org/infoq/6a/6aad76e08ffbeea4fcc192158e284452.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

深入理解 HDFS(三):HRPC

TCP/IP 是一种面向连接的、可靠的、基于字节流的传输层通信协议,Hadoop RPC 通信协议是建立在 TCP/IP 协议之上,自己实现的一套 RPC 协议。那 Hadoop RPC 是如何从设计到实现的呢?

https://static001.geekbang.org/infoq/17/170a55dd07399f6a1977a59991b3c6ae.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

深入理解 HDFS(二):Replica

对于我们上传的文件,HDFS会复制多份,主要是为了降低数据丢失的风险,复制文件背后是复制 block,block 最终会存储在 datanode 中,那么在该过程中 namenode 参考了哪些因素选择的 datanode?内部处理流程又是如何?一起来分析。

https://static001.geekbang.org/infoq/14/1464e810b7fda2b3455d69ed3e06cd42.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

深入理解 HDFS(一):Block

HDFS 使用类似 Linux 文件目录结构来抽象表示存储的数据结构,使用 INode 来表示目录或文件,而 Block 是 HDFS 存储数据的基本单元。

分布式存储技术(上):HDFS 与 Ceph 的架构原理、特性、优缺点解析

面对企业级数据量,单机容量太小,无法存储海量的数据,这时候就需要用到多台机器存储,并统一管理分布在集群上的文件,这样就形成了分布式文件系统。

大数据 Hadoop 之——HDFS 小文件问题与处理实战操作

每个文件均按块存储,每个块的元数据存储在NameNode的内存中,因此HDFS存储小文件会非常低效。因为大量的小文件会耗尽NameNode中的大部分内存。但注意,存储小文件所需要的磁盘容量和数据块的大小无关。每个块的大小可以通过配置参数(dfs.blocksize)来规定

10 分钟为你全面解答 HDFS 的 SecondaryNamenode 的作用

在HDFS相关的守护进程中,有NameNode进程、DataNode进程、SecondaryNameNode进程等。NameNode和DataNode职责比较明确,我们都知道是做什么的,那么SecondaryNameNode的作用是什么呢?为什么SecondayNameNode要和NameNode部署在不同的节点上呢?有人说Seconda

完全解析分布式存储,带你了解 HDFS 的块

​​ 在大数据的学习过程中,我们经常会听到“分布式”这三个字,那个所谓的“分布式”到底是什么意思?我们看到一些古装电视剧电影,在古代,生产力比较低下,没有现在的各种便捷的交通工具。

一篇文章彻底理解 HDFS 的安全模式

一篇文章彻底理解 HDFS 的安全模式

https://static001.geekbang.org/infoq/87/87365255506453797711345a853ea3d3.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

漫游 Hadoop(一):NameNode 公平队列

用户头像
冰心的小屋
2022-11-09

HDFS NameNode是Hadoop最重要的模块,负责文件系统命名空间管理的同时,还需要处理来自所有客户端的RPC读写请求,通常负载严重,为了防止单用户批量请求导致其他用户服务质量下降,NameNode通过Fair Call Queue机制来保证不同用户请求被处理的公平性,该机制

大数据生态安全框架的实现原理与最佳实践(下篇)

- 大数据生态安全框架概述 - HDFS 认证详解 - HDFS 授权详解 - HIVE 认证详解 - HIVE 授权详解 - 金融行业大数据安全最佳实践

HADOOP 学习笔记之 HDFS

用户头像
simba1949
2022-08-11

Hadoop Distributed File System,简称 HDFS,是一个分布式文件系统;

HDFS 用了这个优化后,性能直接翻倍

用户头像
hncscwc
2022-06-16

前段时间在HDFS的dn节点规模1000+的环境中,并且有1亿block数据量的情况下, 进行大量并发写文件测试时,发现部分客户端写异常并导致最终仅写入了部分数据,本文就该问题进行分析总结。

HDFS 细粒度锁优化,FusionInsight MRS 有妙招

华为云FusionInsight MRS通过FGL对HDFS NameNode锁机制进行优化,有效提升了NameNode的读写吞吐量,从而能够支持更多数据,更多业务请求访问,从而更好的支撑政企客户高效用数,业务洞见更准,价值兑现更快。

vivo 万台规模 HDFS 集群升级 HDFS 3.x 实践

文章介绍如何将CDH 5.14.4 HDFS 2.6.0 滚动升级到HDP-3.1.4.0-315 HDFS 3.1.1版本,是业界为数不多的从CDH集群滚动升级到HDP集群的案例。

HDFS 小文件分析实践

本篇文章从小文件过多造成的影响展开,详细介绍了HDFS中元数据fsimage获取方式,分析元数据的数据库选型,以及小文件分析的全过程实践。

Ranger 对 HDFS 权限管理探索与实践

Apache Ranger是一个Hadoop集群数据安全管理的框架,提供集中式的授权管理及日志审计。它可以对Hadoop生态的组件如HDFS、Yarn、Hive、HBase、Kafka、Storm、Presto、Kylin等进行细粒度的数据访问控制。通过操作Ranger Admin控制台,管理员可以轻松地通过配置

都 2022 年了,HDFS 为何还如此能战

HDFS也许不是最好的大数据存储技术,但依然是最重要的大数据存储技术。

紧急扩散!HDFS3.X 系列的 EC 纠删码策略有个安全隐患 HDFS-16420,极端情况下会造成数据丢失!

HDFS3.X 的 EC 纠删码功能,近期被发现有个 BUG:该 BUG 会导致,以纠删码机制存放的目录和文件,在某些特殊情况下,会被系统误删,从而造成数据丢失。

深入剖析 HDFS 3.x 新特性 - 纠删码

HDFS是一个高吞吐、高容错的分布式文件系统,但是HDFS在保证高容错的同时也带来了高昂的存储成本,比如有5T的数据存储在HDFS上,按照HDFS的默认3副本机制,将会占用15T的存储空间。那么有没有一种能达到和副本机制相同的容错能力但是能大幅度降低存储成本的机

详解 HDFS 底层交互原理

在 HDFS 1.X 时,NameNode 是 HDFS 集群中可能发生单点故障的节点,集群中只有一个 NameNode,一旦 NameNode 宕机,整个集群将处于不可用的状态。在 HDFS 2.X 时,HDFS 提出了高可用(High Availability, HA)的方案,解决了 HDFS 1.X 时的单点问题。在一个 HA

Hadoop 中 mapreduce 作业日志是如何生成的

摘要:本篇博客介绍了hadoop中mapreduce类型的作业日志是如何生成的。主要介绍日志生成的几个关键过程,不涉及过多细节性的内容。

HDFS 源码解析:教你用 HDFS 客户端写数据

摘要:终于开始了这个很感兴趣但是一直觉得困难重重的源码解析工作,也算是一个好的开端。

Hadoop 学习过程中遇到的错误及解决方法

用户头像
阿丞
2021-12-28

在自己学习搭建并使用Hadoop集群的时候,遇到的一些错误及解决方法。

ClickHouse 存算分离架构探索

用户头像
Juicedata
2021-12-27

ClickHouse 作为开源 OLAP 引擎,因其出色的性能表现在大数据生态中得到了广泛的应用。区别于 Hadoop 生态组件通常依赖 HDFS 作为底层的数据存储,ClickHouse 使用本地盘来自己管理数据,官方推荐使用 SSD 作为存储介质来提升性能。但受限于本地盘的容量上限

常见开源分布式文件系统架构对比

用户头像
Juicedata
2021-12-24

文件系统是计算机中一个非常重要的组件,为存储设备提供一致的访问和管理方式。在不同的操作系统中,文件系统会有一些差别,但也有一些共性几十年都没怎么变化。

HDFS(Hadoop 分布式文件系统)

用户头像
编程江湖
2021-12-24

HDFS(Hadoop Distributed File System) 负责海量数据的存储,是一个高度容错性系统,能检测和应对硬件故障。主要角色有NameNode, DataNode, SecondaryNameNode. HDFS采用 master/slave 架构,一个HDFS由一个NameNode和一定数目的DataNodes组成。

想要面试大数据工作的 50 道必看题

​​摘要:是否对面试官在Hadoop 面试中可能会问的所有问题感到不知所措?现在是时候通过一系列涵盖 Hadoop 框架不同方面的 Hadoop 面试问题了。

hdfs_hdfs技术文章_InfoQ写作社区