hdfs
0 人感兴趣 · 71 次引用
- 最新
- 推荐
深入理解 HDFS(四):Socket
当 HDFS 集群启动时,Datanode 如何向 Namenode 进行注册? 当 HDFS 集群运行时,Namenode 如何收集汇总所有的 Block 信息?又通过什么方式·监听 Datanode 心跳?主动还是被动?
深入理解 HDFS(三):HRPC
TCP/IP 是一种面向连接的、可靠的、基于字节流的传输层通信协议,Hadoop RPC 通信协议是建立在 TCP/IP 协议之上,自己实现的一套 RPC 协议。那 Hadoop RPC 是如何从设计到实现的呢?
深入理解 HDFS(二):Replica
对于我们上传的文件,HDFS会复制多份,主要是为了降低数据丢失的风险,复制文件背后是复制 block,block 最终会存储在 datanode 中,那么在该过程中 namenode 参考了哪些因素选择的 datanode?内部处理流程又是如何?一起来分析。
深入探究 HDFS:高可靠、高可扩展、高吞吐量的分布式文件系统【上进小菜猪大数据系列】
上进小菜猪,沈工大软件工程专业,爱好敲代码,持续输出干货。
分布式存储技术(上):HDFS 与 Ceph 的架构原理、特性、优缺点解析
面对企业级数据量,单机容量太小,无法存储海量的数据,这时候就需要用到多台机器存储,并统一管理分布在集群上的文件,这样就形成了分布式文件系统。
大数据 Hadoop 之——HDFS 小文件问题与处理实战操作
每个文件均按块存储,每个块的元数据存储在NameNode的内存中,因此HDFS存储小文件会非常低效。因为大量的小文件会耗尽NameNode中的大部分内存。但注意,存储小文件所需要的磁盘容量和数据块的大小无关。每个块的大小可以通过配置参数(dfs.blocksize)来规定
10 分钟为你全面解答 HDFS 的 SecondaryNamenode 的作用
在HDFS相关的守护进程中,有NameNode进程、DataNode进程、SecondaryNameNode进程等。NameNode和DataNode职责比较明确,我们都知道是做什么的,那么SecondaryNameNode的作用是什么呢?为什么SecondayNameNode要和NameNode部署在不同的节点上呢?有人说Seconda
完全解析分布式存储,带你了解 HDFS 的块
在大数据的学习过程中,我们经常会听到“分布式”这三个字,那个所谓的“分布式”到底是什么意思?我们看到一些古装电视剧电影,在古代,生产力比较低下,没有现在的各种便捷的交通工具。
漫游 Hadoop(一):NameNode 公平队列
HDFS NameNode是Hadoop最重要的模块,负责文件系统命名空间管理的同时,还需要处理来自所有客户端的RPC读写请求,通常负载严重,为了防止单用户批量请求导致其他用户服务质量下降,NameNode通过Fair Call Queue机制来保证不同用户请求被处理的公平性,该机制
HDFS 细粒度锁优化,FusionInsight MRS 有妙招
华为云FusionInsight MRS通过FGL对HDFS NameNode锁机制进行优化,有效提升了NameNode的读写吞吐量,从而能够支持更多数据,更多业务请求访问,从而更好的支撑政企客户高效用数,业务洞见更准,价值兑现更快。
vivo 万台规模 HDFS 集群升级 HDFS 3.x 实践
文章介绍如何将CDH 5.14.4 HDFS 2.6.0 滚动升级到HDP-3.1.4.0-315 HDFS 3.1.1版本,是业界为数不多的从CDH集群滚动升级到HDP集群的案例。
HDFS 小文件分析实践
本篇文章从小文件过多造成的影响展开,详细介绍了HDFS中元数据fsimage获取方式,分析元数据的数据库选型,以及小文件分析的全过程实践。
Ranger 对 HDFS 权限管理探索与实践
Apache Ranger是一个Hadoop集群数据安全管理的框架,提供集中式的授权管理及日志审计。它可以对Hadoop生态的组件如HDFS、Yarn、Hive、HBase、Kafka、Storm、Presto、Kylin等进行细粒度的数据访问控制。通过操作Ranger Admin控制台,管理员可以轻松地通过配置
紧急扩散!HDFS3.X 系列的 EC 纠删码策略有个安全隐患 HDFS-16420,极端情况下会造成数据丢失!
HDFS3.X 的 EC 纠删码功能,近期被发现有个 BUG:该 BUG 会导致,以纠删码机制存放的目录和文件,在某些特殊情况下,会被系统误删,从而造成数据丢失。
深入剖析 HDFS 3.x 新特性 - 纠删码
HDFS是一个高吞吐、高容错的分布式文件系统,但是HDFS在保证高容错的同时也带来了高昂的存储成本,比如有5T的数据存储在HDFS上,按照HDFS的默认3副本机制,将会占用15T的存储空间。那么有没有一种能达到和副本机制相同的容错能力但是能大幅度降低存储成本的机
详解 HDFS 底层交互原理
在 HDFS 1.X 时,NameNode 是 HDFS 集群中可能发生单点故障的节点,集群中只有一个 NameNode,一旦 NameNode 宕机,整个集群将处于不可用的状态。在 HDFS 2.X 时,HDFS 提出了高可用(High Availability, HA)的方案,解决了 HDFS 1.X 时的单点问题。在一个 HA
HDFS 源码解析:教你用 HDFS 客户端写数据
摘要:终于开始了这个很感兴趣但是一直觉得困难重重的源码解析工作,也算是一个好的开端。
ClickHouse 存算分离架构探索
ClickHouse 作为开源 OLAP 引擎,因其出色的性能表现在大数据生态中得到了广泛的应用。区别于 Hadoop 生态组件通常依赖 HDFS 作为底层的数据存储,ClickHouse 使用本地盘来自己管理数据,官方推荐使用 SSD 作为存储介质来提升性能。但受限于本地盘的容量上限
HDFS(Hadoop 分布式文件系统)
HDFS(Hadoop Distributed File System) 负责海量数据的存储,是一个高度容错性系统,能检测和应对硬件故障。主要角色有NameNode, DataNode, SecondaryNameNode. HDFS采用 master/slave 架构,一个HDFS由一个NameNode和一定数目的DataNodes组成。