写点什么

hdfs

0 人感兴趣 · 20 次引用

  • 最新
  • 推荐

技术干货!HDFS 读写原理和代码简单实现

摘要:本文主要研究了HDFS文件系统的读写流程以及基于MRS在windows客户端下读写HDFS文件的实现。

Spark 扫描 HDFS lzo/gz/orc 异常压缩文件

用户头像
笨小康1 月 8 日

考虑到 Hadoop 3.0.0 的新特性 EC 码,我们将 Hadoop 2.6.0 集群的数据冷备到 Hadoop 3.0.0,来缓解 HDFS 存储的压力,但在冷备操作进行了一段时间后,用户反馈数据读取存在异常,由于文件暂时不可恢复,需要把异常文件给排查出来。

Spark HistoryServer 日志解析 & 清理异常

用户头像
笨小康1 月 8 日

线上集群在使用 Spark HistoryServer 出现过两类问题,一类问题是日志解析异常导致无法查看 Spark 作业执行记录,另一类问题是日志清理异常导致 Spark 作业写 HDFS 目录达到上限无法提交作业,针对这两类问题,我们对 Spark HistoryServer 源码展开了研究。

https://static001.geekbang.org/infoq/74/74855cd85f573c258518005f92eb14ca.jpeg?x-oss-process=image/resize,w_416,h_234

Hadoop 编程实战:HDFS API 编程

用户头像
罗小龙2020 年 12 月 27 日

前言:Hadoop分布式计算平台不等同大数据。大数据是当前时代数据爆炸的一种表征,Hadoop是通过生态圈内的分布式工具,凝聚计算机集群的算力,对大数据进行计算的一个平台。

https://static001.geekbang.org/infoq/f0/f0903b5eb90cf27641542b212eca993c.png?x-oss-process=image/resize,w_416,h_234

建立大数据技术体系学习的新思维

用户头像
守护石论数据2020 年 12 月 26 日

我们真正需要的是一种有生命力的思维逻辑,形成对大数据理念的理解、领会和贯通,需要在这种思维的引导下,就像手指捏住细线一样,小心翼翼将其中的道理串在一起。

https://static001.geekbang.org/infoq/bf/bf480e1054c377596823e436fb230738.png?x-oss-process=image/resize,w_416,h_234

深度探索 Hadoop 分布式文件系统(HDFS)数据读取流程

用户头像
守护石论数据2020 年 12 月 24 日

Hadoop分布式文件系统(HDFS)是Hadoop大数据生态最底层的数据存储设施。因其具备了海量数据分布式存储能力,针对不同批处理业务的大吞吐数据计算承载力,使其综合复杂度要远远高于其他数据存储系统。

https://static001.geekbang.org/infoq/c8/c8985280042d0d64d6ad98006bb79b1c.jpeg?x-oss-process=image/resize,w_416,h_234

分布式文件系统(Hadoop HDFS)客户端写入机制

用户头像
守护石论数据2020 年 12 月 22 日

Hadoop分布式文件系统(HDFS)是Hadoop大数据生态底层的数据存储设施。因其具备了海量数据的分布式存储能力,并针对不同批处理业务的大吞吐数据计算承载力,使其综合复杂度要远远高于大多数存储系统。

https://static001.geekbang.org/infoq/e2/e255c2666f2d4e2702132d81e9c562b7.jpeg?x-oss-process=image/resize,w_416,h_234

环球易购数据平台如何做到既提速又省钱?

用户头像
苏锐2020 年 11 月 5 日

本文详细分析了环球易购数据平台在上云之后,在没有任何性能损失的前提下,借助 JuiceFS 降低存储 TCO 90%,同时实现数据平台存储计算分离的架构调整,为下一步实现计算弹性伸缩做好准备......

https://static001.geekbang.org/infoq/3e/3e283810b52bfe322116ea70d55c07ed.jpeg?x-oss-process=image/resize,w_416,h_234

本文将大数据学习门槛降到了地平线

用户头像
MySQL从删库到跑路2020 年 10 月 29 日

Hadoop-大数据开源世界的亚当夏娃。

https://static001.geekbang.org/infoq/39/3936b9caa775a175bb843e9e99510807.jpeg?x-oss-process=image/resize,w_416,h_234

大数据简介 & 架构 (一)

用户头像
dony.zhang2020 年 9 月 2 日

随着近年来,信息技术迅猛发展,通过各种终端设备收集大量的用户信息、操作行为等日志,数据的来源和数量正以前所未有的速度增长。对这些数据进行分析、挖掘、机器学习,实现个性化营销、智能推荐等应用,为公司挖掘更多的商业价值,为用户带来更好的体验。

https://static001.geekbang.org/infoq/06/06b47a436abc1f36f4a3235727395f46.jpeg?x-oss-process=image/resize,w_416,h_234

第 8 周命题作业

用户头像
hifly2020 年 7 月 29 日

在HDFS系统中,当DataNode 服务器节点宕机的时候,HDFS如何处理的时序图

https://static001.geekbang.org/infoq/8f/8f16f5ff67721dc2d2cc25d38515d26a.jpeg?x-oss-process=image/resize,w_416,h_234

链表合并算法和 HDFS 工作流程

用户头像
拈香(曾德政)2020 年 7 月 28 日

有两个单项链表(链表长度分别为m,n),这两个链表可能在某个元素合并,如下图,也可能不合并。现在给出这两个链表的头指针,在不修改链表的情况快速判断两个链表是否合并,如果合并找出合并元素,并给出实现算法的时间复杂度和空间复杂度。

「架构师训练营」作业:第 8 周

用户头像
Amy2020 年 7 月 28 日

两个单向链表的第1个公共点 请画出 DataNode 服务器节点宕机的时候, HDFS的处理过程时序图

https://static001.geekbang.org/infoq/47/47bae64eed6cd41015226caea9014684.png?x-oss-process=image/resize,w_416,h_234

命令行一键启动 Hadoop 集群

用户头像
大数据学徒2020 年 7 月 18 日

不装虚拟机,不配环境变量,不写配置文件,命令行一键启动单机Hadoop集群

奈学教育分享:Hadoop 分布式系统 HDFS 工作原理

用户头像
奈学教育2020 年 5 月 22 日

Hadoop分布式文件系统(HDFS)是一种被设计成适合运行在通用硬件上的分布式文件系统。

https://static001.geekbang.org/infoq/27/2774ed9092d31ea4d4394671a511c8b7.png?x-oss-process=image/resize,w_416,h_234

Hadoop 集群搭建 -01 前期准备

用户头像
虚拟世界的懒猫2020 年 5 月 1 日

整个搭建hadoop集群的流程,包括 前期准备 安装zookeeper并配置环境 编译安装hadoop并启动 安装HDFS管理namenode和dataname管理集群硬盘资源 安装启动yarn建立MapReduce管理cpu和内存资源

hdfs_hdfs资料文章-InfoQ写作平台