写点什么

【大数据面试之对线面试官】MapReduce/HDFS/YARN 面试题 70 连击

用户头像
王知无
关注
发布于: 2021 年 07 月 16 日
【大数据面试之对线面试官】MapReduce/HDFS/YARN面试题70连击

热身 30 题


1.描述一下 HDFS 的写流程

2.描述一下 HDFS 的读流程

3.详细讲解一下 HDFS 的体系结构

4.如果一个 datanode 出现宕机,恢复流程是什么样的?

5.通常你是如何解决 Haddop 的 NameNode 宕机的,流程是什么?

6.描述一下 NameNode 对元数据的管理

7.NameNode 对元数据的管理机制是什么?

8.详细描述一下 Yarn 的调度流程?

9.讲解一下 Hadoop 中 combiner 和 partition 的作用

10.你在 MapReduce 过程中遇到过数据倾斜问题吗?你是如何处理的?

11.Hadoop 的 Shuffle 分为哪几个阶段?有什么特点

12.Mapreduce 的 map 数量和 reduce 数量是由什么决定的?

13.你对 MapReduce 做过什么优化?有什么经验?

14.用过 Combiner 吗?什么情况要使用 Combiner?

15.讲解一下 MapReduce 的流程?

16.HDFS 的系统架构是如何保证数据安全的?

17.在通过客户端向 HDFS 中写数据的时候,如果某一台机器宕机了,会怎么处理

18.你对 Hadoop 集群做过哪些优化?有哪些常用的优化措施?

19.写出 MapReduce 求 TopN 的思路

20.Hadoop 集群中有哪些进程?他们各自有什么作用?

21.Hadoop 的 job 和 Task 之间的区别是什么?

22.Hadoop 高可用 HA 模式如何配置?工作原理是什么?

23.安装过集群吗?大概需要哪几步骤?

24.fsimage 和 edit 的区别

25.详细描述 Yarn 的三大调度策略

26.说出一些 hadoop 的常用 shell 命令

27.如何用 MapReduce 实现求用户 PV TOP10?

MapReduce 部分深入

1.谈谈 Hadoop 序列化和反序列化及自定义 bean 对象实现序列化?

2.FileInputFormat 切片机制

3.在一个运行的 Hadoop 任务中,什么是 InputSplit?

4.如何判定一个 job 的 map 和 reduce 的数量?

  1. Maptask 的个数由什么决定?

6.MapTask 和 ReduceTask 工作原理和机制

7.描述 mapReduce 有几种排序及排序发生的阶段

8.描述 mapReduce 中 shuffle 阶段的工作流程,如何优化 shuffle 阶段

9.描述 mapReduce 中 combiner 的作用是什么,一般使用情景,哪些情况不需要,及和 reduce 的区别?

10.如果没有定义 partitioner,那数据在被送达 reducer 前是如何被分区的?

11.MapReduce 出现单点负载多大,怎么负载平衡?

12.MapReduce 怎么实现 TopN?写出关键代码

13.Hadoop 的缓存机制(DistributedCache)

14.如何使用 MapReduce 实现两个表的 join?

15.什么样的计算不能用 MapReduce 来提速?

16.ETL 是哪三个单词的缩写,说说你用过的 ETL 场景和哪些技术点?

HDFS 部分深入

  1. HDFS 中的 block 默认保存几份?

2.HDFS 默认 BlockSize 是多大?

3.负责 HDFS 数据存储的是哪一部分?

4.SecondaryNameNode 的目的是什么?

5.文件大小设置,增大有什么影响?

6.hadoop 的块大小,从哪个版本开始是 128M

7.HDFS 的存储机制

8.Secondary Namenode 工作机制?

9.NameNode 与 SecondaryNameNode 的区别与联系?

10.HDFS 组成架构

11.HAnamenode 是如何工作的?

YARN 部分深入

1.简述 hadoop1 与 hadoop2 的架构异同?

2.为什么会产生 yarn,它解决了什么问题,有什么优势?

3.HDFS 的数据压缩算法?

4.Hadoop 的调度器总结?

5.MapReduce 2.0 容错性?

6.Mapreduce 推测执行算法及原理?

优化和其他问题

1.MapReduce 跑得慢的原因?

2.MapReduce 优化方法?

3.HDFS 小文件优化方法?


几乎所有问题都可以在这里找到答案:

MapReduce编程模型和计算框架架构原理

MapReduce Join

MapReduce性能优化大纲


Hadoop小文件&冷文件分析

Hadoop支持Lzo压缩配置及案例

Hadoop Namenode元数据持久化机制与SecondaryNamenode的作用详解

Hadoop(CDH)分布式环境搭建(简单易懂,绝对有效)

环形缓冲区-Hadoop Shuffle过程中的利器


Hadoop YARN:调度性能优化实践

Hadoop分布式缓存(DistributedCache)

Hadoop机架感知

Hadoop极简入门


分布式文件系统:HDFS 核心原理HDFS应用场景、原理、基本架构及使用方法

HDFS读写数据过程原理分析

HDFS的SecondaryNameNode作用,你别答错了

分布式文件系统-HDFS


Yarn调度队列

Hadoop YARN:调度性能优化实践

YARN Capacity Scheduler(容量调度器)

发布于: 2021 年 07 月 16 日阅读数: 10
用户头像

王知无

关注

大数据成神之路作者,全网阅读超百万。 2019.01.20 加入

《大数据成神之路》作者,全网阅读超百万。公众号:《import_bigdata》,关注大数据领域最新动态。略微懂点大数据方面的知识。

评论

发布
暂无评论
【大数据面试之对线面试官】MapReduce/HDFS/YARN面试题70连击