写点什么

史上最全 141 道大数据面试题:Redis+Linux,mongodb 面试

用户头像
极客good
关注
发布于: 刚刚
  1. 字符设备驱动程序的关键数据结构是哪个?

  2. Linux 中有哪几种设备?

  3. 模块程序能否使用可链接的库函数?

  4. Linux 中的浮点运算由应用程序实现还是内核实现?

  5. 模块和应用程序分别运行在什么空间?


【一线大厂Java面试题解析+核心总结学习笔记+最新架构讲解视频+实战项目源码讲义】
浏览器打开:qq.cn.hn/FTf 免费领取
复制代码


  1. Linux 调度程序是根据进程的动态优先级还是静态优先级来调度进程的?

  2. 调用 schedule()进行进程切换的方式有几种?

  3. Linux 中的文件包括哪些?

  4. Linux 中主要有哪几种内核锁?

  5. Linux 中的用户模式和内核模式是什么含义?

  6. TLB 中缓存的是什么内容?

  7. 设备驱动程序包括哪些功能函数?


Kafka 面试专题及答案


============


  1. kafaka 生产数据时数据的分组策略

  2. Kafka 的设计是什么样的呢?

  3. 数据传输的事物定义有哪三种?

  4. Kafka 判断一个节点是否还活着有那两个条件?

  5. producer 是否直接将数据发送到 broker 的 leader(主节点)?

  6. Kafa consumer 是否可以消费指定分区消息?

  7. Kafka 消息是采用 Pull 模式,还是 Push 模式?

  8. Kafka 存储在硬盘上的消息格式是什么?

  9. Kafka 高效文件存储设计特点

  10. Kafka 与传统消息系统之间有三个关键区别

  11. Kafka 创建 Topic 时如何将分区放置到不同的 Broker 中

  12. Kafka 新建的分区会在哪个目录下创建

  13. partition 的数据如何保存到硬盘

  14. kafka 的 ack 机制

  15. Kafka 的消费者如何消费数据

  16. 消费者负载均衡策略

  17. 数据有序


大数据面试题大全


========


1、kafka 的 message 包括哪些信息


2、怎么查看 kafka 的 offset


3、hadoop 的 shuffle 过程


4、spark 集群运算的模式


5、HDFS 读写数据的过程


6、RDD 中 reduceBykey 与 groupByKey 哪个性能好,为什么


7、spark2.0 的了解


8、 rdd 怎么分区宽依赖和窄依赖


9、spark streaming 读取 kafka 数据的两种方式


10、kafka 的数据存在内存还是磁盘


11、怎么解决 kafka 的数据丢失


12、fsimage 和 edit 的区别?


13、列举几个配置文件优化?


14、datanode 首次加入 cluster 的时候,如果 log 报告不兼容文件版本,那需要 namenode 执行格式化操作,这样处理的原因是?


15、MapReduce 中排序发生在哪几个阶段?这些排序是否可以避免?为什么?


16、hadoop 的优化?


17、设计题


18、有 10 个文件,每个文件 1G,每个文件的每一行存放的都是用户的 query,每个文件的 query 都可能重复。要求你按照 query 的频度排序。 还是典型的 TOP K 算法?


19、在 2.5 亿个整数中找出不重复的整数,注,内存不足以容纳这 2.5 亿个整数。


20、腾讯面试题:给 40 亿个不重复的 unsigned int 的整数,没排过序的,然后再给一个数,如何快速判断这个数是否在那 40 亿个数当中?


21、怎么在海量数据中找出重复次数最多的一个?


22、上千万或上亿数据(有重复),统计其中出现次数最多的钱 N 个数据。


23、一个文本文件,大约有一万行,每行一个词,要求统计出其中最频繁出现的前 10 个词,给出思想,给出时间复杂度分析。


24、100w 个数中找出最大的 100 个数。


25、有一千万条短信,有重复,以文本文件的形式保存,一行一条,有重复。 请用 5 分钟时间,找出重复出现最多的前 10 条。


Hadoop 面试题及答案


============


1.您对“大数据”一词有何了解?


2.大数据的五个 V 是什么?


3.告诉我们大数据和 Hadoop 如何相互关联。


4.大数据分析如何有助于增加业务收入?


5.解释部署大数据解决方案时应遵循的步骤。


6.定义 HDFS 和 YARN 的相应组件


7.为什么 Hadoop 可用于大数据分析?


8.什么是 fsck?


9. NAS(网络附加存储)和 HDFS 之间的主要区别是什么?


10.格式化 NameNode 的命令是什么?


11.您有大数据经验吗?如果有,请分享一下。


12.您更喜欢好的数据还是好的模型?为什么?


13.您是否会优化算法或代码以使其运行更快?


14.您如何处理数据准备?


15.您如何将非结构化数据转换为结构化数据?


16.哪种硬件配置对 Hadoop 作业最有利?


17.当两个用户尝试访问 HDFS 中的同一文件时会发生什么?


18.如何在 NameNode 关闭时恢复它?


19.您对 Hadoop 中的 Rack Awareness 有何了解?


20.“HDFS Block”和“Input Split”有什么区别?

用户头像

极客good

关注

还未添加个人签名 2021.03.18 加入

还未添加个人简介

评论

发布
暂无评论
史上最全141道大数据面试题:Redis+Linux,mongodb面试