hive 、spark 、flink 之想一想
hive
1:hive 是怎么产生的?
2:hive 的框架是怎么样的?
3:hive 执行流程是什么?
4:hive sql 是如何把 sql 语句一步一步到最后执行的?
5:hive sql 任务常用参数调优做过什么?
spark
6:spark 是怎么产生的?
7:spark 框架是怎么样的?
8: spark 的 DAG 是什么?
9:spark 中的 app,job,stage,task 是什么?有什么好处?
10:spark 的 RDD 是什么?与 dataframe 有什么区别?
11:spark 执行流程是什么?
12:spark sql 是如何把 sql 语句一步一步到最后执行的?
13:spark 与 mapreduce 的区别是什么?
14: spark 的反压原理是什么?主动还是被动?
flink
14:flink 是怎么产生的?
15:flink 的框架是怎么样的?
16:flink 的内存模型说一说?
17:flink 的 cp ,sp 说一说原理,有什么区别?你们是怎么设置 cp 的相关参数?
18:flink 的四个图是什么?分别都是什么环节对应什么图?
19:flink 反压机制,你是如何理解的?你是如何定位、并有什么方案解决?与 spark 的反压有什么区别?
20:flink 的 barrier 对齐和非对齐是怎么理解的?
21:flink 的精准一次和至少一次是怎么理解的?
22:flink 任务消费或者写入 kafka 时,并行度不一致有什么问题?
23:flink 如何保证数据一致性?
24:flink 对于 kafka 新增分区时,消费有什么问题吗?
25:flink 消费 kafka 的 offset 是怎么维护的?自动提交?
26:flink 任务如何设置 TM,JM 的并行度?
27:flink 任务做过什么调优?
28:flink 任务大状态时做过什么优化?
29:你们用 flink 做过实时数仓吗?你们的上下游的环境都是什么?全链路时效是多少?
版权声明: 本文为 InfoQ 作者【京东科技开发者】的原创文章。
原文链接:【http://xie.infoq.cn/article/8b3450b5afcfaa1ff4a0e4d5d】。文章转载请联系作者。
评论