写点什么

hive 、spark 、flink 之想一想

  • 2024-03-26
    北京
  • 本文字数:614 字

    阅读完需:约 2 分钟

hive

1:hive 是怎么产生的?


2:hive 的框架是怎么样的?


3:hive 执行流程是什么?


4:hive sql 是如何把 sql 语句一步一步到最后执行的?


5:hive sql 任务常用参数调优做过什么?

spark

6:spark 是怎么产生的?


7:spark 框架是怎么样的?


8: spark 的 DAG 是什么?


9:spark 中的 app,job,stage,task 是什么?有什么好处?


10:spark 的 RDD 是什么?与 dataframe 有什么区别?


11:spark 执行流程是什么?


12:spark sql 是如何把 sql 语句一步一步到最后执行的?


13:spark 与 mapreduce 的区别是什么?


14: spark 的反压原理是什么?主动还是被动?

flink

14:flink 是怎么产生的?


15:flink 的框架是怎么样的?


16:flink 的内存模型说一说?


17:flink 的 cp ,sp 说一说原理,有什么区别?你们是怎么设置 cp 的相关参数?


18:flink 的四个图是什么?分别都是什么环节对应什么图?


19:flink 反压机制,你是如何理解的?你是如何定位、并有什么方案解决?与 spark 的反压有什么区别?


20:flink 的 barrier 对齐和非对齐是怎么理解的?


21:flink 的精准一次和至少一次是怎么理解的?


22:flink 任务消费或者写入 kafka 时,并行度不一致有什么问题?


23:flink 如何保证数据一致性?


24:flink 对于 kafka 新增分区时,消费有什么问题吗?


25:flink 消费 kafka 的 offset 是怎么维护的?自动提交?


26:flink 任务如何设置 TM,JM 的并行度?


27:flink 任务做过什么调优?


28:flink 任务大状态时做过什么优化?


29:你们用 flink 做过实时数仓吗?你们的上下游的环境都是什么?全链路时效是多少?

发布于: 刚刚阅读数: 5
用户头像

拥抱技术,与开发者携手创造未来! 2018-11-20 加入

我们将持续为人工智能、大数据、云计算、物联网等相关领域的开发者,提供技术干货、行业技术内容、技术落地实践等文章内容。京东云开发者社区官方网站【https://developer.jdcloud.com/】,欢迎大家来玩

评论

发布
暂无评论
hive 、spark 、flink之想一想_京东科技开发者_InfoQ写作社区