hive 性能调优实战 - 读书笔记
收获
收获 1:看懂 hive 的执行计划
收获 2:hive 性能调优的步骤
性能调优的整体思路如下
收获 3:了解到了 MapReduce 程序的编写案例
收获 4:常见性能问题
问题排查
map 读取文件
reduce 的数据倾斜
shuffle 缓慢:Elapsed Time Shuffle
集群资源限制
数据倾斜
不可拆分大文件引发的数据倾斜:压缩文件可能会很大:用支持拆分的压缩算法
业务无关的数据引发的数据倾斜:排除
多维聚合计算膨胀引发的数据倾斜:
无法削减中间结果的数据量引发的数据倾斜:mapreduce.map.memory.mb 调大
两个 hive 表数据连接时引发的数据倾斜:两个作业分别处理倾斜和没有倾斜的数据
他人笔记
版权声明: 本文为 InfoQ 作者【聚变】的原创文章。
原文链接:【http://xie.infoq.cn/article/14dc9ddfd94fd57bfbad6b21a】。未经作者许可,禁止转载。
评论