写点什么

week 13 总结

用户头像
a晖
关注
发布于: 2020 年 09 月 09 日
  1. Spark 特点

  2. DAG 切分的多阶段计算过程更快速

  3. 使用内存存储中间计算更高效;

  4. RDD 的编程模型更简单

  5. 案例:WordCount

  6. 注意:所有的算子,都是在相同节点内进行的;

  7. reduceByKey

  8. 需要进行 shuffle;

  9. 先在本地进行 shuffle,再在

  10. RDD

  11. 上面的 WordCount 中 textFile 也是一个 RDD

  12. MapReduce 是一种面向过程的编程,RDD 是一种面向对象的编程;

  13. DataFrame 与 RDD 之间的关系是什么呢?!

  14. RDD 上定义了两种函数

  15. 转换: transformation,会返回值和 RDD

  16. 执行:不再返回 RDD

  17. 函数

  18. reduceByKey(func,[numPartitions]): 根据 key 进行聚合,会产生新的 RDD

  19. join(otherDataSet,[numPartitions]):连接数据集

  20. groupByKey([numPartitions]): 分组

  21. 作为数据分片

  22. 惰性计算:只有进行 shuffle 的时候,才会生成新的 RDD;是否会产生新的 RDD,不仅仅需要根据函数名来判断,还要看是否会产生新的分区;

  23. 窄依赖:无 shuffle 依赖,不需要跨分区

  24. 宽依赖:shuffle 依赖,需要跨分区

  25. 技术判断力

  26. 参与开源项目,提升自己的影响力

  27. Spark 的计算阶段

  28. stage 如何划分呢?

  29. 算子

  30. map

  31. union

  32. groupBy

  33. join

  34. 一个计算任务会放到一个节点上执行;

  35. Spark 的作业管理

  36. Spark 的执行过程

  37. Spark 生态体系


用户头像

a晖

关注

还未添加个人签名 2018.12.05 加入

还未添加个人简介

评论

发布
暂无评论
week 13 总结