写点什么

第 13 周学习总结

用户头像
刘卓
关注
发布于: 2020 年 09 月 10 日

Spark

比 MapReduce 快的最大原因是在内存中进行计算。

RDD(弹性分布式数据集) 是Spark的编程模型,是面向对象的编程。RDD上的 transformation 返回的还是RDD,有点类似js的链式操作。

也有shuffle,编程时需要知道哪里产生了shuffle。map、filter没有shuffle,reduceByKey 不一定有。是否需要shuffle,要看是否需要生成新的RDD,是否需要新的RDD,需要看上一步的key是否在同一个RDD中。



流计算:低延迟高性能

storm、spark streaming、Flink



bibench 对大数据平台进行评估和测试。



对新技术生命力的判断

----------------------------------------



数据可视化

用户留存率、用户流失率、活跃用户数

可视化数据可能没有实际意义,但是让客户看起来很"多"很"炫"也是价值。



机器学习

PageRank 算法、KNN 分类算法、贝叶斯、神经网络



用户头像

刘卓

关注

还未添加个人签名 2018.04.26 加入

还未添加个人简介

评论

发布
暂无评论
第13周学习总结