第 13 周学习总结
Spark
比 MapReduce 快的最大原因是在内存中进行计算。
RDD(弹性分布式数据集) 是Spark的编程模型,是面向对象的编程。RDD上的 transformation 返回的还是RDD,有点类似js的链式操作。
也有shuffle,编程时需要知道哪里产生了shuffle。map、filter没有shuffle,reduceByKey 不一定有。是否需要shuffle,要看是否需要生成新的RDD,是否需要新的RDD,需要看上一步的key是否在同一个RDD中。
流计算:低延迟高性能
storm、spark streaming、Flink
bibench 对大数据平台进行评估和测试。
对新技术生命力的判断
----------------------------------------
数据可视化
用户留存率、用户流失率、活跃用户数
可视化数据可能没有实际意义,但是让客户看起来很"多"很"炫"也是价值。
机器学习
PageRank 算法、KNN 分类算法、贝叶斯、神经网络
评论