week13 小结
大数据核心计算有:hadoop、hive、spark、storm、sparkstream、flink等。
spark先对hadoop开发更简单,执行效率更高。
hive是将类似sql的操作语句,转成MapReduce去执行。
storm、sparkstream、flink是实时的流式计算。但是其实现原理有所差异,sparkstream、flink其实也是批处理,只是把数据分割更小,可以做到准实时。
大数据最早应用在搜索引擎,搜索引擎对搜索结果的排序,用的是PageRank方法。
常见的机器学习算法有:KNN分类算法、
评论 (1 条评论)