第十三周总结
Spark 特点
DAG 切分的多阶段计算过程更快速
使用内存存储中间计算结果更高效
RDD 的编程模型更简单
RDD
是 Spark 的核心概念,是弹性分布式数据集(Resilient Distributed Datasets)的缩写。RDD 既是 Spark 面向开发者的编程模型,又是 Spark 自身架构的核心元素
Spark 直接针对数据进行编程,将大规模数据集合抽象成一个 RDD 对象,然后在 这个 RDD 上进行各种计算处理,得到一个新的 RDD,继续计算处理,直到得到最后的 结果数据
流计算
Storm
Spark Streaming
Flink
PageRank:一个页面的「得票数」由所有链向它的页面的重要性來决定,到一个页面的超链接相当 于对该页投一票。一个页面的 PageRank 是由所有链向它的页面(「链入页面」)的重 要性经过递归算法得到的。
分类和聚类算法
KNN 分类算法:对于一个需要分类的数据,将其和一组已 经分类标注好的样本集合进行比较,得到 距离最近的 K 个样本,K 个样本最多归属 的类别,就是这个需要分类数据的类别。
距离算法:欧式距离计算公式、余弦相似度计算公式
TF-IDF 算法:提取文本特征值
贝叶斯分类算法
K-means 聚类算法
推荐引擎算法
基于人口统计的推荐
基于商品属性的推荐
基于用户的协同过滤推荐
基于商品的协同过滤推荐
版权声明: 本文为 InfoQ 作者【离开以后。】的原创文章。
原文链接:【http://xie.infoq.cn/article/cbb3a50a1eac828ce14a45744】。未经作者许可,禁止转载。
评论