写点什么

第十三周总结

发布于: 2020 年 12 月 20 日
  1. Spark 特点

  2. DAG 切分的多阶段计算过程更快速

  3. 使用内存存储中间计算结果更高效

  4. RDD 的编程模型更简单

  5. RDD

  6. 是 Spark 的核心概念,是弹性分布式数据集(Resilient Distributed Datasets)的缩写。RDD 既是 Spark 面向开发者的编程模型,又是 Spark 自身架构的核心元素

  7. Spark 直接针对数据进行编程,将大规模数据集合抽象成一个 RDD 对象,然后在 这个 RDD 上进行各种计算处理,得到一个新的 RDD,继续计算处理,直到得到最后的 结果数据

  8. 流计算

  9. Storm

  10. Spark Streaming

  11. Flink

  12. PageRank:一个页面的「得票数」由所有链向它的页面的重要性來决定,到一个页面的超链接相当 于对该页投一票。一个页面的 PageRank 是由所有链向它的页面(「链入页面」)的重 要性经过递归算法得到的。

  13. 分类和聚类算法

  14. KNN 分类算法:对于一个需要分类的数据,将其和一组已 经分类标注好的样本集合进行比较,得到 距离最近的 K 个样本,K 个样本最多归属 的类别,就是这个需要分类数据的类别。

  15. 距离算法:欧式距离计算公式、余弦相似度计算公式

  16. TF-IDF 算法:提取文本特征值

  17. 贝叶斯分类算法

  18. K-means 聚类算法

  19. 推荐引擎算法

  20. 基于人口统计的推荐

  21. 基于商品属性的推荐

  22. 基于用户的协同过滤推荐

  23. 基于商品的协同过滤推荐

发布于: 2020 年 12 月 20 日阅读数: 16
用户头像

还未添加个人签名 2018.08.31 加入

还未添加个人简介

评论

发布
暂无评论
第十三周总结