写点什么

pagerank 算法

发布于: 2020 年 12 月 27 日

作业:

pagerank 算法是 google 展现左侧搜索结果的算法,该算法会计算每个页面的权重值,然后根据权重值来进行排名。


课件中举得例子就是有一个 A,B,C,D 的小团体。如果要计算 A 的权重值,使用的方式如下:

PR(A) = PR(B) + PR(C) + PR(D)

但是由于 B、C、D 也可以指向除了 A 以外的页面,因此,公式改进成如下方式:

PR(A) = PR(B)/L(B) + PR(C)/L(C) + PR(D)/L(D)

其中的 L(B)等就是 B 指向的页面链接数。

由于其中某些页面没有出链,只有指向自己的链接,因此会在此公式的基础上加上一个概率值,最终得出的公式如下:

PR(A) = (PR(B)/L(B) + PR(C)/L(C) + PR(D)/L(D)+...)*d + (1-d)/N


学习笔记:


学习了 spark 和 mapreduce 之间的区别,以及 RDD 模型,讲解了为了 spark 为了要比 mapreduce 快。学习了 google 的 pagerank、分类和聚类算法以及推荐算法,最后讲述了机器学习中使用的算法。


用户头像

还未添加个人签名 2020.04.23 加入

还未添加个人简介

评论

发布
暂无评论
pagerank算法