pagerank 算法
作业:
pagerank 算法是 google 展现左侧搜索结果的算法,该算法会计算每个页面的权重值,然后根据权重值来进行排名。
课件中举得例子就是有一个 A,B,C,D 的小团体。如果要计算 A 的权重值,使用的方式如下:
PR(A) = PR(B) + PR(C) + PR(D)
但是由于 B、C、D 也可以指向除了 A 以外的页面,因此,公式改进成如下方式:
PR(A) = PR(B)/L(B) + PR(C)/L(C) + PR(D)/L(D)
其中的 L(B)等就是 B 指向的页面链接数。
由于其中某些页面没有出链,只有指向自己的链接,因此会在此公式的基础上加上一个概率值,最终得出的公式如下:
PR(A) = (PR(B)/L(B) + PR(C)/L(C) + PR(D)/L(D)+...)*d + (1-d)/N
学习笔记:
学习了 spark 和 mapreduce 之间的区别,以及 RDD 模型,讲解了为了 spark 为了要比 mapreduce 快。学习了 google 的 pagerank、分类和聚类算法以及推荐算法,最后讲述了机器学习中使用的算法。
评论