写点什么

PageRank 算法

用户头像
天天向上
关注
发布于: 2020 年 12 月 20 日

PageRank 是一种由搜索引擎根据网页之间相互的超链接计算排名的技术。


  • 假设页面 Pi 的 PageRank 为 PR(Pi)

  • 假设页面 Pi 包含的超链接数为 L(Pi),则页面 i 对该页面上的所有超链接的投票数分别是 PR(Pi)/L(Pi)

  • 假设包含页面 Px 超链接的页面为页面 P1~页面 Pn,则页面 x 的 PageRank 值为页面 P1~页面 Pn 对该页面的投票数之和

所以公式:PR(Px)=PR(P1)/L(P1)+PR(P2)/L(P2)+PR(P3)/L(P3)+......+PR(Pn)/L(Pn)


上述公式的问题:如果页面 A 只有一个包含自己的链接,则该公式就存在 A 页面循环投向自己的页面。

解决方案:所有页面存在一定的概率跳出到一个随机的页面,假定这个概率为α(一般取值 0.85),则公式演变为

PR(Px)=(1-α)/n+α(PR(P1)/L(P1)+PR(P2)/L(P2)+PR(P3)/L(P3)+......+PR(Pn)/L(Pn))


由于存在链入链出关系的页面是极少数,所以可以使用稀疏矩阵进行存储。


用户头像

天天向上

关注

还未添加个人签名 2018.09.20 加入

还未添加个人简介

评论

发布
暂无评论
PageRank算法