写点什么

架构师训练营第十三周作业一:PageRank

用户头像
zenfery
关注
发布于: 2020 年 12 月 20 日

大数据应用

基于访问日志,进行批量计算或实时计算:

批量计算主要用于计算:访问量、访问速度、带宽、流量等数据。

实时计算可以用于针对实时计算分布式访问的情况,进行实时动态调度流量,负载均衡。


PageRank

核心思想


  1. 如果一个网页被很多其他网页链接到的话说明这个网页比较重要,也就是 PageRank 值会相对较高。

  2. 如果一个 PageRank 值很高的网页链接到一个其他的网页,那么被链接到的网页的 PageRank 值会相应地因此而提高。


假设我们有 N 个网页,需要计算每个网页的 PR 值,通过对这 N 个网页进行多轮计算,最终 PR 值稳定后,则代表 N 个网页的 PR 值。可以假设初始的每个网页的的 PR 值为 1/N。

PR(A)=PR(B)+PR(C)+PR(D)


每个网页上的链接有很多,则这个网页对其它网页的贡献值就得平分下来:


其中,B u B_uBu​是所有链接到网页 u 的网页集合,网页 v 是属于集合 B u B_uBu​的一个网页,L(v)则是网页 v 的对外链接数(即出度)。


如果网页指向自己的链接,此网页就会将自己的 PR 越算越高,从而形成作弊。那么我们假设用户都有直接输入网站的概率。并且跳转到每个网站的概率是一样的。则有下面的算法:

其中 M p i M_{p_i}Mpi​​是所有对 p i p_ipi​网页有出链的网页集合,L ( p j ) L(p_j)L(pj​)是网页 p j p_jpj​的出链数目,N 是网页总数,α αα一般取 0.85 0.850.85(很多论文都取 0.85)。


用户头像

zenfery

关注

还未添加个人签名 2018.11.21 加入

还未添加个人简介

评论

发布
暂无评论
架构师训练营第十三周作业一:PageRank