第 13 周课后练习 - 数据应用(二)
作业一:
Google 搜索引擎是如何对搜索结果进⾏排序的?(请⽤⾃⼰的语⾔描述 PageRank 算法。)
网页排名算法 PageRank
PageRank 是通过网页的超链接关系来确定一个页面的等级,如:Google 把从 A 页面到 B 页面的链接解释为 A 页面给 B 页面投票,根据投票来源和投票目标的等级来决定新的等级。简单的说,一个高等级的页面可以使其他低等级页面的等级提升。
PageRank 算法快速理解:
1、A 页面链接到 B 页面,则 A 页面的 PR 至将赋给 B 页面,使得 B 页面的等级发生变化(即:如果链向 B 页面的页面越多,则 B 的等级越高),即:
复制代码
2、存在 A 页面同时链接到 B/C 页面,则 A 的 PR 均分后,分别赋给 B/C 页面,即:
复制代码
3、存在一个网页只有对自己的出链,或者几个网页的出链形成一个循环圈。那么在不断地迭代过程中,这一个或几个网页的 PR 值将只增不减,显然不合理。假定有一个确定的概率会输入网址直接跳转到一个随机的网页,并且跳转到每个网页的概率是一样的,则得到新的 PageRank 计算公式:
复制代码
评论