写点什么

第 13 周课后练习 - 数据应用(二)

用户头像
潘涛
关注
发布于: 2021 年 04 月 04 日

作业一:

Google 搜索引擎是如何对搜索结果进⾏排序的?(请⽤⾃⼰的语⾔描述 PageRank 算法。)

网页排名算法 PageRank

PageRank 是通过网页的超链接关系来确定一个页面的等级,如:Google 把从 A 页面到 B 页面的链接解释为 A 页面给 B 页面投票,根据投票来源和投票目标的等级来决定新的等级。简单的说,一个高等级的页面可以使其他低等级页面的等级提升。

PageRank 算法快速理解:

1、A 页面链接到 B 页面,则 A 页面的 PR 至将赋给 B 页面,使得 B 页面的等级发生变化(即:如果链向 B 页面的页面越多,则 B 的等级越高),即:


PR(B) = PR(A)+PR(B)+...
复制代码

2、存在 A 页面同时链接到 B/C 页面,则 A 的 PR 均分后,分别赋给 B/C 页面,即:

PR(B) = PR(A)/2+PR(D)/3+...,抽象出公式:PR(B) = PR(A)/L(A) + PR(D)/L(D)+...注:L(A)表示A页面同时链接到其他页面的数量
复制代码

3、存在一个网页只有对自己的出链,或者几个网页的出链形成一个循环圈。那么在不断地迭代过程中,这一个或几个网页的 PR 值将只增不减,显然不合理。假定有一个确定的概率会输入网址直接跳转到一个随机的网页,并且跳转到每个网页的概率是一样的,则得到新的 PageRank 计算公式:

PR(B) = (PR(A)/L(A) + PR(D)/L(D)+...) * d + (1-d) / N注:d 默认 0.85
复制代码


用户头像

潘涛

关注

还未添加个人签名 2020.02.25 加入

还未添加个人简介

评论

发布
暂无评论
第13周课后练习-数据应用(二)