写点什么

第 13 周作业

用户头像
饭桶
关注
发布于: 2020 年 12 月 16 日



佩奇排名(PageRank),又称网页排名、谷歌左侧排名,是一种由搜索引擎根据网页之间相互的超链接计算的技术,而作为网页排名的要素之一,以Google公司创办人拉里·佩奇(Larry Page)之姓来命名。Google用它来体现网页的相关性和重要性,在搜索引擎优化操作中是经常被用来评估网页优化的成效因素之一。

自从Google在商业上获得巨大成功后,它大力推行的PageRank也成为企业界和学术界十分关注的计算模型。Google将糅合入Title标识、Keywords关键字标识等因素的PageRank结果来调整搜索结果,使得“更加重要/等级更高”的网站呈现在检索结果中,从而提高搜索结果的相关度、质量。PageRank的结果从0到10,10级为满分。PR值越高说明网页越重要/受欢迎。例如PR值为1的网站不太重要,而PR值为7~10的网站可以说是非常重要了。一般到4,就能说是一个不错的网站。Google将自身PR值定为10.





基本思想



即对于某个网页A而言,该网页PageRank值的计算基于以下两个假设:

1:数量假设,如果越多的网页指向A,即A的入链数量越多,则该网页越重要;

2:质量假设,如果指向A的网页质量越高,则A越重要,即权重因素不同。

现实中一个具体的假设案例是:一篇论文被诺贝尔奖得主所引用, 显然要比被普通研究者所引用更说明其价值;一篇论文被100位学者引用,显然要比只有一位普通学者引用之更有价值。

初始阶段,网页通过链接关系构建起Web图,每个页面设置相同的PageRank值(原因在稍后阐述),通过若干轮的计算,会得到每个页面所获得的最终PageRank值。随着每一轮的计算进行,网页当前的PageRank值会不断得到更新。

在每一轮更新页面PageRank得分的计算中,每个页面将其当前的PageRank值平均分配到本页面包含的出链上,这样每个链接即获得了相应的权值。而每个页面将所有指向本页面的入链所传入的权值求和,即可得到新的PageRank得分。当每个页面都获得了更新后的PageRank值,就完成了一轮PageRank计算。

用公式来表示,若网页T存在一个指向网页A的链接,则表明T的所有者认为A是重要的,从而把T的一部分重要性得分赋予A。

这个重要性得分值为:PR(T)/C(T) ,其中PR(T)为T的PageRank值,C(T)为T的出链数。

对于A而言,A的PageRank值为一系列类似于T的页面重要性得分总和。一个页面的PageRank是由所有链向它的页面(链入页面)的重要性经过递归算法得到的。



例子

  1. 假设一个由4个页面组成的小团体:A,B,C,和 D,如果所有页面都链接向A,那么A的PR值就是BCD的Pagerank的总和。



  1. 假设B也有链接到C,并且D也有链接到包括A的3个页面。一个页面不能投票2次,所以,B给每个页面半票。以同样的逻辑,D投出的票只有三分之一算到了A的PageRank上。



换句话说,根据链出总数平分一个页面的PR值。



  1. 互联网中一个网页只有对自己的出链,或者几个网页的出链形成一个循环网。那么在不断迭代过程中,这一个或几个网页的PR值将只增不减,显然不合理。如下图C网页就是刚刚说的只有对自己的出链的网页:



为了解决这个问题,我们想象一个隋杰浏览网页的人,假定他有一个确定的概率会输入网址直接跳转到一个随机的网页,并且跳转到每个网页的概率是一样的。于是此图中A的PR值可表示为:



PageRank的计算公式:



用户头像

饭桶

关注

还未添加个人签名 2020.07.27 加入

还未添加个人简介

评论

发布
暂无评论
第13周作业