第 13 周作业
佩奇排名(PageRank),又称网页排名、谷歌左侧排名,是一种由搜索引擎根据网页之间相互的超链接计算的技术,而作为网页排名的要素之一,以Google公司创办人拉里·佩奇(Larry Page)之姓来命名。Google用它来体现网页的相关性和重要性,在搜索引擎优化操作中是经常被用来评估网页优化的成效因素之一。
自从Google在商业上获得巨大成功后,它大力推行的PageRank也成为企业界和学术界十分关注的计算模型。Google将糅合入Title标识、Keywords关键字标识等因素的PageRank结果来调整搜索结果,使得“更加重要/等级更高”的网站呈现在检索结果中,从而提高搜索结果的相关度、质量。PageRank的结果从0到10,10级为满分。PR值越高说明网页越重要/受欢迎。例如PR值为1的网站不太重要,而PR值为7~10的网站可以说是非常重要了。一般到4,就能说是一个不错的网站。Google将自身PR值定为10.
基本思想
即对于某个网页A而言,该网页PageRank值的计算基于以下两个假设:
1:数量假设,如果越多的网页指向A,即A的入链数量越多,则该网页越重要;
2:质量假设,如果指向A的网页质量越高,则A越重要,即权重因素不同。
现实中一个具体的假设案例是:一篇论文被诺贝尔奖得主所引用, 显然要比被普通研究者所引用更说明其价值;一篇论文被100位学者引用,显然要比只有一位普通学者引用之更有价值。
初始阶段,网页通过链接关系构建起Web图,每个页面设置相同的PageRank值(原因在稍后阐述),通过若干轮的计算,会得到每个页面所获得的最终PageRank值。随着每一轮的计算进行,网页当前的PageRank值会不断得到更新。
在每一轮更新页面PageRank得分的计算中,每个页面将其当前的PageRank值平均分配到本页面包含的出链上,这样每个链接即获得了相应的权值。而每个页面将所有指向本页面的入链所传入的权值求和,即可得到新的PageRank得分。当每个页面都获得了更新后的PageRank值,就完成了一轮PageRank计算。
用公式来表示,若网页T存在一个指向网页A的链接,则表明T的所有者认为A是重要的,从而把T的一部分重要性得分赋予A。
这个重要性得分值为:PR(T)/C(T) ,其中PR(T)为T的PageRank值,C(T)为T的出链数。
对于A而言,A的PageRank值为一系列类似于T的页面重要性得分总和。一个页面的PageRank是由所有链向它的页面(链入页面)的重要性经过递归算法得到的。
例子
假设一个由4个页面组成的小团体:A,B,C,和 D,如果所有页面都链接向A,那么A的PR值就是BCD的Pagerank的总和。
假设B也有链接到C,并且D也有链接到包括A的3个页面。一个页面不能投票2次,所以,B给每个页面半票。以同样的逻辑,D投出的票只有三分之一算到了A的PageRank上。
换句话说,根据链出总数平分一个页面的PR值。
互联网中一个网页只有对自己的出链,或者几个网页的出链形成一个循环网。那么在不断迭代过程中,这一个或几个网页的PR值将只增不减,显然不合理。如下图C网页就是刚刚说的只有对自己的出链的网页:
为了解决这个问题,我们想象一个隋杰浏览网页的人,假定他有一个确定的概率会输入网址直接跳转到一个随机的网页,并且跳转到每个网页的概率是一样的。于是此图中A的PR值可表示为:
PageRank的计算公式:
评论