Google 搜索引擎是如何对搜索结果进行排序
PageRank 概述
PageRank:网页排名,又称网页级别、Google 左侧排名或佩奇排名,是一种由搜索引擎根据网页之间相互的超链接计算的技术。
PageRank 等级定义
PageRank 通过超链接关系来确定页面等级,一个网页的入链越多,则该网页越重要。
PageRank 等级由 2 方面因素决定:入链数量和投票目标等级。
入链数量:一个页面收到其他页面指向的入链数量越多,该页面等级越高。
投票目标等级:如果其他页面等级高的指向当前页面,该页面等级也会越重要。
PageRank 算法原理
假设一个由 4 个页面组成的小团体:A,B,C 和 D。如果所有页面都链向 A,那么 A 的 PR(PageRank)值将是 B,C 及 D 的 Pagerank 总和。
继续假设 B 也有链接到 C,并且 D 也有链接到包括 A 的 3 个页面。一个页面不能投票 2 次。所以 B 给每个页面半票。以同样的逻辑,D 投出的票只有三分之一算到了 A 的 PageRank 上。
换句话说,根据链出总数平分一个页面的 PR 值。
同时带来新的问题,互联网中一个网页只有对自己的出链,或者几个网页的出链形成一个循环圈。那么在不断地迭代过程中,这一个或几个网页的 PR 值将只增不减,显然不合理。如下图中的 C 网页就是刚刚说的只有对自己的出链的网页:
为了解决这个问题。我们想象一个随机浏览网页的人,假定他有一个确定的概率会输入网址直接跳转到一个随机的网页,并且跳转到每个网页的概率是一样的。于是则此图中 A 的 PR 值可表示为:
PageRank 计算公式
P1…Pn 是被研究的页面,M(pi)是链入页面 pi 页面的集合,L(pj)是 pj 链出页面的数量,而 N 是所有页面的数量。
PageRank 值是一个特殊矩阵中的特征向量。这个特征向量为:
d=0.85
版权声明: 本文为 InfoQ 作者【Mars】的原创文章。
原文链接:【http://xie.infoq.cn/article/bc5d3070f752063519b4ceac9】。
本文遵守【CC-BY 4.0】协议,转载请保留原文出处及本版权声明。
评论