写点什么

Google 搜索引擎是如何对搜索结果进行排序

用户头像
Mars
关注
发布于: 2021 年 01 月 17 日

PageRank 概述

PageRank:网页排名,又称网页级别、Google 左侧排名或佩奇排名,是一种由搜索引擎根据网页之间相互的超链接计算的技术。

PageRank 等级定义

PageRank 通过超链接关系来确定页面等级,一个网页的入链越多,则该网页越重要。

PageRank 等级由 2 方面因素决定:入链数量和投票目标等级。

入链数量:一个页面收到其他页面指向的入链数量越多,该页面等级越高。

投票目标等级:如果其他页面等级高的指向当前页面,该页面等级也会越重要。

PageRank 算法原理

假设一个由 4 个页面组成的小团体:A,B,C 和 D。如果所有页面都链向 A,那么 A 的 PR(PageRank)值将是 B,C 及 D 的 Pagerank 总和。




  继续假设 B 也有链接到 C,并且 D 也有链接到包括 A 的 3 个页面。一个页面不能投票 2 次。所以 B 给每个页面半票。以同样的逻辑,D 投出的票只有三分之一算到了 A 的 PageRank 上。



换句话说,根据链出总数平分一个页面的 PR 值。



同时带来新的问题,互联网中一个网页只有对自己的出链,或者几个网页的出链形成一个循环圈。那么在不断地迭代过程中,这一个或几个网页的 PR 值将只增不减,显然不合理。如下图中的 C 网页就是刚刚说的只有对自己的出链的网页:



为了解决这个问题。我们想象一个随机浏览网页的人,假定他有一个确定的概率会输入网址直接跳转到一个随机的网页,并且跳转到每个网页的概率是一样的。于是则此图中 A 的 PR 值可表示为:



PageRank 计算公式



P1…Pn 是被研究的页面,M(pi)是链入页面 pi 页面的集合,L(pj)是 pj 链出页面的数量,而 N 是所有页面的数量。

                                                                                                          

PageRank 值是一个特殊矩阵中的特征向量。这个特征向量为:


d=0.85


发布于: 2021 年 01 月 17 日阅读数: 24
用户头像

Mars

关注

还未添加个人签名 2018.06.12 加入

还未添加个人简介

评论

发布
暂无评论
Google 搜索引擎是如何对搜索结果进行排序