写点什么

我对 PageRank 算法的理解

用户头像
跳蚤
关注
发布于: 2021 年 03 月 28 日

PageRank 算法是 Google 排名运算法则(排名公式)的一部分,是 Google 用于用来标识网页的等级(重要性)的一种方法,是 Google 用来衡量一个网站的好坏的重要标准之一。

在一轮更新页面 PageRank 得分计算中,每个页面将其当前的 PageRank 平均分配到当前页面包含的出链上,这样每个链接获得了相应的权重值,而每个页面将所有指向本页面的入链所传入的权重值求和,即可得到新的 PageRank 得分。

  1. PageRank 算法的基本思想

如果网页 T 存在一个指向网页 A 的连接,则表明 T 的所有者认为 A 比较重要,从而把 T 的一部分重要性得分赋予 A。这个重要性得分值为:PR(T)/C(T)。其中 PR(T)为 T 的 PageRank 值,C(T)为 T 的出链数,则 A 的 PageRank 值为一系列类似于 T 的页面重要性得分值的累加。

  1. PageRank 公式

PR(A)=(1-d)+ d(PR(t1)/C(t1)+…+PR(tn)/C(tn))

A 代表页面 A

PR(A)则代表页面 A 的 PR 值

d 为阻尼指数。通常认为 d=0.85

t1…tn 代表链接向页面 A 的页面 t1 到 tn

C 代表页面上的外链接数目。C(t1)即为页面 t1 上的外链接数目

  1. PageRand 算法优点

是一个与查询无关的静态算法,所有网页的 PageRank 值通过离线计算获得;有效减少在线查询时的计算量,极大降低了查询响应时间。

  1. PageRand 算法不足

人们的查询具有主题特征,PageRank 忽略了主题相关性,导致结果的相关性和主题性降低;另外,PageRank 有很严重的对新网页的歧视。

用户头像

跳蚤

关注

技术成就了我,我相信技术能让我飞 2020.08.06 加入

本人从事软件开发20年,系统架构7年,担任部门经理、架构部经理、技术经理

评论

发布
暂无评论
我对PageRank 算法的理解