我对 PageRank 算法的理解
PageRank 算法是 Google 排名运算法则(排名公式)的一部分,是 Google 用于用来标识网页的等级(重要性)的一种方法,是 Google 用来衡量一个网站的好坏的重要标准之一。
在一轮更新页面 PageRank 得分计算中,每个页面将其当前的 PageRank 平均分配到当前页面包含的出链上,这样每个链接获得了相应的权重值,而每个页面将所有指向本页面的入链所传入的权重值求和,即可得到新的 PageRank 得分。
PageRank 算法的基本思想
如果网页 T 存在一个指向网页 A 的连接,则表明 T 的所有者认为 A 比较重要,从而把 T 的一部分重要性得分赋予 A。这个重要性得分值为:PR(T)/C(T)。其中 PR(T)为 T 的 PageRank 值,C(T)为 T 的出链数,则 A 的 PageRank 值为一系列类似于 T 的页面重要性得分值的累加。
PageRank 公式
PR(A)=(1-d)+ d(PR(t1)/C(t1)+…+PR(tn)/C(tn))
A 代表页面 A
PR(A)则代表页面 A 的 PR 值
d 为阻尼指数。通常认为 d=0.85
t1…tn 代表链接向页面 A 的页面 t1 到 tn
C 代表页面上的外链接数目。C(t1)即为页面 t1 上的外链接数目
PageRand 算法优点
是一个与查询无关的静态算法,所有网页的 PageRank 值通过离线计算获得;有效减少在线查询时的计算量,极大降低了查询响应时间。
PageRand 算法不足
人们的查询具有主题特征,PageRank 忽略了主题相关性,导致结果的相关性和主题性降低;另外,PageRank 有很严重的对新网页的歧视。
评论