架构作业 -- 大数据
Q:Google 搜索引擎是如何对搜索结果进行排序的?(请用自己的语言描述 PageRank 算法。)
PageRank
搜索引擎的算法名称,以Google公司创办人拉里·佩奇(Larry Page)之姓来命名。
核心思想
借鉴了学术界评判学术论文重要性的通用方法,那就是看论文的引用次数。由此想到网页的重要性也可以根据这种方法来评价;
如果一个网页被很多其他网页链接到的话,说明这个网页比较重要,也就是 PageRank 值会相对较高。
如果一个 PageRank 值很高的网页链接到一个其他的网页,那么链接到的网页的 PageRank 值也会相应地提高
PageRank计算
PageRank算法的缺点
第一,没有区分站内导航链接。很多网站的首页都有很多对站内其他页面的链接,称为站内导航链接。这些链接与不同网站之间的链接相比,肯定是后者更能体现PageRank值的传递关系。
第二,没有过滤广告链接和功能链接(例如常见的“分享到微博”)。这些链接通常没有什么实际价值,前者链接到广告页面,后者常常链接到某个社交网站首页。
第三,对新网页不友好。一个新网页的一般入链相对较少,即使它的内容的质量很高,要成为一个高PR值的页面仍需要很长时间的推广。
学习参考链接:
PageRank算法--从原理到实现:https://blog.csdn.net/rubinorth/article/details/52215036?utmmedium=distribute.pcrelevant.none-task-blog-BlogCommendFromBaidu-3.control&depth1-utmsource=distribute.pc_relevant.none-task-blog-BlogCommendFromBaidu-3.control
评论