架构作业 -- 大数据

用户头像
Nick~毓
关注
发布于: 2020 年 12 月 15 日

Q:Google 搜索引擎是如何对搜索结果进行排序的?(请用自己的语言描述 PageRank 算法。)



PageRank

搜索引擎的算法名称,以Google公司创办人拉里·佩奇(Larry Page)之姓来命名。

核心思想

借鉴了学术界评判学术论文重要性的通用方法,那就是看论文的引用次数。由此想到网页的重要性也可以根据这种方法来评价;

  • 如果一个网页被很多其他网页链接到的话,说明这个网页比较重要,也就是 PageRank 值会相对较高。

  • 如果一个 PageRank 值很高的网页链接到一个其他的网页,那么链接到的网页的 PageRank 值也会相应地提高

PageRank计算



PageRank算法的缺点

第一,没有区分站内导航链接。很多网站的首页都有很多对站内其他页面的链接,称为站内导航链接。这些链接与不同网站之间的链接相比,肯定是后者更能体现PageRank值的传递关系。



第二,没有过滤广告链接和功能链接(例如常见的“分享到微博”)。这些链接通常没有什么实际价值,前者链接到广告页面,后者常常链接到某个社交网站首页。



第三,对新网页不友好。一个新网页的一般入链相对较少,即使它的内容的质量很高,要成为一个高PR值的页面仍需要很长时间的推广。



学习参考链接:

PageRank笔记:https://clvsit.blog.csdn.net/article/details/90322422?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromBaidu-2.control&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromBaidu-2.control



PageRank算法--从原理到实现:https://blog.csdn.net/rubinorth/article/details/52215036?utmmedium=distribute.pcrelevant.none-task-blog-BlogCommendFromBaidu-3.control&depth1-utmsource=distribute.pc_relevant.none-task-blog-BlogCommendFromBaidu-3.control



PageRank算法原理与实现:https://blog.csdn.net/leadai/article/details/81230557?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromBaidu-3.control&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromBaidu-3.control



用户头像

Nick~毓

关注

还未添加个人签名 2018.05.09 加入

还未添加个人简介

评论

发布
暂无评论
架构作业--大数据