架构师训练营 week13 作业
pagerank 算法
该算法主要用网页的联系和网页的指向性来对网页进行排序。被联系越多的网页排名越靠前,如下图所示
公式不总结了,实现的算法可以很多或者根据已知线索慢慢分析
目前这总算法,根据网上资料的确有缺点
第一,没有区分站内导航链接。很多网站的首页都有很多对站内其他页面的链接,称为站内导航链接。这些链接与不同网站之间的链接相比,肯定是后者更能体现 PageRank 值的传递关系。
第二,没有过滤广告链接和功能链接(例如常见的“分享到微博”)。这些链接通常没有什么实际价值,前者链接到广告页面,后者常常链接到某个社交网站首页。
第三,对新网页不友好。一个新网页的一般入链相对较少,即使它的内容的质量很高,要成为一个高 PR 值的页面仍需要很长时间的推广。
评论