第十三周作业 & 总结
作业一:
你所在的行业,常用的数据分析指标有哪些?请简述。
开机率、在线用户、用户并发数、点播排行、回看排行、直播收视率等
Google 搜索引擎是如何对搜索结果进行排序的?(请用自己的语言描述 PageRank 算法。)
PageRank,网页排名,又称网页级别,Google 左侧排名或佩奇排名,是一种由搜索引擎根据网页之间相互的超链接计算的技術,而作为网页排名的要素之一,以 Google 公司創辦人拉里·佩奇(Larry Page)之姓來命名。
基本思想:
即对于某个网页 A 而言,该网页 PageRank 值的计算基于以下两个假设:
1:数量假设,如果越多的网页指向 A,即 A 的入链数量越多,则该网页越重要;
2:质量假设,如果指向 A 的网页质量越高,则 A 越重要,即权重因素不同。
现实中一个具体的假设案例是:一篇论文被诺贝尔奖得主所引用, 显然要比被普通研究者所引用更说明其价值;一篇论文被 100 位学者引用,显然要比只有一位普通学者引用之更有价值。
初始阶段,网页通过链接关系构建起 Web 图,每个页面设置相同的 PageRank 值(原因在稍后阐述),通过若干轮的计算,会得到每个页面所获得的最终 PageRank 值。
随着每一轮的计算进行,网页当前的 PageRank 值会不断得到更新。
在每一轮更新页面 PageRank 得分的计算中,每个页面将其当前的 PageRank 值平均分配到本页面包含的出链上,这样每个链接即获得了相应的权值。而每个页面将所有指向本页面的入链所传入的权值求和,即可得到新的 PageRank 得分。当每个页面都获得了更新后的 PageRank 值,就完成了一轮 PageRank 计算。
用公式来表示,若网页 T 存在一个指向网页 A 的链接,则表明 T 的所有者认为 A 是重要的,从而把 T 的一部分重要性得分赋予 A。
这个重要性得分值为:PR(T)/C(T) ,其中 PR(T)为 T 的 PageRank 值,C(T)为 T 的出链数。
对于 A 而言,A 的 PageRank 值为一系列类似于 T 的页面重要性得分总和。一个页面的 PageRank 是由所有链向它的页面(链入页面)的重要性经过递归算法得到的。
作业二:
根据当周学习情况,完成一篇学习总结
评论