第十三周课后练习
(至少完成一个)
你所在的行业,常用的数据分析指标有哪些?请简述。
互联网行业常用的数据分析指标如下:
用户数据
1. 存量
2.新增用户
3. 健康程度
4. 渠道来源
行为数据
1. PV,UV,访问深度
2. 转化率
3. 时长
4. 质量
业务数据
1.总量
2. 人均
3. 健康程度
4. 被消费对象
Google 搜索引擎是如何对搜索结果进行排序的?(请用自己的语言描述 PageRank 算法。)
PageRank,网页排名,又称网页级别,Google 左侧排名或佩奇排名,是一种由搜索引擎根据网页之间相互的超链接计算的技術,而作为网页排名的要素之一,以 Google 公司創辦人拉里·佩奇(Larry Page)之姓來命名。
基本思想:
即对于某个网页 A 而言,该网页 PageRank 值的计算基于以下两个假设:
1:数量假设,如果越多的网页指向 A,即 A 的入链数量越多,则该网页越重要;
2:质量假设,如果指向 A 的网页质量越高,则 A 越重要,即权重因素不同。
现实中一个具体的假设案例是:一篇论文被诺贝尔奖得主所引用, 显然要比被普通研究者所引用更说明其价值;一篇论文被 100 位学者引用,显然要比只有一位普通学者引用之更有价值。
初始阶段,网页通过链接关系构建起 Web 图,每个页面设置相同的 PageRank 值(原因在稍后阐述),通过若干轮的计算,会得到每个页面所获得的最终 PageRank 值。
随着每一轮的计算进行,网页当前的 PageRank 值会不断得到更新。
在每一轮更新页面 PageRank 得分的计算中,每个页面将其当前的 PageRank 值平均分配到本页面包含的出链上,这样每个链接即获得了相应的权值。而每个页面将所有指向本页面的入链所传入的权值求和,即可得到新的 PageRank 得分。当每个页面都获得了更新后的 PageRank 值,就完成了一轮 PageRank 计算。
用公式来表示,若网页 T 存在一个指向网页 A 的链接,则表明 T 的所有者认为 A 是重要的,从而把 T 的一部分重要性得分赋予 A。
这个重要性得分值为:PR(T)/C(T) ,其中 PR(T)为 T 的 PageRank 值,C(T)为 T 的出链数。
对于 A 而言,A 的 PageRank 值为一系列类似于 T 的页面重要性得分总和。一个页面的 PageRank 是由所有链向它的页面(链入页面)的重要性经过递归算法得到的。
评论