写点什么

第十三周课后练习

用户头像
Binary
关注
发布于: 2021 年 02 月 21 日

(至少完成一个)

  • 你所在的行业,常用的数据分析指标有哪些?请简述。

互联网行业常用的数据分析指标如下:

用户数据

1. 存量

2.新增用户

3. 健康程度

4. 渠道来源

行为数据

1. PV,UV,访问深度

2. 转化率

3. 时长

4. 质量

业务数据

1.总量

2. 人均

3. 健康程度

4. 被消费对象

  • Google 搜索引擎是如何对搜索结果进行排序的?(请用自己的语言描述 PageRank 算法。)

PageRank,网页排名,又称网页级别,Google 左侧排名或佩奇排名,是一种由搜索引擎根据网页之间相互的超链接计算的技術,而作为网页排名的要素之一,以 Google 公司創辦人拉里·佩奇(Larry Page)之姓來命名。

基本思想:

即对于某个网页 A 而言,该网页 PageRank 值的计算基于以下两个假设:


1:数量假设,如果越多的网页指向 A,即 A 的入链数量越多,则该网页越重要;

2:质量假设,如果指向 A 的网页质量越高,则 A 越重要,即权重因素不同。


现实中一个具体的假设案例是:一篇论文被诺贝尔奖得主所引用, 显然要比被普通研究者所引用更说明其价值;一篇论文被 100 位学者引用,显然要比只有一位普通学者引用之更有价值。


初始阶段,网页通过链接关系构建起 Web 图,每个页面设置相同的 PageRank 值(原因在稍后阐述),通过若干轮的计算,会得到每个页面所获得的最终 PageRank 值。

随着每一轮的计算进行,网页当前的 PageRank 值会不断得到更新。


在每一轮更新页面 PageRank 得分的计算中,每个页面将其当前的 PageRank 值平均分配到本页面包含的出链上,这样每个链接即获得了相应的权值。而每个页面将所有指向本页面的入链所传入的权值求和,即可得到新的 PageRank 得分。当每个页面都获得了更新后的 PageRank 值,就完成了一轮 PageRank 计算。


用公式来表示,若网页 T 存在一个指向网页 A 的链接,则表明 T 的所有者认为 A 是重要的,从而把 T 的一部分重要性得分赋予 A。


这个重要性得分值为:PR(T)/C(T) ,其中 PR(T)为 T 的 PageRank 值,C(T)为 T 的出链数。

对于 A 而言,A 的 PageRank 值为一系列类似于 T 的页面重要性得分总和。一个页面的 PageRank 是由所有链向它的页面(链入页面)的重要性经过递归算法得到的。


用户头像

Binary

关注

还未添加个人签名 2018.04.27 加入

还未添加个人简介

评论

发布
暂无评论
第十三周课后练习