写点什么

「架构师训练营第 1 期」第十三周作业

用户头像
张国荣
关注
发布于: 2020 年 12 月 20 日

作业一:

(至少完成一个)

  • 你所在的行业,常用的数据分析指标有哪些?请简述。

  • 指标

  • 新增用户数:用来评估业务的扩张速度,可以通过营销手段来增加拉新速度。

  • 用户留存(流失)率:通过营销手段拉新以后,还需要看用户留存率来评估产品价值,也可以使用营销手段来提升用户留存率。

  • 活跃用户数:互联网产品比较爱看的一个指标,日活月活越高,用户消耗时间越长的产品一般可变现价值越高也越容易。

  • PV:用户点击数。

  • GMV:总成交额,反映网站营收能力,可以通过制造节庆、大促来大幅度提升 GMV。

  • 转化率:有购买行为的用户数/总访问用户数,可以使用个性化推荐、营销来提升转化率。

  • 图标

  • 折线图:分析数据变更走势

  • 散点图:分析数据分布

  • 热力图:同散点图

  • 漏斗图:分析各阶段的数据变化情况,方便找出可改进的阶段。


  • Google 搜索引擎是如何对搜索结果进行排序的?(请用自己的语言描述 PageRank 算法。)


假设一共有 4 个网页 A、B、C、D。它们之间的链接信息如图所示:

  1. 计算网页引用数量,思想和论文引用类似,被引用的次数越多说明越有用。

PR(u)表示待评估网页的 PageRank 值,PR(v)为引用 u 的网页 v 的 PageRank 值。

  1. 但由于像导航网站之类的网页会存在大量的引用,所以从不同网页间计算引用的时候需要进行加权处理。

PR(u)表示待评估网页的 PageRank 值,PR(v)为引用 u 的网页 v 的 PageRank 值,L(v)为网页 v 中引用的数量。


上述模型存在 2 个问题:

  1. 等级泄露(Rank Leak):如果一个网页没有出链,就像是一个黑洞一样,吸收了其他网页的影响力而不释放,最终会导致其他网页的 PR 值为 0。


2. 等级沉没(Rank Sink):如果一个网页只有出链,没有入链(如下图所示),计算的过程迭代下来,会导致这个网页的 PR 值为 0(也就是不存在公式中的 V)。


PageRank 的随机浏览模型

为了解决简化模型中存在的等级泄露和等级沉没的问题,拉里·佩奇提出了 PageRank 的随机浏览模型。

他假设了这样一个场景:用户并不都是按照跳转链接的方式来上网,还有一种可能是不论当前处于哪个页面,都有概率访问到其他任意的页面,比如说用户就是要直接输入网址访问其他页面,虽然这个概率比较小。

所以他定义了阻尼因子 d,这个因子代表了用户按照跳转链接来上网的概率,通常可以取一个固定值 0.85,而 1-d=0.15 则代表了用户不是通过跳转链接的方式来访问网页的,比如直接输入网址。

其中 N 为网页总数,这样我们又可以重新迭代网页的权重计算了,因为加入了阻尼因子 d,一定程度上解决了等级泄露和等级沉没的问题。


参考文献:

https://www.cnblogs.com/jpcflyer/p/11180263.html


用户头像

张国荣

关注

还未添加个人签名 2018.06.26 加入

还未添加个人简介

评论

发布
暂无评论
「架构师训练营第 1 期」第十三周作业