写点什么

架构师训练营第 1 期 - 第 13 周课后练习

用户头像
Anyou Liu
关注
发布于: 2020 年 12 月 20 日
  • 你所在的行业,常用的数据分析指标有哪些?请简述。

  • Google 搜索引擎是如何对搜索结果进行排序的?(请用自己的语言描述 PageRank 算法。)

答 - 1 :

比如银行的指标会有:

  • 活动触达客户数 - 是指营销活动发出去之后,最终有多少客户接收到活动请求,如果触达客户数量为 0 或者很低,那么可能系统出问题了,邀请没有发出去

  • 活动响应率 - 是指营销活动的邀请发送给客户之后,客户响应的比率,比如发送给 10w 人,最后有 1w 人点开页面,那么响应率就是 10%,如果响应率过低,就需要改进措施,增加奖励来提高吸引力

  • 资产留存率 - 是指客户的资产在一段时间内留存的比率,比如客户的资产有 1w 块,一个月之后,资产还有 9k 块,那么资产留存率就是 90%,需要分析所有客户的资产留存率,并有针对性的进行营销,吸引客户参加活动获取奖励,提高资产留存率

答 - 2 :

互联网中包含数以万亿计的网页,每个网页都是一个超链接,如何对这些网页进行排名呢,Google 采用了 PageRank 算法进行网页排名。

基本的思想是根据网页中的超链接来投票,如果一个网页被其他网页作为超链接引用,那么引用的越多,说明这个网页越重要,那么排名就越高。

那么如何进行投票呢?

假设有 4 个网页,A、B、C、D,网页 B、C、D 都包含超链接指向 A,那么 A 的 PR(PageRank)值是 B、C、D 的 PageRank 值的总和

这里的分子 L(B)、L(C)、L(D)代表的是超链接的数量,就是每个投票的页面的 PageRank 值要根据超链接数把权重平分出去然后投给链接到的页面。

如何解决循环链接?

网页只有对自己的出链,或者几个网页的出链接形成一个循环圈,那么在不断迭代的过程中,PR 值将只增不减,这个是有问题的。我们可以采用随机浏览的方式,假设用户浏览网页的时候,他可能点击网页中的超链接,或者也可能直接在浏览器中输入跳转的网页,直接在浏览器中输入网页是随机的,那么上面 A、B、C、D 的公式是:


这里 d 是一个随机数,默认是 0.85

那么通用公式可以表示为:


互利网上的网页数量数以万亿计,需要利用大数据计算来进行排名计算。

用户头像

Anyou Liu

关注

还未添加个人签名 2019.05.24 加入

还未添加个人简介

评论

发布
暂无评论
架构师训练营第 1 期 - 第 13 周课后练习