写点什么

架构师 13 周练习

用户头像
小蚂蚁
关注
发布于: 2020 年 09 月 09 日

1、你所在的行业,常用的数据分析指标有哪些?请简述。

  电商行业的常用数据分析指标:

(1)常规数据指标的监测。用户量,新用户量,UGC 量(社交产品),销量,付费量。

(2)用户获取成本。页面访问时长、人均访问数、跳出率、注册会员数、活跃会员数、会员回购率。

(3)销售指标。加入购物车次数、加入购物车商品数、购物车支付转换率、下单笔数、下单金额、浏览下单转换率。

 

2、google 搜索引擎是如何对搜索结果进行排序的?(请用自己的语言描述 pagerank 算法)

   google 采用 PageRank 算法进行搜索结果排序,主要思想:如果一个网页被其他很多网页链接,则重要,权值高。如果权值高的网页链接某个网页,则该网页权值也提高。

  PageRank 算法描述如下:

  假设总共只有四个网页 A、B、C、D,所有的页面只指向 A,那么 A 的 PR 值就是 B、C、D 的 PR 总和:



  换句话说一个网页的 PR = 根据链出总数平分一个页面的 RP 值,用公式表示为:



如果一个网页只有对自己的出链,或及几个网页的出链形成一个循环圈,那个不断迭代的过程中,这一个或几个网页的 RP 值只增不减,显然不合理。



    为了解决这个问题,拉里·佩奇提出了 PageRank 的随机浏览模型。他假设了这样一个场景:用户并不都是按照跳转链接的方式来上网,还有一种可能是不论当前处于哪个页面,都有概率访问到其他任意的页面,比如说用户就是要直接输入网址访问其他页面,虽然这个概率比较小。所以他定义了阻尼因子 d,这个因子代表了用户按照跳转链接来上网的概率,通常可以取一个固定值 0.85,而 1-d=0.15 则代表了用户不是通过跳转链接的方式来访问网页的,比如直接输入网址。于是最终的计算公式为:



集合中所有页面的 PR 值可以由一个特殊的邻接矩阵的特征向量表示,这个特征向量 R 为:



    PageRank 算法中,一个页面的 PR 值直接取决于指向它的的页面。如果在最初给每个网页一个随机且非零的 PR 值,通过上述公式经过多次迭代,这些页面的 PR 值会收敛某个定值,即最终结果。


用户头像

小蚂蚁

关注

还未添加个人签名 2018.08.10 加入

还未添加个人简介

评论

发布
暂无评论
架构师13周练习