架构师 13 周练习
1、你所在的行业,常用的数据分析指标有哪些?请简述。
电商行业的常用数据分析指标:
(1)常规数据指标的监测。用户量,新用户量,UGC 量(社交产品),销量,付费量。
(2)用户获取成本。页面访问时长、人均访问数、跳出率、注册会员数、活跃会员数、会员回购率。
(3)销售指标。加入购物车次数、加入购物车商品数、购物车支付转换率、下单笔数、下单金额、浏览下单转换率。
2、google 搜索引擎是如何对搜索结果进行排序的?(请用自己的语言描述 pagerank 算法)
google 采用 PageRank 算法进行搜索结果排序,主要思想:如果一个网页被其他很多网页链接,则重要,权值高。如果权值高的网页链接某个网页,则该网页权值也提高。
PageRank 算法描述如下:
假设总共只有四个网页 A、B、C、D,所有的页面只指向 A,那么 A 的 PR 值就是 B、C、D 的 PR 总和:
换句话说一个网页的 PR = 根据链出总数平分一个页面的 RP 值,用公式表示为:
如果一个网页只有对自己的出链,或及几个网页的出链形成一个循环圈,那个不断迭代的过程中,这一个或几个网页的 RP 值只增不减,显然不合理。
为了解决这个问题,拉里·佩奇提出了 PageRank 的随机浏览模型。他假设了这样一个场景:用户并不都是按照跳转链接的方式来上网,还有一种可能是不论当前处于哪个页面,都有概率访问到其他任意的页面,比如说用户就是要直接输入网址访问其他页面,虽然这个概率比较小。所以他定义了阻尼因子 d,这个因子代表了用户按照跳转链接来上网的概率,通常可以取一个固定值 0.85,而 1-d=0.15 则代表了用户不是通过跳转链接的方式来访问网页的,比如直接输入网址。于是最终的计算公式为:
集合中所有页面的 PR 值可以由一个特殊的邻接矩阵的特征向量表示,这个特征向量 R 为:
PageRank 算法中,一个页面的 PR 值直接取决于指向它的的页面。如果在最初给每个网页一个随机且非零的 PR 值,通过上述公式经过多次迭代,这些页面的 PR 值会收敛某个定值,即最终结果。
评论