【架构师训练营 1 期】第十三周作业

用户头像
诺乐
关注
发布于: 2020 年 12 月 20 日

作业一:你所在的行业,常用的数据分析指标有哪些?请简述。



我所在的网约车行业(常用指标):



用户来源占比:各渠道来源的用户比例(如公众号文章、二维码分享、广告链接等)。



用户所在区域占比:各地区下单用户比例(目前仅针对云南省各市、区/县)。



用户年龄层占比:各年龄段下单用户比例(如18-35、36-45、46-65等)。



驾驶员投诉率:“一星评价”和“两星评价”占总评价数的百分比。



驾驶员晚点率:未在计划时间之内接驾乘客的次数占月总单数的百分比。



驾驶员考核合格率:即驾驶员月度考核合格比例。



作业二:Google 搜索引擎是如何对搜索结果进行排序的?(请用自己的语言描述 PageRank 算法。)



PageRank 算法(又称佩奇排名),是 Google 公司对其搜索引擎搜索结果中的网页进行排名的一种算法。该算法通过输出概率分布来体现某人随机地点击某个链接的概率(PR 值)。

如何计算 PR 值:

假设共有四个网页 A、B、C、D,所有的页面只指向 A,那么 A 的 PR 值就是 B、C、D 的 PR 总和:





再比如 B 链接到 A 和 C;C 链接到 A;并且 D 链接到 A、B、C:





B 就会分出去半票 给 A 、C ;C 给 A 一票;D 给其他各页面三分之一票,结果PR(A)的值就是:





概括一下:算法会根据每个页面总出度L(x)——指向其他页面的总个数——平分该页面的 PR 值,并将其加到所指向的页面:





算法最后会添加一个系数 d 做修正:

  • 给添加出度权重后的 PR 值再乘上该修正系数 d

  • 并保证每个页面的最小值为 (1-d) / NN 为集合中网页的数目

p.s. d是根据上网者使用浏览器书签的平均频率估算而得,大约为 0.85

得到:





同理,我们把该公式泛化到所有的页面,即:





写成矩阵形式:集合中所有页面的 PR 值可以由一个特殊的邻接矩阵的特征向量表示,这个特征向量 R 为:





PageRank 算法中,一个页面的 PR 值直接取决于指向它的的页面。如果在最初给每个网页一个随机且非零的 PR 值,通过上述公式经过多次迭代,这些页面的 PR 值会收敛某个定值,即最终结果。





用户头像

诺乐

关注

还未添加个人签名 2018.12.01 加入

还未添加个人简介

评论

发布
暂无评论
【架构师训练营 1 期】第十三周作业