写点什么

第十三周作业

用户头像
orchid9
关注
发布于: 2020 年 12 月 20 日

【架构师训练营第 1 期 13 周】 作业



  • 你所在的行业,常用的数据分析指标有哪些?请简述。



目前所在的属于快餐行业,老师讲解的指标都有用过。

新增用户数:日/周/年

用户留存率

用户留存率=留存用户数/当期新增用户数, 大约 40%是不错的数据

用户流失率=1-用户留存率

活跃用户数

PV(Page View):用户点击次数

GMV(成交总金额 Gross Merchandise Volume)

转换率=有购买行为的用户数/总访问用户数



还有以下指标:

顾客的单价(AC):顾客订餐花费的平均金额。

访客数量(TC):用餐者总数

数千笔交易的成功率(UPT)



客户的最近一次消费(Recency)

消费频率(Frequency)

消费金额(Monetary)



  • Google 搜索引擎是如何对搜索结果进行排序的?(请用自己的语言描述 PageRank 算法。)



PageRank 算法,也叫做网页排名,也叫佩奇排名。



通过查看一个页面被其它页面的引用次数,每次被引用就算一票,被引用得越多,票数就越多。就可以在搜索结果中排名更加靠前。更能体现网页的火热程度。



如下图 ABCD 四个网页的连接情况,每个页面一票,这样 A 网站就有 3 票。


如果为了避免几个网页互相引用导致排名不准确,一个页面最多只有 1 票,如果引用了 N 个连接,每个连接可以获取 1/N 票。如图例,A 网站就有 1.83 票。


而有些网站如果知道了这个逻辑,不停地自我引用,这样就不停地被投票,进入了循环。导致票数异常超高。


这样就要引入一个跳出概率,每个连接都有一定几率跳出网页,不再查看。这样尽量过滤自我引用的问题。如果浏览器跳出概率是 50%,A 连接最后的票数是 0.375.




通过抽象得到计算公式:


集合后:




Arvind Arasu 《Junghoo Cho Hector Garcia - Molina, Andreas Paepcke, Sriram Raghavan. Searching the Web》


用户头像

orchid9

关注

还未添加个人签名 2018.08.21 加入

还未添加个人简介

评论

发布
暂无评论
第十三周作业