第十三周作业
【架构师训练营第 1 期 13 周】 作业
你所在的行业,常用的数据分析指标有哪些?请简述。
目前所在的属于快餐行业,老师讲解的指标都有用过。
新增用户数:日/周/年
用户留存率
用户留存率=留存用户数/当期新增用户数, 大约 40%是不错的数据
用户流失率=1-用户留存率
活跃用户数
PV(Page View):用户点击次数
GMV(成交总金额 Gross Merchandise Volume)
转换率=有购买行为的用户数/总访问用户数
还有以下指标:
顾客的单价(AC):顾客订餐花费的平均金额。
访客数量(TC):用餐者总数
数千笔交易的成功率(UPT)
客户的最近一次消费(Recency)
消费频率(Frequency)
消费金额(Monetary)
Google 搜索引擎是如何对搜索结果进行排序的?(请用自己的语言描述 PageRank 算法。)
PageRank 算法,也叫做网页排名,也叫佩奇排名。
通过查看一个页面被其它页面的引用次数,每次被引用就算一票,被引用得越多,票数就越多。就可以在搜索结果中排名更加靠前。更能体现网页的火热程度。
如下图 ABCD 四个网页的连接情况,每个页面一票,这样 A 网站就有 3 票。
如果为了避免几个网页互相引用导致排名不准确,一个页面最多只有 1 票,如果引用了 N 个连接,每个连接可以获取 1/N 票。如图例,A 网站就有 1.83 票。
而有些网站如果知道了这个逻辑,不停地自我引用,这样就不停地被投票,进入了循环。导致票数异常超高。
这样就要引入一个跳出概率,每个连接都有一定几率跳出网页,不再查看。这样尽量过滤自我引用的问题。如果浏览器跳出概率是 50%,A 连接最后的票数是 0.375.
通过抽象得到计算公式:
集合后:
Arvind Arasu 《Junghoo Cho Hector Garcia - Molina, Andreas Paepcke, Sriram Raghavan. Searching the Web》
评论