架构师训练营第 1 期 -week13
问题1
你所在的行业,常用的数据分析指标有哪些?请简述。
电商行业主要关注 3 大块数据用户数据、行业数据、业务数据;
关于用户数据主要有如下指标
存量:DAU/MAU (日活 / 月活);比如张三开个小店,他需要知道大概每天有多少用户来到店里,每个月大概有多少用户来到店里。这些是判断用户的最基本的指标。对于线下业务,一般通过店里的人流量就能判断个七八。有了互联网后,这个数据会更加准确
新增用户:特别是在业务的起步阶段,这个指标尤为重要;这个代表公司的潜力。比如拼多多,一年比一年亏损多,但股价却越来越高,主要原因就是资本市场看好拼多多用户的增速。比如张三刚开店,就需要非常重视这个指标,要记录来店的用户是否越来越多了,如果没有的话,是不是需要做一些推广活动来拉动用户
健康程度:怎么反应用户的状况是不是健康呢?最好的指标就是留存率。也就是我们线下常说的回头客。留存率又分次日留存率,次周留存率,次月留存率等等。客户能留下来,才能说明他们对你的服务满意,满意才能养成惯性,持续消费。比如张三的小店,就要关心回头客是不是够多,考虑怎么刺激客户再次购买
渠道来源:指的是这些人变成用户之前,来自哪里;这样才能知道在哪个渠道做推广会更有效果;比如张三的小店,就可以做一个用户调查,收集一下每位用户在哪里知道的店铺信息(当然要给一些小的奖励,否则大家参加调查的意愿会不高)。比如通过调查发现,很多人都是通过抖音来到的店铺,那么他就可以在抖音上大力推广
关于行为数据主要有如下指标
次数 / 频率:PV、UV、访问深度等。PV,页面浏览量;UV,用户浏览量;访问深度,也就是指用户的访问深度。当然希望这三个指标都越来越大。再拿张三的衣服店举例子,他一定希望每天有很多 “人” 来逛,每个人逛很多次,同时每次逛的深度越深越好,比如从第一个柜台逛到第二个柜台,从一楼逛到二楼。这三个指标越大,交易次数就可能越多
转化率:怎么理解转化率呢?可以把用户分为 “只逛不买” 的用户,还有 “逛了就买” 的用户,还有 “逛了买买买” 的用户。我们肯定希望第三种用户越多越好,问题就是怎么把第一种用户转化成第三种用户。假设张三的小店,一楼卖的是低端服饰,二楼是高端服饰,那么张三肯定希望尽可能的把一楼的用户转化为二楼的用户,这怎么做呢?比如可以宣传,凡是在二楼购物的用户,都可以免费领取一杯咖啡等等,这样就可以有效的刺激用户的转化
做了多久:这个指用户停留的时长;举个例子,为什么现在抖音这么牛,就在于用户的黏性太大。你想想,是不是每次刷抖音,很快一个小时就过去了。这里的商业逻辑是,用户停留的时间越长,购买的可能性就越大。比如张三的小店,就可以布置的更有特点一些,让用户不知不觉就逛了很长时间,流连忘返,不知不觉就产生了购买的欲望
质量:互联网行业经常用 “弹出率” 来衡量质量。这个指标稍微有些抽象,指的就是有多少用户,刚逛没多久,扭头就走。这就说明了你的小店不符合这些用户的期望。也许是自己的小店需要调整,也许是这种用户就不是我们的目标群体(不可能一个小店满足所有人的需求,剔除非目标群体也是专注运营的好办法)
关于业务数据主要有如下指标
总量:GMV,这个词太常见了;大公司在发布财报的时候,这个数每次必提。特别是大的互联网公司,重点就是强调 GMV,让资本市场看清楚自己的体量是不可撼动的
人均:ARPU (Average Revenue Per User,每用户平均收入),光总数高还不行,我们还要关心平均每个用户的贡献是否够多,是否在增长,所以就要关心人均的指标。比如一些奢侈品行业,就非常关心这个指标,用户数虽然不多,但是个体消费能力极强
健康程度:整个业务也要有一个健康度的指标来衡量。付费率是一个不错的选择。到底有多少比例用户是付费用户,这是一个关键点。比如爱奇艺的财报,每次必提会员用户数量,用来彰显有多少用户愿意付费购买他们的服务。反之,一些工具类的 APP 就比较尴尬,苦于找不到收费模式,或者现有的收费模式用户不买账,自然付费率就很低。比如墨迹天气和万能钥匙,虽然用户量巨大,但付费用户却要少的多
被消费对象:这是另一个角度看业务,从 SKU 的角度看健康度。通过分析,发现某些商品,就特别的受欢迎。那么我们就应该大力的引进这种产品来满足需求,刺激消费
问题2
Google 搜索引擎是如何对搜索结果进行排序的?(请用自己的语言描述 PageRank 算法。)
什么是PageRank
PageRank,网页排名,又称网页级别,Google 左侧排名或佩奇排名,是一种由搜索引
擎根据网页之间相互的超链接计算的技術,而作为网页排名的要素之一,以 Google 公
司創辦人拉里·佩奇(Larry Page)之姓來命名。
PageRank的原理
假设总共只有四个网页 A、B、C、D,所有的页面只指向 A,那么 A 的 PR 值就是 B、C、D 的 PR 总和:
继续假设 B 也有链接到 C,并且 D 也有链接到包括 A 的3个页面
算法认为,每个页面投票的权重应该是一样的。一个页面投了多票,被投票的页面就只能分到部分权重,例如B透出了A和C,那么A和C就只能占PR(B)的一半,所以:
根据每个页面链出总数L(x)
—— 指向其他页面的总个数 —— 平分该页面的 PR 值,并将其加到所指向的页面
但是,一个网页只有对自己的出链,或者几个网页的出链形成一个循环圈。那么在不断地迭代过程中,这一个或几个网页的PR值将只增不减,显然不合理。
如图中的C网页
为此,我们假设一个随机浏览网页的人,假定他有一个确定的概率会输入网址直接跳转到一个随机的网页,并且跳转到每个网页的概率是一样的。
在算法中引入一个系数 d
做修正:
给添加出度权重
1/L(x)
后的 PR 值再乘上该修正系数d
并保证每个页面的最小值为
(1-d) / N
,N
为集合中网页的数目
d一般取0.85
评论