电商行业常用的数据分析指标和 PageRank 算法
电商行业常用的数据分析指标
数据分析
数据分析以量化的方式来分析业务问题并提出解决方案。
量化数据是为了统一认知,并且保证路径可回溯,可复制,统一认知后,才能保证不同层级,不同部门的人在平等话语权和同一个方向进行讨论和协作,才能避免公司内的人以「我感觉」「我猜测」来猜测当前业务的情况。
以数据分析优化产品的流程
数据分析的层级
数据分析过程要解决的问题往往有四个层级
第一层,发生了什么?如流量下降、用户粘性下降。
第二层,为什么?这个答案要落实到用户层面,是第一步的延伸。是用户找不到想要的功能,还是功能不符合用户的预期?
第三层,继续问为什么?这个问题的答案要落实产品层面,即我们的产品的哪项内容造成了用户出现了第二层的问题。
第四层,我们该怎么办?后续该如何改进产品
以这种思维方式作为整个分析的核心思想,就不容易走弯路,更快更好地找出产品的问题,而掌握数据技巧,图表的优化等等都是为了最终找到问题,解决问题这个目的服务的,因此这种层级的思想是数据分析的核心。
数据分析要素
从趋势到对比,再到细分和溯源,是对数据分析逐步进阶的过程
电商行业常用数据分析指标
数据分类
时间类
* 日期
* 周次
* 月份
* 季度
* 年份
渠道
* 场景
* 内部场景
* 外部场景
* 其它
* 渠道
* APP
* PC
* 微信
* 其它
支付方式
* 京东支付
* 微信支付
* 线下支付
* 其它
支付工具
* ApplePay 支付
* 白条支付
* 快捷支付
* 微信支付
* 银联支付
* 财付通
* 扫一扫
* 货到付款
* 银联
* 现金
* 京东支付
* 其他
用户属性
* B 端客户
* C 端用户
* 其他
用户生命周期
* 新用户
* 连续活跃用户
* 回流用户
* 沉默用户
* 流失用户
* 流入流出比
地域类
* 行政区域
* 华东
* 华北
* 东北
* 中南
* 西南
* 西北
* 省份
* 北京
* 上海
* 深圳
* 广州
* ……
……
基于 C 端数据分析
基于 C 端的分析主要就集中在下述三个维度:
流量
用户
交易
流量数据分析
用户数据分析
用户数据基本上是基于用户画像进行数据分析的
交易数据分析
PageRank 算法
概述
PageRank,即网页排名,又称网页级别、Google 左侧排名或佩奇排名,以 Google 公司创办人拉里·佩奇(Larry Page)之姓来命名。Google 通过 PageRank 来调整结果,使那些更具“等级/重要性”的网页在搜索结果中另网站排名获得提升,从而提高搜索结果的相关性和质量。其级别从 0 到 10 级,10 级为满分。PR 值越高说明该网页越受欢迎(越重要)。
基本概念
出链:网页链接出去的链接,相当于离散数学的图论中的出度概念;
入链:链接进来的链接,相当于离散数学的图论中的入度。
基本模型
上例子有四个网页,假设当前在 A 网页,上网者会各以 1/3 的概率跳转到 B、C、D,这里的 3 表示 A 有 3 条出链,如果一个网页有 k 条出链,那么跳转任意一个出链上的概率是 1/k,同理 D 到 B、C 的概率各为 1/2,而 B 到 C 的概率为 0。
上图对应的转移矩阵如下:
假设上网者首先出现每一个网页的概率都是相等的,即 1/4,那么权重为:
经过第一次转移之后,各页面计算结果如下:
一直转移下去,计算结果最终会收敛,如下:
最终得到[3/9,2/9,2/9,2/9]
上述模型会遇到两个问题:终止点问题和陷阱问题
终止点问题
现实中存在这么一种网页,它不指向任何网页,如果按照上面的计算,上网者到达这样的网页后便走投无路、四顾茫然,导致前面累计得到的转移概率被清零,这样下去,最终的得到的概率分布向量所有元素几乎都为 0。
陷阱问题
现实中还存在这么一种网页,它不存在指向其他网页的链接,但存在指向自己的链接。进入这样的网页就像跳进了陷阱,陷入了漩涡,再也不能从中出来,将最终导致概率分布值全部转移到这个网页上来,这使得其他网页的概率分布值为 0,从而整个网页排名就失去了意义。
解决终止点和陷阱问题
上网者在浏览网页的时候还有可能直接在地址栏上输入网址跳走,假设上网者每一步查看当前网页的概率为 a,那么他从地址栏跳转的概率为(1-a),于是原来的迭代公式转化为:
现在我们来计算带陷阱的网页图的概率分布:
重复迭代下去,最终得到:
PageRank 算法优缺点
优点
是一个与查询无关的静态算法,所有网页的 PageRank 值通过离线计算获得;有效减少在线查询时的计算量,极大降低了查询响应时间。
缺点
1)人们的查询具有主题特征,PageRank 忽略了主题相关性,导致结果的相关性和主题性降低
2)旧的页面等级会比新页面高。因为即使是非常好的新页面也不会有很多上游链接,除非它是某个站点的子站点。
版权声明: 本文为 InfoQ 作者【拈香(曾德政)】的原创文章。
原文链接:【http://xie.infoq.cn/article/2da625ae6af9a74d0e2d19f1d】。文章转载请联系作者。
评论