写点什么

电商行业常用的数据分析指标和 PageRank 算法

发布于: 2020 年 09 月 09 日
电商行业常用的数据分析指标和PageRank算法

电商行业常用的数据分析指标

数据分析

数据分析以量化的方式来分析业务问题并提出解决方案。

量化数据是为了统一认知,并且保证路径可回溯,可复制,统一认知后,才能保证不同层级,不同部门的人在平等话语权和同一个方向进行讨论和协作,才能避免公司内的人以「我感觉」「我猜测」来猜测当前业务的情况。


以数据分析优化产品的流程


数据分析的层级

数据分析过程要解决的问题往往有四个层级

  • 第一层,发生了什么?如流量下降、用户粘性下降。

  • 第二层,为什么?这个答案要落实到用户层面,是第一步的延伸。是用户找不到想要的功能,还是功能不符合用户的预期?

  • 第三层,继续问为什么?这个问题的答案要落实产品层面,即我们的产品的哪项内容造成了用户出现了第二层的问题。

  • 第四层,我们该怎么办?后续该如何改进产品


以这种思维方式作为整个分析的核心思想,就不容易走弯路,更快更好地找出产品的问题,而掌握数据技巧,图表的优化等等都是为了最终找到问题,解决问题这个目的服务的,因此这种层级的思想是数据分析的核心。


数据分析要素

从趋势到对比,再到细分和溯源,是对数据分析逐步进阶的过程


电商行业常用数据分析指标

数据分类

  • 时间类

* 日期

* 周次

* 月份

* 季度

* 年份

  • 渠道

* 场景

* 内部场景

* 外部场景

* 其它

* 渠道

* APP

* PC

* 微信

* QQ

* 其它

  • 支付方式

* 京东支付

* 微信支付

* 线下支付

* 其它

  • 支付工具

* ApplePay 支付

* 白条支付

* 快捷支付

* 微信支付

* 银联支付

* 财付通

* 扫一扫

* 货到付款

* 银联

* 现金

* 京东支付

* 其他

  • 用户属性

* B 端客户

* C 端用户

* 其他

  • 用户生命周期

* 新用户

* 连续活跃用户

* 回流用户

* 沉默用户

* 流失用户

* 流入流出比

  • 地域类

* 行政区域

* 华东

* 华北

* 东北

* 中南

* 西南

* 西北

* 省份

* 北京

* 上海

* 深圳

* 广州

* ……

  • ……

基于 C 端数据分析

基于 C 端的分析主要就集中在下述三个维度:

  • 流量

  • 用户

  • 交易

流量数据分析

用户数据分析

用户数据基本上是基于用户画像进行数据分析的

交易数据分析

PageRank 算法

概述

PageRank,即网页排名,又称网页级别、Google 左侧排名或佩奇排名,以 Google 公司创办人拉里·佩奇(Larry Page)之姓来命名。Google 通过 PageRank 来调整结果,使那些更具“等级/重要性”的网页在搜索结果中另网站排名获得提升,从而提高搜索结果的相关性和质量。其级别从 0 到 10 级,10 级为满分。PR 值越高说明该网页越受欢迎(越重要)。

基本概念

出链:网页链接出去的链接,相当于离散数学的图论中的出度概念;

入链:链接进来的链接,相当于离散数学的图论中的入度。

基本模型


上例子有四个网页,假设当前在 A 网页,上网者会各以 1/3 的概率跳转到 B、C、D,这里的 3 表示 A 有 3 条出链,如果一个网页有 k 条出链,那么跳转任意一个出链上的概率是 1/k,同理 D 到 B、C 的概率各为 1/2,而 B 到 C 的概率为 0。

上图对应的转移矩阵如下:

假设上网者首先出现每一个网页的概率都是相等的,即 1/4,那么权重为:


经过第一次转移之后,各页面计算结果如下:


一直转移下去,计算结果最终会收敛,如下:


最终得到[3/9,2/9,2/9,2/9]


上述模型会遇到两个问题:终止点问题和陷阱问题

终止点问题

现实中存在这么一种网页,它不指向任何网页,如果按照上面的计算,上网者到达这样的网页后便走投无路、四顾茫然,导致前面累计得到的转移概率被清零,这样下去,最终的得到的概率分布向量所有元素几乎都为 0。


陷阱问题

现实中还存在这么一种网页,它不存在指向其他网页的链接,但存在指向自己的链接。进入这样的网页就像跳进了陷阱,陷入了漩涡,再也不能从中出来,将最终导致概率分布值全部转移到这个网页上来,这使得其他网页的概率分布值为 0,从而整个网页排名就失去了意义。


解决终止点和陷阱问题

上网者在浏览网页的时候还有可能直接在地址栏上输入网址跳走,假设上网者每一步查看当前网页的概率为 a,那么他从地址栏跳转的概率为(1-a),于是原来的迭代公式转化为:


现在我们来计算带陷阱的网页图的概率分布:

重复迭代下去,最终得到:

PageRank 算法优缺点

优点

是一个与查询无关的静态算法,所有网页的 PageRank 值通过离线计算获得;有效减少在线查询时的计算量,极大降低了查询响应时间。


缺点

1)人们的查询具有主题特征,PageRank 忽略了主题相关性,导致结果的相关性和主题性降低

2)旧的页面等级会比新页面高。因为即使是非常好的新页面也不会有很多上游链接,除非它是某个站点的子站点。


发布于: 2020 年 09 月 09 日阅读数: 178
用户头像

还未添加个人签名 2018.04.29 加入

还未添加个人简介

评论

发布
暂无评论
电商行业常用的数据分析指标和PageRank算法