写点什么

产品经理好用易上手的数据分析方法

作者:龙国富
  • 2022 年 5 月 03 日
  • 本文字数:4734 字

    阅读完需:约 16 分钟

产品经理好用易上手的数据分析方法

公众号:龙国富,人因工程硕士。致力于终身学习和自我提升,分享用户研究、客户体验、服务科学等领域资讯,观点和个人见解。


前面《数据分析之前知道这 7 件事,少花 80% 时间》讲了在数据分析之前需要知道的事,在进入数据分析阶段,笔者总结整理了一些好用易上手的分析方法,让你事半功倍。

以下,Enjoy~

通过本文,你可以了解:

1、数据分析的金字塔模型

2、7 种数据分析的方法

3、4 种统计数值掌握数据特性

4、2 个叙述统计的陷阱

5、5 种数据比较的方法

6、数据比较的陷阱

7、相关关系与因果关系

8、利用 A/B 测试,确认因果关系

1.数据分析的金字塔模型


数据分析从难易程度区分大致可以划分为 5 个层级,覆盖了数据整理、统计、机器学习的过程,数据分析后的决策环节不在本次讨论的范围。

5 个层级分别包括了:量化现况、量化变数之间的相关性、量化变数之间的因果关系、预测未来和求最佳解。

Q1:SaaS 销售人员拜访新客户次数的走势如何?

比如层级 1,需要解的问题是量化现况。可以使用“叙述统计”、“数据可视化”等方法,把数据通过图表的方式表现出来,从中观察图表的数量、频次、波动、分布等等,这个层级主要是依赖可视化后的观察得以实现。

Q2:SaaS 销售人员拜访新客户的次数,跟营业额有相关吗?Q3:市场部增加广告投放量,就能得到更多订单吗?

像层级 2、3 中探索数据的相关和因果关系,是需要藉由数据观察后,再进行二次推论,属于数据挖掘。

Q4:SaaS 产品经理追踪哪些数据,才能知道用户下个月会不会取消订阅?Q5:CEO 该如何分配员工开发新客户,才能让营收最大化?

而层级 4、5 则是希望通过已有数据的样本,去预估未来数据的可能性/概率、最佳解或近似解,属于数据探索。

对于不同层级,需要面对的问题也不一样,可以层层递进,由易到难,逐一选择数据分析需要解的问题。在进入数据分析阶段,具备数据分析的层级结构认知尤为重要,这决定了你能够在对的时机做对的事情。

2.7 种常见数据分析方法

2.1 总量分析

用于描述某个母群(population,指你想了解的集合体,可能是顾客或产品)或某个市场区隔,或者比较两个市场区隔的差异,是最常用、最简单的分析方法。

Q:哪些人会在酒庄办婚礼呢?

查阅过往 3 年、300 位顾客的预约记录→分析性别、年龄、户籍地址→ 85% 女性、平均年龄 33 岁、60% 是当地人→如何针对这群人沟通、拓展业务?

2.2 相关分析

观察 2 件或多件事情间的关系,期望能用一个因素解释或驱动另一个因素。

Q:为什么推出某个功能后,转化率会下降?

假设 1:转化率跟浏览器有关。

假设 2:转化率跟有无网络信标(web bug)有关。


结论:

* Chrome 浏览器如果有网络信标,会造成转化率下降 13%。

* Chrome 浏览器造成转化率下降 20%。

* 60% 的转化率下降仍然无法解释。

注:网络信标(web bug)是一个放在网页或电子邮件上的文件对象,用于监测用户的行为。

2.3 趋势分析

分析一段时期内的趋势,常用于检视一段时间内的销售绩效或营业成长率,目标是找出中断的节点,并指出那段时期内受影响的原因。

Q:营收增长,但成长率却下降,原因出在哪?

步骤 1,观察一段时间内的趋势。


步骤 2,加入各产品、各渠道的营收和成长率。



🔎观察结果→ S 成长率不断下降、M 的站外成长率却在上升。

步骤 3,量化影响。


🔎观察结果→ S 占营收成长率下降的 84%,必须集中心力采取行动。

2.4 规模估计

在缺乏历史的情况下,以结构化的方法估算。通常用于进军新市场的企划,或是要了解未上市产品的销售潜力。

Q:想在广东某城市推广小学夏令营产品,怎么估算市场规模?

步骤 1,分层。将问题切割,找出可能不同的市场区隔。

市区和郊区的小学密度可能不同
复制代码

步骤 2,设计方程式。确定哪些数值和因素可能影响正在估算的规模数值。

城市、人口和财富可能影响小学的数量小学数量 = 城市数量x每座城市的人口数x每群人口的学校数量x财富因数(市区和郊区的财富对比)
复制代码

步骤 3,计算方程式。对方程式里的数值进行假设。

市区人口=50K,郊区人口=10K。每10K人有1所学校,市区的财富是郊区的2倍。市区小学估计值:20x50000x1/10000=200郊区小学估计值:20x10000x1/10000=20约有220所小学
复制代码

2.5 预测分析

分析目前和过去的事实数据,来预测未来的事件或行为,最常使用的统计技术是回归和分类。

Q:结账的转化率变低了,为什么?

利用逻辑回归建立模型(特别的回归形式,适用于因变数是二元性质,“有或没有”,此案例考量即为有转化或没转化)


因变数:想要预测的目标,如转化率。

自变数:指可能和因变数有关系,或是没有关系的一些未知数,由所提出的假设决定,如蓝色按钮、横幅广告等。

2.6 市场区隔

区隔顾客或产品成有意义的群组,通常是为了锁定目标,透过量身打造的方式,让该目标群体产生更高的价值。

Q:哪些客户只想折扣?哪些客户想要第一手信息?

用 RFM 模型为顾客分组。


2.7 顾客生命周期分析

观察消费者的购买流程,以确定某一群顾客正处于哪个阶段,以及怎么将他们推向下一个阶段。

Q:怎么让使用者成为重度玩家?


同类群组分析 → 客户存活的天数过短,就必须加强使用者体验;若新客户人数逐渐减少,则必须加强广告或增加促销活动。

3. 4 种统计数值掌握数据特性

手上有一群数据的时候,要快速掌握数据的特征,可以从“平均数”、“中位数”、“众数”和“标准差”下手。

Q:这是公司全体员工职业 IT 素养程度报告,身为公司数字化转型的负责人,该如何利用它拟定教育训练策略?

* 整体实力中等,满分 10 分,拿到平均成绩为 5.8 分。

* 组织实力分布不均,中位数低于平均数,表示能力落后的成员较多,应依能力设计不同的课程,或由能力佳者带领落后者学习。


员工职业 IT 素养程度表

4. 2 个叙述统计的陷阱

叙述统计虽然能够帮助我们掌握数据的特征,快速产生观点,但在应用平均数、百分比推导结论时,要留意陷阱。

4.1 平均数陷阱

平均分提高了 1.2 分,表现优异。


平均数虽然提高了,但标准差只缩小 0.6 分,代表组织内程度差距未缩小,可能是有 IT 背景者进步幅度大,拉高了平均分。

4.2 百分比陷阱

近 3 年员工职业 IT 素养的成绩持平,2021 年成绩跟 2019 年一样。


不要用百分比去推算分数是否成长,因为每年的基期不一样,所以增长或减少的数值会不同。下表所示,2021 年成绩比 2019 年少了 0.71 分。


5. 5 种数据比较的方式

「比较」是让数据产生意义的有效方式,但怎么比、跟谁比?我整理了 5 种比较方式,以拿到某品牌挂耳咖啡的销售数据为例。

5.1 差距比较:分析对象和比较对象的差异

Q:某公司挂耳咖啡包全年营收 3 亿在市场上的表现如何?跟竞争对手的差距为何?

步骤 1,选择比较对象,同类性质互比。


步骤 2,设定比较基准值,绘制条形图。


A:挂耳咖啡包为 A 公司主力商品,虽然 A 公司在咖啡包全年收入上超越我们,但比起 A 公司,我们具有多项产品同步发展的优势。

5.2 趋势比较:分析一段时期内市场、营收、产品的走势

Q:某公司挂耳咖啡包 2021 年营收 3 亿,跟前几年比有成长吗?成长了多少呢?

步骤 1,搜集近 10 年公司咖啡包营收数据,绘制折线图。

步骤 2,观察曲线走向,根据转折点、异常值推测变化的原因。


A:跟 2020 年比没有成长太多,但与 2012 年相比营收成长了 10 倍,显然贩售联名商品有效果。

5.3 指数分析:利用总体市场数据,判断品牌的目标对象

Q:某公司挂耳咖啡包在市场上哪个年龄层最有优势?

步骤 1,搜集比较对象的人口分布比例。

步骤 2,计算指数数值。当指数小于 95,代表在该年龄层为相对少数,指数大于 105 代表在该年龄层为相对多数。


A:咖啡包在 25~44 岁的客群中有竞争优势,45 岁以上的客群还需要经营。

5.4 异质比较:分析数据的结构是否明确偏向或集中某处

Q:假设挂耳咖啡包月度营收为 250 万,跟公司的其他产品相比表现算好吗?

步骤 1,将所有产品月度营收分布由大至小排列,并记录区间次数。


步骤 2,绘制直方图,注意分散的程度、峰值数量。

图 1:一个峰值位于中间、图偏向「钟型曲线」,代表数据为常态分布,产品的营收平均值与中位数较不受异常值影响,分布比较平均。


图 2:有 2 个峰值,平均数、中位数受异常值影响,数据分布不平均。


A:产品月度营收分布如图 1 所示,代表产品的月度营收分布平均,集中在 151~200 万区间,咖啡包收入 250 万高于平均,表现不错。

5.5 变数分析:比较多个事件的关系,希望找到其中一个事件能去解释另外一个事件

Q:网络广告费用的多少,是否影响挂耳咖啡包的销售额?

步骤 1,利用 Excel 的 CORREL 函数计算广告投入费、销售额的相关系数,系数越接近 1,代表广告费投入与销售额呈正相关;系数越接近 -1,则表示两者为负相关。


步骤 2,将数据绘制成分布图。


A:广告投入费用与产品销售额呈正相关,代表投广告的行销策略有效,下次退出新品时可参考此策略。

6. 数据比较的陷阱

Q:患者死亡率是评估医疗品质的指标之一,试试从下表评判,A、B 医院,哪间医疗品质更好?

⚠️ 无法评判。参考表 1 时,B 医院平均死亡率比 A 更低,B 医院表现比 A 更好;但表 2 加入「轻重症死亡人数」变项时,A 医院无论在轻症、重症死亡率都比 B 更好,为什么会这样?

原因:因为 A 医院的重症人数是 B 的 3 倍以上,导致平均死亡率被拉升,只要 A、B 医院轻重症患者比例相同,就不会有类似的问题。这个案例被称为「辛普森悖论」现象,也就是当某项统计变项为搜集到(此例为轻重症人数比例),造成统计结果逆转的现象。

避免方式:

1.比较对象程度一致:医院不跟诊所比。

2.依分析目的决定数据分析方法:整体状况适用平均数分析;群体内比较则搜集更多统计变项的数据。

7. 相关关系与因果关系

Q:许多世界知名的领导者都爱好运动,前美国总统奥巴马从小打篮球、youtube 总裁沃西基擅长冰球。所以我们可以推测,「擅长运动的孩子,学习力更好」?

运动与学习力之间应为相关关系而非因果关系,两者之间可能存在着第三变数,也就是家长对教育的重视程度。


* 培养运动能力,未必能提升学习力~

* 运动能力→学习能力→家长对教育的重视程度

* 重视教育的家长,会引导孩子学习,所以他们的成绩比较出色~

* 重视教育的家长,会注意孩子的饮食均衡,导致体力变好~

X 导致 Y 或 Y 导致 X,其实存在另一个变数 Z,是 Z 导致 X 和 Y。举例来说,冰淇淋的销售量会随着穿短裤的人数增加而增加,不是「越多人穿短裤」导致「越多人买冰淇淋」,而是两种发生的共同原因是「夏天气温较高」。

如果混淆了因果和相关,比方广告预算越多,销售额越高,容易导致做出错误的商业决策。所以,较谨慎的做法是进行随机对照实验(RCT,Randomized Controlled Trial),或者称 A/B 测试(A/B Testting),就是把受试者随机分为两组,两组只有一个变数不同,如果导致不同结果,便可以称该变数导致某结果,或变数和结果有因果关系。

8. 利用 A/B 测试,确认因果关系

南美国总统奥巴马的竞选团队,便是利用 RCT 测试哪一种首页的注册率最高。结果相比原本想选择「影片」和「望向远方的独照」,最后经对实验选择「奥巴马全家福」的方案让注册人数多了 288 万人,并多募得 6000 万美元的政治献金。

如果环境不允许,或是没有资源做随机对照实验,《数据分析的力量》建议用「自然实验(natural experience)」替代,就是进行一系列假设、验证,厘清因果关系。

举例来说,想知道改变自付额,对医疗服务使用频率的影响。可以先假设「如果自付额会影响医疗服务的使用,70 岁以上的人,应该会比 70 岁以下的人,更常使用」,因为日本法令规范,70 岁开始,自付额由 3 成降为 1 成。

查询公开数据后发现,随着年龄愈大,医疗服务的使用者也愈多。但到了 70 岁,原本缓慢上升的曲线突然大跳跃!

这个「断层」代表有变数发生,而 69~70 岁比较普遍的改变,就是自付额的高低。自付额和医疗服务的使用频率有因果关系得到了验证。


公众号:龙国富,人因工程硕士。致力于终身学习和自我提升,分享用户研究、客户体验、服务科学等领域资讯,观点和个人见解。

发布于: 刚刚阅读数: 4
用户头像

龙国富

关注

关注公众号:龙国富。 2018.04.20 加入

做客户体验和SaaS的~

评论

发布
暂无评论
产品经理好用易上手的数据分析方法_数据分析_龙国富_InfoQ写作社区