不要被数据蒙蔽你的眼睛
01-你看的房价上涨是真的么?
21 世纪的当代,有购房需求的同胞们不可避免的会添加一些房产中介的微信,也因此常常会收到相关房屋价格变化的信息。
如 「据最新二手房市场交易数据显示,我市 11 月份二手房成交均价比 12 月份上涨了 7.7%,目前房市大热,大家走过路过不要错过。」
细心的同学可能会对数据的来源有所较真,想到其底层数据有造假的可能。于是乎,自己按照对应的统计网站进行了一稿计算。结果没想到的是,统计内容竟然是真实的。于是乎,不得不认可文章中的说法。毕竟如下表格所示的「经过验证」的数据,怎么着也不像是假的呀。
那么该地区的房价是否真的上涨了呢? 绝大多数尤其是不了解统计的人看了肯定会说当然涨了。然而事实上,市中心和郊区房屋均价 都降低了 3000 元/平方米。为什么会出现这种情况呢?因为该数据中存在 「辛普森悖论」。
02-什么是辛普森悖论
房屋价格不可避免的受区域影响极大,郊区的房屋均价和市区的房屋均价不可同日而语。下面将该地区的房屋成交均价按照地域划分进行展示:
从上表可以看出,汇总得到的「真实」的房屋成交均价,在分组后呈现完全相反的结果。其中市区和郊区的房屋成交均价 11 月相比较 12 月而言,均下降 3000 元。 而汇总的均价,反而上涨了 2400 元。这种极度违背我们感官的现象就是 「辛普森悖论」。
辛普森悖论是于 1951 年由”E.H.辛普森“提出。
辛普森悖论并不是一种罕见的现象,相反,其在现实生活中非常普遍,特别是在社会科学和医学中。如新入学的学生是否受到性别歧视,新开发的药物对疾病是否有效等。了解辛普森悖论,能帮助我们避免陷入数据的陷阱,从而做出正确的决策。
03-为什么会发生辛普森悖论
从数据角度分析如下。下图的 X 轴表示套数,Y 轴表示成交总价,则橙色点表示的是 11 月成交均价,蓝色点表示的是 12 月成交均价。最右上角的两个点分别是由子向量(市区和郊区)相加得到。其中成交均价 = 房屋总价/套数 即每个向量的「斜率」。
通过上图我们可以得到抽象公式:
即子部分的比例大小,和汇总后的整体大小无直接关系。
04-如何避免辛普森悖论
数据分析作为和数据打交道最频繁的工作之一,如何有效避免「辛普森悖论」成为每一个数据分析从业人员的一个重点,也是难点。
避免辛普森悖论的关键是要有效识别不同分组对事物全貌的影响。
数据陷阱意识提高。在做数据分析时,除了做整体的汇总分析外,也需要增加个体或者分组的分析。两种维度的分析都是必要的。如果两种维度分析得到的结论一致,那么或许可以认可数据结果。若是两种数据得出的结论不一致,那么一定要警惕是否陷入了数据陷阱。
业务敏感性提升。不同分组下的数据结果可能是完全不同的。因此准确的用户或者行为分组极为重要。而如何能做到准确的用户分组呢,首先需要沉入业务,深刻理解业务。如性别分组可能会对药物实验数据产生完全不同的统计效果,学院分组可能会对录取数据产生完全不同的效果,试卷类型分组可能会对通过率产生完全不同的统计效果等。
宏观数据无效性。 很多业务场景下,整体的统计效果反而缺乏参考意义,一定要细分到具体维度,如设备类型,地域,价格,渠道等等维度在进行比对。
针对性系数修正。在抽样数据统计过程中,如果发现确实存在辛普森悖论的情况。可以考虑调整比例系数的方式,以消除分组影响。
05-避免辛普森悖论举例
大家在日常工作中,可能会遇到要分析 某 APP 升级后 UI 在不同操作系统下的转化率提升情况。
1. 如下图所示,如果仅仅是从整体维度看,可能会产生安卓用户的转化率高于 IOS 用户的错误。
2.但是当我们考虑到该款 APP 作为一款 PDF 文档阅读软件,手机和平板作为日常使用场景的区分极为关键。我们就会对转化率进行新一层解读。
3. 反过来,我们可以发现整体算法中,分组权重设置的是不合理的。我们可以以总数的最大值 4000(Android 平板)作为基数,以此可以得到 Android 手机,IOS 手机等权重系数分别是 4,2.29, 1, 5.33。在此基础上,重新计算转化率的对比情况。
4. 如下图所示,引入权重系数后,显然 IOS 用户的转化率是高于 Android 用户的。
综上,在实际的转化率分析中,我们除了要不断的提高分析方法外,还必须充分考虑对统计结果有影响的其他因素。必须警惕「辛普森悖论」的发生。与此同时,进一步增加对诸如「APPU」「ARPPU」这样看似相似实际上有很大差异的指标的应用的理解。
版权声明: 本文为 InfoQ 作者【好奇分析】的原创文章。
原文链接:【http://xie.infoq.cn/article/6333bd102034c191e528d2631】。文章转载请联系作者。
评论