谬误词典:置信度
还在盛大创新院工作的时候,有一个同事很兴奋地过来找我,说验证码系统出 bug 了,因为他收到了一个"000000"的验证码,这肯定是系统被重置了。我却没有他那么兴奋,原因很简单,对于他来讲,1000 次验证码,就出现了一个百万分之一概率的事件,这种异常出现的概率是 0.1%,所以他有三个 sigma 的置信度,相信这是系统出了 bug。而对于我来讲,我周围有 100 个同事,对于我来讲,这只是一个 10%概率出现的稀有事件,也就一个 sigma 的置信度。如果再考虑到“111111”,“123456”等罕见组合,这个置信度就更低了。
这种谬误不仅仅出现在这种日常,还出现在严肃的科学论文中,我们在学统计学的时候,通常会有一个概念,就是在 95% 的置信度下我们断言,这二者强相关。也就是说如果两者真没有关系,那么我们只有 5%的概率会错误地以为他们强相关,然后发出了一篇垃圾论文。好,那么我们换一个命题,关于一个体系,针对目标数值,我们观测了 20 个维度,那么我们能找到至少一个维度跟目标数值强相关,然后发出论文的概率是多少呢?快速计算一下就知道,这是 64%()。如果是 50 个维度,那么就会上升到 92%。
当然,作为一个有经验的研究生,肯定不会犯这个错误,不会去拼命扩大维度来寻找相关性。好那么我们换个命题,我们有 50 个研究机构,每个研究机构选了一个维度,尽管这些维度都跟目标数值没有关联,那么至少一个研究机构错误地发出一篇论文的概率是多少呢?还是 92%。就是说即使发出论文这个研究员对自己的研究方法很有信心,也很诚实,最后的结论仍然可能是错的。
在之前写Inner Peace的时候,我提到过塔勒布的《随机漫步的傻瓜》,如果你对统计学带来的谬误感兴趣,可以再看看这本书。
题图:Luther at the Diet of Worms, by Anton von Werner, 1877。画的主题是沃尔姆斯会议,马丁路德在这个会议上提出了宗教改革,接下来就有了因信称义。
from: https://en.wikipedia.org/wiki/Diet_of_Worms#/media/File:Luther_at_the_Diet_of_Worms.jpg
版权声明: 本文为 InfoQ 作者【lidaobing】的原创文章。
原文链接:【http://xie.infoq.cn/article/6af4141ca2bd475de71e139c0】。文章转载请联系作者。
评论