写点什么

彻底搞懂贝叶斯的本质

作者:侠之大者
  • 2023-03-09
    广东
  • 本文字数:1607 字

    阅读完需:约 5 分钟

彻底搞懂贝叶斯的本质

有一个事件 A 和事件 B,我们定义 A 发生后,发生了 B。也就是如下图所示:


这里 A 发生的概率表示为:,B 发生的概率表示为


特此说明

  • 事件 A 表示:发生,如赚了 1000 万;

  • 事件 B 表示:发生,很开心;

全概率公式

接着我们做如下定义,

表示在 发生的条件下,B 发生的概率。(A 为先发事件,B 为后发事件)

如下图,红色线路发生的概率为:;


当所有线路都发生,求和可知 B 发生的整体概率,我们就可以得到全概率公式

如下:

可以简化为:

贝叶斯公式

现在我们反向思考:如果发生,那么,是通过这条线路发生的概率可以表示为:


在观测到 B 的发生后, 成立的概率。(通过红色线路)


如上图,红色线路发生的概率是;则:



可以简写为:



复杂写法为:


结论启发

所有推测原因的场景,都可以用贝叶斯公式,推测结果的场景用全概率公式。


这个“原因”并非指的是导致事件发生,而是可以指一种先验概率,即在 B 事件发生之前,我们对 A 事件概率的一个判断。


称之为后验概率,即在 B 事件发生之后,我们对 A 事件概率(可能性)的重新评估。


比如你假设对方喜欢你,喜欢你的概率为,对方主动邀请你看电影的概率是 ,因为对方主动邀请你看电影这个事发生了,反过来加强了你对她喜欢你的这个判断的信心,因为她喜欢你的概率变大了。


我们大脑的判断逻辑,在很多场景下都是这个流程。比如你找钥匙,肯定是猜测在某个大概的地方和位置的概率比较大,然后回忆和推理发生的事来佐证,就像破案一样。


麦肯锡方法中的以事实为基础的、系统化的、大胆假设,小心求证。也是贝叶斯模式,解决一个复杂问题如同开始一段长途旅行,初始假设是问题解决的开始。实际过程中需要经历定义、生成及检验初始假设三个阶段。你假设了一个“原因”,然后根据已经发生的事和收集的事实,来去倒推原因

举例说明

贝叶斯在机器学习中最经典的用法之一就是识别垃圾邮件。



我们要计算一个邮件是不是垃圾邮件的概率。如果是垃圾邮件的概率大于 70% 就自动分类到垃圾收件箱。


我们定义垃圾词:优惠,如果邮件出现优惠两个字,是垃圾邮件出现优惠的概率是 10%,非垃圾邮件出现优惠的概率是 5%。根据过去收件箱整体的情况,收到垃圾邮件的概率是 40%,收到正常邮件的概率是 60%。那现在收到一个带有优惠两个字的邮件,那么他是垃圾邮件的概率是多少?


根据贝叶斯公式可以做如下计算:



该邮件是垃圾邮件的概率不到 70%。但是在实际生产环境下,垃圾邮件和非垃圾邮件的概率是会变动的,垃圾词汇也会丰富很多,这就需要各自交叉各种规则,来判断邮件是垃圾邮件的概率。


发布于: 刚刚阅读数: 4
用户头像

侠之大者

关注

还未添加个人签名 2018-09-20 加入

还未添加个人简介

评论

发布
暂无评论
彻底搞懂贝叶斯的本质_机器学习_侠之大者_InfoQ写作社区