写点什么

朴素贝叶斯分类 - 西瓜分类 python

作者:Five
  • 2022 年 8 月 06 日
  • 本文字数:2092 字

    阅读完需:约 7 分钟

朴素贝叶斯分类-西瓜分类 python

算法思想——基于概率的预测

贝叶斯决策论是概率框架下实施决策的基本方法。对分类任务来说,在所有相关概率都已知的情况下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的标记类别。

理论基础

贝叶斯定理

这个定理解决了现实生活中经常遇到的问题:已知某条件概率,如何得到两个时间交换后的概率,也就是已知 P(B∣A) 的情况下如何求得 P(B∣A)

条件概率 P(B∣A):事件 B 已经发生的情况下,事件 A 发生的概率。

基本求解公式为

P(A∣B) =P(AB)/P(B)

贝叶斯定理之所以有用,是因为在我们生活中经常遇到这种情况:

我们很容易得到 P(A∣B), P(B∣A)则很难直接得出,但我们更关心 P(B∣A) ,贝叶斯定理则为我们打通从 P(A∣B)获得 P(B∣A)的道路。

贝叶斯定理: P(B∣A) = P(A|B)P(B)/P(A)


先验概率:是指根据以往经验和分析得到的概率.

后验概率:事情已经发生,要求这件事情发生的原因是由某个因素引起的可能性的大小

实现代码

import mathimport randomcla_all_num = 0cla_num = {}cla_tag_num = {}landa = 0.6# 拉普拉斯修正值def train(taglist, cla):  # 训练,每次插入一条数据		# 插入分类		global cla_all_num		cla_all_num += 1		if cla in cla_num:  # 是否已存在该分类			cla_num[cla] += 1		else:			cla_num[cla] = 1		if cla not in cla_tag_num:			cla_tag_num[cla] = {}  # 创建每个分类的标签字典		# 插入标签		tmp_tags = cla_tag_num[cla]  # 浅拷贝,用作别名		for tag in taglist:			if tag in tmp_tags:				tmp_tags[tag] += 1			else:				tmp_tags[tag] = 1
def P_C(cla): # 计算分类 cla 的先验概率 return cla_num[cla] / cla_all_num def P_W_C( tag, cla): # 计算分类 cla 中标签 tag 的后验概率 tmp_tags = cla_tag_num[cla] # 浅拷贝,用作别名 if tag not in cla_tag_num[cla]: return landa / (cla_num[cla] + len(tmp_tags) * landa) # 拉普拉斯修正 return (tmp_tags[tag] + landa) / (cla_num[cla] + len(tmp_tags) * landa)
def test( test_tags): # 测试 res = '' #结果 res_P = None for cla in cla_num.keys(): log_P_W_C = 0 for tag in test_tags: log_P_W_C += math.log(P_W_C(tag, cla),2) tmp_P = log_P_W_C + math.log(P_C(cla),2) # P(w|Ci) * P(Ci) if res_P is None: res = cla res_P = tmp_P if tmp_P > res_P: res = cla res_P = tmp_P return res,res_Pdef create_MarriageData(): p0=['青绿','乌黑','浅白'] p1=['蜷缩','稍蜷','硬挺'] p2=['浊响','沉闷','清脆'] p3=['清晰','稍糊','模糊'] p4=['凹陷','稍凹','平坦'] p5=['硬滑','软粘'] dataset = []#创建样本 dataset.append(random.choice(p0))#每个样本随机选择长相 dataset.append(random.choice(p1))#同理,随机选择性格 dataset.append(random.choice(p2))#同理 dataset.append(random.choice(p3))#同理 dataset.append(random.choice(p4))#同理 dataset.append(random.choice(p5))#同理 print("随机产生西瓜为:",dataset) return dataset
def beyesi(): # 训练模型 data=[ ['青绿','蜷缩','浊响','清晰','凹陷','硬滑','是'], ['乌黑','蜷缩','沉闷','清晰','凹陷','硬滑','是'], ['乌黑','蜷缩','浊响','清晰','凹陷','硬滑','是'], ['青绿','蜷缩','沉闷','清晰','凹陷','硬滑','是'], ['浅白','蜷缩','浊响','清晰','凹陷','硬滑','是'], ['青绿','稍蜷','浊响','清晰','稍凹','软粘','是'], ['乌黑','稍蜷','浊响','稍糊','稍凹','软粘','是'], ['乌黑','稍蜷','浊响','清晰','稍凹','硬滑','是'], ['乌黑','稍蜷','沉闷','稍糊','稍凹','硬滑','否'], ['青绿','硬挺','清脆','清晰','平坦','软粘','否'], ['浅白','硬挺','清脆','模糊','平坦','硬滑','否'], ['浅白','蜷缩','浊响','模糊','平坦','软粘','否'], ['浅白','稍蜷','浊响','稍糊','凹陷','硬滑','否'], ['浅白','稍蜷','沉闷','稍糊','凹陷','硬滑','否'], ['乌黑','稍蜷','沉闷','稍糊','稍凹','软粘','否'], ['浅白','蜷缩','浊响','模糊','平坦','硬滑','否'], ['青绿','蜷缩','沉闷','稍糊','稍凹','硬滑','否']] for x in data: train(x[0:6],x[-1])# 测试模型 #for x in data: # print('测试结果:', test(x[0:6]))if __name__ == '__main__': beyesi() #创建朴素贝叶斯分类 #单例测试模型 testcs=['青绿','蜷缩','浊响','清晰','凹陷','硬滑'] print("单例测试为:",testcs) print('测试结果:', test(testcs)) #随机测试模型 for i in range(1,20): print('测试结果:', test(create_MarriageData()))
复制代码

结果


结果截图


发布于: 刚刚阅读数: 4
用户头像

Five

关注

有事多研究,没事瞎琢磨 2022.08.02 加入

CSDN 前端领域优质创作者 , 博客专家认证。 退役ACMer, IT技术狂热爱好者 擅长领域,web前端,算法, 业务架构,可视化,富文本编辑器等。 github: https://github.com/Five-great

评论

发布
暂无评论
朴素贝叶斯分类-西瓜分类 python_贝叶斯公式_Five_InfoQ写作社区