Apriori 算法详解
P(B|A),在 A 发生的事件中同时发生 B 的概率?p(AB)/P(A)?????例如购物篮分析:牛奶???面包
例子:[支持度:3%,置信度:40%]
支持度 3%:意味着 3%顾客同时购买牛奶和面包
置信度 40%:意味着购买牛奶的顾客 40%也购买面包
③如果事件 A 中包含 k 个元素,那么称这个事件 A 为 k 项集事件 A 满足最小支持度阈值的事件称为频繁 k 项集。
④同时满足最小支持度阈值和最小置信度阈值的规则称为强规则
四、实现步骤
Apri 《一线大厂 Java 面试题解析+后端开发学习笔记+最新架构讲解视频+实战项目源码讲义》无偿开源 威信搜索公众号【编程进阶路】 ori 算法是一种最有影响的挖掘布尔关联规则频繁项集的算法 Apriori 使用一种称作逐层搜索的迭代方法,“K-1 项集”用于搜索“K 项集”。
首先,找出频繁“1 项集”的集合,该集合记作 L1。L1 用于找频繁“2 项集”的集合 L2,而 L2 用于找 L3。如此下去,直到不能找到“K 项集”。找每个 Lk 都需要一次数据库扫描。
核心思想是:连接步和剪枝步。连接步是自连接,原则是保证前 k-2 项相同,并按照字典顺序连接。剪枝步,是使任一频繁项集的所有非空子集也必须是频繁的。反之,如果某
个候选的非空子集不是频繁的,那么该候选肯定不是频繁的,从而可以将其从 CK 中删除。
简单的讲,1、发现频繁项集,过程为(1)扫描(2)计数(3)比较(4)产生频繁项集(5)连接、剪枝,产生候选项集???重复步骤(1)~(5)直到不能发现更大的频集
2、产生关联规则,过程为:根据前面提到的置信度的定义,关联规则的产生如下:
(1)对于每个频繁项集 L,产生 L 的所有非空子集;
(2)对于 L 的每个非空子集 S,如果
P(L)/P(S)≧min_conf
评论