无需登录 数据私有 本地保存

FP-Growth 频繁模式挖掘演示 - 关联规则学习

10
0
0
0

FP-Growth 频繁模式挖掘

关联规则学习 · 购物篮分析 · 频繁项集挖掘演示

1 2 3 4 5
参数设置
支持度 = 项集出现次数 / 总事务数
置信度 = Support(X∪Y) / Support(X)
FP树可视化 等待挖掘...
#频繁项集支持度计数支持度大小
请设置参数后点击"执行挖掘"
#前件 → 后件支持度置信度提升度相关性
请设置参数后点击"执行挖掘"
频繁项支持度条件模式基条件FP树频繁项挖掘出的模式
请设置参数后点击"执行挖掘"
常见问题与知识点
什么是FP-Growth算法?

FP-Growth(频繁模式增长)是一种无需候选生成的频繁项集挖掘算法。它通过构建FP树(频繁模式树)来压缩数据库,然后递归地从FP树中挖掘频繁模式,避免了Apriori算法中大量的候选生成和数据库扫描。

FP树是如何构建的?

首先扫描数据库统计各项支持度,筛选频繁项并按支持度降序排列。然后对每条事务,只保留频繁项并按此顺序排列,逐条插入FP树——共享前缀则计数累加,新路径则创建新节点。同时维护项头表链表。

什么是条件模式基?

条件模式基是针对某个频繁项的所有前缀路径集合。例如,对于项"啤酒",找到FP树中所有"啤酒"节点,收集其到根节点的路径(不含"啤酒"自身),路径计数等于该"啤酒"节点的计数。这些前缀路径构成"啤酒"的条件模式基。

支持度、置信度、提升度是什么?

支持度:项集在总事务中出现的比例。置信度:在X出现的条件下Y也出现的概率。Conf(X→Y) = Support(X∪Y)/Support(X)。提升度:衡量X和Y的关联强度。Lift>1正相关,Lift=1独立,Lift<1负相关。

FP-Growth与Apriori哪个更好?

FP-Growth通常比Apriori快1-2个数量级。Apriori需要反复扫描数据库来生成候选集,而FP-Growth只需2次数据库扫描(统计频繁项+构建FP树),之后完全在内存中的FP树上递归挖掘。对于大型数据集,FP-Growth优势更明显。

实际应用场景有哪些?

购物篮分析(发现商品搭配)、推荐系统("买了X的人也买了Y")、医疗诊断(症状与疾病的关联)、网络安全(入侵检测模式)、文本挖掘(词语共现模式)、生物信息学(基因表达模式分析)等。