无需登录 数据私有 本地保存

ID3 决策树学习演示 - 信息增益构建树

11
0
0
0
0 1 2 3 4 5
步骤 0:查看完整数据集

以下是经典的"天气-打球"数据集,共14条记录。目标变量为"是否打球"。

#天气温度湿度是否打球
信息增益计算
总熵 H(S) = ? (点击"下一步"开始计算)
决策树可视化
点击"下一步"开始构建决策树
根节点 内部节点 打球=是 打球=否 待构建
常见问题与知识点
什么是ID3算法?
ID3(Iterative Dichotomiser 3)是由Ross Quinlan于1986年提出的经典决策树算法。它使用信息增益作为特征选择标准,每次选择信息增益最大的特征来分割数据,递归构建决策树,直到所有叶子节点纯净或没有更多特征可用。
什么是信息熵(Entropy)?
信息熵衡量数据集的不确定性。公式为 H(S) = -Σ pᵢ · log₂(pᵢ),其中pᵢ是第i类的比例。熵越高,数据越混乱;熵为0时,所有样本属于同一类(完全纯净)。例如,14条记录中9条"打球"、5条"不打球",熵约为0.940。
信息增益如何计算?
信息增益 = 分割前的熵 - 按特征分割后的加权平均熵。加权平均熵 = Σ (|Dᵥ|/|D|) × H(Dᵥ),其中Dᵥ是按特征值v分割后的子集。信息增益越大,说明该特征对分类的贡献越大,越适合作为分割节点。
ID3算法的优缺点是什么?
优点:理论清晰、易于理解、可解释性强、能处理离散特征。缺点:①偏向选择取值较多的特征(信息增益偏好);②无法处理连续值特征(需要离散化);③对噪声敏感;④无法处理缺失值;⑤容易过拟合。后续的C4.5算法使用信息增益率解决了偏好问题。
为什么信息增益会偏向多值特征?
假设有一个"编号"特征,每个样本的编号都不同。按编号分割后,每个子集只有1条记录,熵为0,加权平均熵也为0,信息增益达到最大。但这毫无泛化能力。这就是ID3的信息增益偏好问题。C4.5使用信息增益率(信息增益除以特征的固有熵)来解决此问题。
决策树何时停止分裂?
常见的停止条件:①当前节点所有样本属于同一类(熵=0);②所有特征已用完;③信息增益低于阈值;④节点样本数少于阈值;⑤达到预设的最大深度。在本演示中,我们使用条件①和②。