ID3 决策树学习演示 - 信息增益构建树

0 1 2 3 4 5

步骤 0：查看完整数据集

以下是经典的"天气-打球"数据集，共14条记录。目标变量为"是否打球"。

#	天气	温度	湿度	风	是否打球

信息增益计算

总熵 H(S) = ? （点击"下一步"开始计算）

决策树可视化

点击"下一步"开始构建决策树

根节点内部节点打球=是打球=否待构建

常见问题与知识点

什么是ID3算法？

ID3（Iterative Dichotomiser 3）是由Ross Quinlan于1986年提出的经典决策树算法。它使用信息增益作为特征选择标准，每次选择信息增益最大的特征来分割数据，递归构建决策树，直到所有叶子节点纯净或没有更多特征可用。

什么是信息熵（Entropy）？

信息熵衡量数据集的不确定性。公式为 H(S) = -Σ pᵢ · log₂(pᵢ)，其中pᵢ是第i类的比例。熵越高，数据越混乱；熵为0时，所有样本属于同一类（完全纯净）。例如，14条记录中9条"打球"、5条"不打球"，熵约为0.940。

信息增益如何计算？

信息增益 = 分割前的熵 - 按特征分割后的加权平均熵。加权平均熵 = Σ (|Dᵥ|/|D|) × H(Dᵥ)，其中Dᵥ是按特征值v分割后的子集。信息增益越大，说明该特征对分类的贡献越大，越适合作为分割节点。

ID3算法的优缺点是什么？

优点：理论清晰、易于理解、可解释性强、能处理离散特征。缺点：①偏向选择取值较多的特征（信息增益偏好）；②无法处理连续值特征（需要离散化）；③对噪声敏感；④无法处理缺失值；⑤容易过拟合。后续的C4.5算法使用信息增益率解决了偏好问题。

为什么信息增益会偏向多值特征？

假设有一个"编号"特征，每个样本的编号都不同。按编号分割后，每个子集只有1条记录，熵为0，加权平均熵也为0，信息增益达到最大。但这毫无泛化能力。这就是ID3的信息增益偏好问题。C4.5使用信息增益率（信息增益除以特征的固有熵）来解决此问题。

决策树何时停止分裂？

常见的停止条件：①当前节点所有样本属于同一类（熵=0）；②所有特征已用完；③信息增益低于阈值；④节点样本数少于阈值；⑤达到预设的最大深度。在本演示中，我们使用条件①和②。

数据分类演示器 - 手写数字k-NN模拟

在Canvas上手写数字，通过预训练的简单模型或k-NN演示实时预测数字标签。

AI演示分类机器学习演示

音频文件元数据查看器 - 读取 ID3 标签与编码信息

上传 MP3/AAC/OGG 等音频文件，显示标题、艺术家、专辑、时长、比特率等标签信息。

多媒体 ID3 元数据查看音频

手指关键点追踪 - MediaPipe手势检测

利用MediaPipe Hands模型，实时识别手部21个关键点并在摄像头上绘制骨架。

AI演示 AI 手势识别追踪

requestIdleCallback 任务调度演示 - 空闲时间利用

模拟在主线程繁忙时插入低优先级任务，观察 requestIdleCallback 如何将任务推迟到空闲周期执行。

开发工具 requestIdleCallback 性能空闲调度

热门

桑基图生成器 - 流量/能量分流图

通过CSV或手动输入源、目标、数值，生成展示流向和占比的桑基图。

数据可视化可视化图表桑基图

IndexedDB 数据查询浏览器 - 对象仓库可视化

连接当前页面的IndexedDB数据库，浏览对象仓库与索引，运行简单的过滤与查询。

存储 IndexedDB 存储查询浏览器

轮询机制模拟器 - setInterval 数据请求演示

模拟客户端定时请求服务器数据，展示网络延迟和响应，对比短轮询效率。

开发工具实时模拟演示轮询

声明式链接捕获演示 - 一键打开PWA

设置capture_links清单字段，让浏览器在点击链接时自动打开PWA而不是新标签页。

PWA PWA 演示链接捕获

自动密钥密码 - 维吉尼亚变种演示

演示自动密钥密码的加密解密过程，密钥随明文延伸，增加破解难度。

加密解密古典密码自动密钥

CI/CD 流水线配置验证器 - 检查 GitHub Actions 语法

粘贴 YAML 配置文件，验证 GitHub Actions、GitLab CI 或 Jenkinsfile 的基本语法。

DevOps CI/CD 流水线配置验证

树木年轮生成器 - 模拟气候与生长

调整每年的降水、温度等参数，自动生成对应的树木年轮宽度图案。

教育工具年轮树木模拟

议题倒计时蜂鸣器 - 每个环节到时提醒

按议程设定多个环节及耗时，大屏显示倒计时并到时鸣响，高效会议。

会议会议蜂鸣计时议题

热门

在线算盘 - 拖动算珠学习算术

模拟中国算盘，拖动算珠表示数字，辅助理解十进制和珠算。

教育工具演示算术算盘

连续语音识别器 - Web Speech API 实时转写

使用 Web Speech Recognition API 持续捕捉语音，实时显示识别文字，支持多语言。

AI API 实时语音识别转写

热门

维吉尼亚密码工具 - 多表置换在线加解密

利用关键词进行维吉尼亚密码加密与解密，多表替换增加安全性，古典密码进阶学习。

加解密加密密码维吉尼亚

虚拟深呼吸教练 - 4-7-8呼吸法引导

用放大的缩放圆环引导你吸气4秒、屏住7秒、吐气8秒，帮助平复情绪。

健康工具引导放松深呼吸

热门

饼干点点乐精简版 - 挂机增收

点击饼干获得饼干，购买自动生产设施，积累海量饼干的挂机小游戏。

休闲挂机游戏点击

Emoji 大全浏览器 - 搜索与分类复制

按类别浏览或搜索所有 Emoji，显示在不同系统上的样式差异，点击复制。

参考 Emoji 分类复制搜索

分类预算追踪器 - 设定各类别上限并监控

为餐饮、交通、娱乐等设置月度预算，录入开销后自动显示剩余。

财务工具分类消费追踪预算

热门

音乐风格小试验 - 上传片段判断流派

上传很短的音乐片段，使用简单的音频特征分析预测流派。

实验分类试验音乐风格

担忧树CBT工具 - 区分假设与现实担忧

引导通过树状图分析当前担忧是假设还是现实，走向应对或放手。

健康工具 CBT 决策树担忧自助

超市小票拍照整理 - 手动录入支出分类

逐条添加商品名与价格，自动分类食材/日用品，统计月开销。

生活工具分类小票支出记账

哲学名言浏览器 - 按家/主题分类

按哲学家或流派筛选名言，查看出处与解读，启迪思考。

人文分类名言启蒙哲学

朴素贝叶斯垃圾邮件过滤器 - 概率分类演示

手动添加正常与垃圾邮件训练语料，输入新邮件标题查看贝叶斯分类概率，理解文本分类基石。

教育工具分类垃圾邮件朴素贝叶斯概率

SVM 决策边界可视化 - 交互式支持向量机演示

添加二维点并选择核函数，直观展示SVM决策边界与支持向量，理解最大间隔分类原理。

教育工具 SVM 分类可视化支持向量机

热门

颜色分类杯子谜题 - 倾倒液体直至纯色

将不同颜色的水在各试管间倒来倒去，直到每个试管只装一种颜色。

游戏分类谜题颜色

热门

IP地址分类查询 - A/B/C/D/E类及私有地址

输入IPv4地址，自动告知属于哪一类（A,B,C），是否私有，以及网络和主机部分。

教育工具 IP地址分类查询

热门

云朵分类交互图鉴 - 高/中/低云族

浏览不同高度云族（卷云、积云、层云等）的图片、简图和预报天气含义。

教育工具云分类气象

智能购物清单 - 自动归类与价格估算

添加食材或日用品，自动归类（蔬果/肉类/饮料），并输入单价计算总预算。

效率工具分类购物清单预算