无需登录 数据私有 本地保存

茎叶图生成器 - 数据分布直观可视化

12
0
0
0

茎叶图生成器

茎叶图(Stem-and-Leaf Plot)是一种直观展示数据分布的统计图表,保留原始数据信息的同时呈现分布形态

数据输入
📝 考试成绩 👤 年龄数据 📏 身高数据 🔢 小数据集 📊 大数据集
显示设置
茎叶图 Key: 2 | 3 = 23

请输入数据并点击"生成茎叶图"

常见问题与知识点
茎叶图是一种探索性数据分析工具,由统计学家John Tukey提出。它将每个数据点拆分为"茎"(通常代表高位数字)和"叶"(通常代表低位数字),并按茎分组排列。茎叶图兼具数据表格和分布图形的优点——既保留了原始数据的精度,又直观展示了数据的分布形态、集中趋势和离散程度。例如数据23在茎单位=10时,茎为2、叶为3,表示为2 | 3
茎叶图的优势:
保留原始数据——可以从图中直接恢复每个数据点的精确值,而直方图会丢失具体数值;
便于计算统计量——中位数、四分位数等可以直接从图中读取;
适合中小规模数据集(通常n<100),数据点清晰可辨;
易于手工绘制,不需要复杂的坐标轴。

与直方图的比较:直方图更适合大规模数据集,能更灵活地调整分组区间(bin),但在分组过程中会丢失原始数值信息。茎叶图可以看作是一种"可逆的直方图"。
茎单位的选择决定了茎叶图的"分辨率"。一般原则:
• 茎单位应使叶子为0-9的单个数字,保证可读性;
• 茎的数量通常在5-20个之间为宜——太少则信息损失大,太多则失去分组意义;
• 对于两位数数据(如考试成绩),茎单位=10(十位为茎);
• 对于三位数数据,茎单位=100(百位为茎,十位为叶)或茎单位=10(前两位为茎,个位为叶);
• 本工具会自动检测最优茎单位,您也可以手动调整以查看不同粒度的分布。
中位数:数据排序后,从茎叶图两端向中间计数,找到中间位置的数据点。如果n为奇数,中位数是中间那个值;如果n为偶数,中位数是中间两个值的平均数。
四分位数:Q₁是前一半数据的中位数,Q₃是后一半数据的中位数。
分布形态:观察叶子的密集程度——叶子集中在某些茎上说明数据集中;叶子分散说明数据离散。通过茎叶图可以快速判断数据是否对称、是否存在偏态或异常值。
异常值:与其他茎明显分离的孤立茎行可能包含异常值。
茎叶图最适合处理定量数据(数值型数据),特别是:
• 样本量在15-100之间的数据集效果最佳;
• 数据精度一致(如都是整数、或都保留一位小数);
• 数据范围适中,不宜跨度过大(如同时包含个位数和五位数);
• 常见应用场景:学生考试成绩、年龄分布、测量数据、调查问卷得分等。
对于非常大的数据集(n>200)或精度差异大的数据,建议使用直方图或箱线图。
空茎行(没有叶子的茎)表示该数值区间内没有观测数据。保留空茎行有助于:
① 展示数据的完整分布范围,不会人为掩盖数据缺口;
② 发现数据的断层或聚类特征——连续多个空茎可能暗示数据存在分组;
③ 保持茎的等间距排列,使分布形态更易比较。
本工具提供"显示空茎行"选项,您可以根据需要开启或关闭。
不适合大数据集——当n>200时,叶子过多导致图表冗长,失去可视化优势;
对茎单位敏感——不同的茎单位选择可能导致分布形态呈现不同面貌;
难以比较多个组——虽然可以制作背靠背茎叶图,但实现复杂;
数据精度要求一致——混合不同精度的数据(如整数和小数)时处理不便;
不适合分类数据——茎叶图仅适用于数值型连续数据。
背靠背茎叶图(Back-to-Back Stem-and-Leaf Plot)用于比较两组数据的分布。它以中间的茎列为对称轴,左侧叶子代表一组数据(通常向左延伸),右侧叶子代表另一组数据。这种图表特别适合对比实验组与对照组、男生与女生等两个群体的数据分布差异。虽然本工具目前生成的是单组茎叶图,但您可以通过分别生成两组数据来手动对比。
✅ 已复制到剪贴板