无需登录 数据私有 本地保存

箱线图与异常值检测器 - 自动标记极端值

10
0
0
0
箱线图与异常值检测器 IQR方法
(逗号、空格或换行分隔)
预设数据:
箱线图 数据点:0
请输入数据并点击"分析数据" 或选择预设数据集快速体验
数据量
-
最小值
-
Q1(25%分位)
-
中位数 Q2
-
Q3(75%分位)
-
最大值
-
IQR
-
均值
-
标准差
-
下界 (Lower Fence)
-
上界 (Upper Fence)
-
异常值
-
检测到的异常值 0个
未检测到异常值,所有数据点均在正常范围内。
常见问题与知识点 SEO

箱线图(Box Plot,又称盒须图)是一种用于展示数据分布情况的统计图表,由美国统计学家John Tukey于1977年提出。它通过五个关键数值(五数概括)来 summarise 数据:最小值、第一四分位数(Q1)、中位数(Q2/Median)、第三四分位数(Q3)、最大值。箱线图的"盒子"从Q1延伸到Q3,盒子内部的线标记中位数;"须线"(whiskers)从盒子延伸到非异常值范围内的最小值和最大值。箱线图特别适合用于比较多个数据集的分布、识别偏态和检测异常值。

IQR(Interquartile Range,四分位距) = Q3 - Q1,代表了数据中间50%的分布范围。异常值检测的上下界计算公式为:
下界(Lower Fence) = Q1 - 1.5 × IQR
上界(Upper Fence) = Q3 + 1.5 × IQR
低于下界或高于上界的数据点被视为潜在异常值。1.5倍这个系数来源于正态分布的经验规则:在正态分布中,约99.3%的数据落在Q1-1.5×IQR到Q3+1.5×IQR的范围内,超出此范围的数据点出现的概率极低(约0.7%),因此值得关注。使用2.0倍或3.0倍IQR可以识别更极端的异常值。

四分位数的计算方法有多种(如Type 1-9),本工具使用线性插值法(类似Excel的PERCENTILE.INC函数):
① 将数据从小到大排序;
② 计算位置:pos = (n-1) × p/100(其中p为百分位数,n为数据量);
③ 若pos为整数,取对应位置的值;若pos为小数,则在相邻两个值之间进行线性插值。
例如Q1对应p=25,中位数Q2对应p=50,Q3对应p=75。不同的计算方法在数据量较小时可能产生微小差异,但整体趋势一致。

不应盲目删除异常值!异常值(Outlier)可能来源于:数据录入错误、测量误差、采样偏差,也可能是真实且有价值的数据(如金融市场的极端波动、医学研究中的特殊病例)。建议的处理流程:
核实来源:检查数据是否存在录入或测量错误;
分析原因:理解异常值产生的背景和机制;
审慎决策:根据分析目的决定保留、修正还是排除。在报告中应明确说明异常值的处理方式。IQR方法检测的是"统计异常"而非"实际错误",需要结合领域知识进行判断。

通过观察箱线图中中位线在盒子中的位置以及须线的长度,可以判断数据的偏态:
对称分布:中位线大致在盒子中央,上下须线长度相近;
右偏(正偏):中位线靠近Q1,上须线明显长于下须线,均值 > 中位数;
左偏(负偏):中位线靠近Q3,下须线明显长于上须线,均值 < 中位数。
偏态信息对于选择统计分析方法(如使用参数检验还是非参数检验)具有重要参考价值。

箱线图与异常值检测广泛应用于多个领域:
质量控制:监测生产过程中的异常批次;
金融风控:识别异常交易或欺诈行为;
医学研究:发现异常生理指标或药物反应;
教育评估:分析考试成绩分布,识别极端分数;
数据清洗:在数据分析前识别和处理异常数据点;
传感器监测:检测物联网设备中的异常读数。本工具提供交互式可视化,帮助您快速理解数据分布特征。