无需登录 数据私有 本地保存

DBSCAN 聚类可视化器 - 密度可达交互演示

12
0
0
0
核心点 0 边界点 0 噪声点 0 📦 簇数 0 📍 总点数 0
参数控制
预设数据集

点击画布添加点 · 悬停查看邻域 · 点击已有选中点查看密度可达

DBSCAN 常见问题

DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一种基于密度的聚类算法。它通过寻找被低密度区域分隔的高密度区域来发现任意形状的簇,并能自动识别噪声点。与K-means不同,DBSCAN不需要预先指定簇的数量,且对异常值具有鲁棒性。

密度可达是DBSCAN的核心概念。如果存在一条核心点链p₁,p₂,...,pₙ,使得p₁是核心点,且每个pᵢ₊₁都在pᵢ的ε邻域内,那么pₙ就是从p₁密度可达的。简单来说,密度可达描述了"通过核心点跳跃可以到达"的关系,它定义了簇的边界——一个簇就是从某个核心点出发密度可达的所有点的集合。

核心点:在ε邻域内至少包含MinPts个点(包括自身)的点,它们是簇的"骨架"。
边界点:在某个核心点的ε邻域内,但自身邻域内点数不足MinPts,它们是簇的"边缘"。
噪声点:既不是核心点也不在任何核心点邻域内的点,被认为是离群值。在本工具中,核心点以较大的深色圆显示,边界点为中等青色圆,噪声点为灰色小点。

通常使用k-距离图方法:计算每个点到其第k近邻的距离,排序后绘制曲线,寻找"拐点"作为ε值。MinPts一般设为数据维度+1(2D数据通常MinPts≥4)。在实际应用中,可以通过交叉验证或领域知识来确定。本工具提供了交互式调节功能,您可以实时观察参数变化对聚类结果的影响。

优点:①能发现任意形状的簇(如环形、半月形);②自动识别噪声点;③不需要预先指定簇数量;④对数据输入顺序不敏感。
缺点:①对参数ε和MinPts敏感;②难以处理密度差异大的数据集;③高维数据中效果下降("维度灾难");④计算复杂度为O(n²)(未优化时)。