DBSCAN聚类算法

2026-06-19

631

DBSCAN（Density-Based Spatial Clustering of Applications with Noise，带噪声的基于密度的空间聚类算法）是机器学习中经典的无监督密度聚类算法，由Martin Ester等人于1996年提出。不同于K-Means、层次聚类等基于距离划分的聚类算法，DBSCAN的核心逻辑是以数据密度为依据划分簇，将高密度连通区域划分为独立聚类，低密度孤立点判定为噪声异常值。

该算法彻底打破了传统聚类算法对簇形状的限制，无需预先指定聚类数量，能够自动识别任意形状、任意大小的聚类簇，同时天然具备异常点检测能力，是工业界和学术界处理复杂分布数据、挖掘离群样本的核心算法之一，广泛应用于空间数据分析、异常检测、轨迹聚类、图像分割等场景。

一、概念

DBSCAN的所有聚类逻辑均围绕两个核心超参数和四类基础密度概念展开，精准理解这些概念是掌握算法原理的关键。

1.超参数

算法通过两个参数定义数据密度标准，所有聚类判定规则均基于二者构建：

•邻域半径 ε（Eps）：以任意样本点为中心，划定的圆形（高维为超球体）邻域范围的最大距离阈值，用于界定样本的邻近范围。

•最小样本数 MinPts：单个ε邻域内包含的最少样本数量，是判定区域是否为高密度区域的核心阈值。

2.样本点定义

依据ε和MinPts参数，数据集所有样本可划分为三类核心点位，辅以密度关系完成聚类：

•核心点（Core Point）：若某样本点的ε邻域内，包含样本数量（含自身）≥ MinPts，则该点为核心点。核心点是聚类簇的核心骨架，代表高密度区域的基准点位。

•边界点（Border Point）：不属于核心点，但落在某个核心点的ε邻域范围内的样本点。边界点依附核心点存在，属于聚类簇的边缘点位，自身无法独立构成高密度区域。

•噪声点/异常点（Noise Point）：既非核心点，也不落在任何核心点ε邻域内的孤立样本点，属于低密度离群数据，不归属任何聚类簇。

3.密度关联关系

•密度直达：若点A是核心点，点B在A的ε邻域内，则称B与A密度直达。密度直达是单向关联关系。

•密度可达：存在一条样本点链，首尾两点可通过连续的密度直达关系连通，则首尾两点密度可达。密度可达具有传递性，是聚类簇扩张的核心依据。

•密度相连：若两点均与同一个核心点密度可达，则两点密度相连。所有密度相连的样本集合，构成一个完整的DBSCAN聚类簇。

二、算法执行流程

DBSCAN算法采用迭代遍历、区域扩张的核心思路，全程无需人工干预簇数量，自动完成聚类与噪声识别，完整执行步骤如下：

1.初始化状态：遍历数据集，将所有样本点标记为未访问，初始化聚类簇编号、噪声点集合为空。

2.遍历筛选核心点：随机选取一个未访问的样本点，标记为已访问；计算该点ε邻域内的所有样本，判断样本数量是否≥MinPts。若满足，判定为核心点，开启新聚类簇；若不满足，暂时标记为临时噪声点。

3.聚类区域扩张：以当前核心点为起点，遍历其ε邻域内所有未访问样本：标记为已访问，若邻域内样本为核心点，则继续迭代扩张其邻域范围；若为边界点，直接纳入当前聚类簇。

4.修正噪声点标记：临时标记的噪声点，若后续被其他核心点的邻域覆盖，自动修正为对应簇的边界点，剔除噪声集合。

5.迭代循环：重复上述步骤，直至数据集所有样本点均完成访问。所有未被纳入任何聚类簇的样本，最终判定为永久噪声点。

简单通俗理解：DBSCAN的聚类过程如同“抱团聚合”，核心点是团队核心，吸纳周边邻近样本组成团队，多个核心点通过密度可达关系合并为大团队，孤立无援的样本直接判定为异常值。

三、参数调优策略

ε和MinPts两个超参数直接决定聚类效果，参数偏差会导致簇过分裂、过合并或噪声过多，行业通用调优方法如下：

1.MinPts取值原则

MinPts用于控制簇的致密程度，维度越高的数据，需要更大的MinPts抵消维度稀疏性：

•低维常规数据（二维、三维）：默认取4；

•高维数据：建议取「数据维度×2」；

•含噪声较多的数据：适当增大MinPts，减少伪聚类、过滤干扰点。

2.Eps取值原则（K距离曲线法）

固定MinPts后，采用K距离排序法确定最优Eps：计算每个样本到其第MinPts近邻点的距离，将所有距离从小到大排序并绘制曲线，曲线急剧拐点对应的距离值即为最优Eps。该方法可精准区分高密度簇内部距离与簇间间隔距离。

3.参数偏差影响

•Eps过大、MinPts过小：所有样本极易聚合为一个簇，出现过合并，丢失聚类细分特征；

•Eps过小、MinPts过大：大量正常样本被判定为噪声，簇数量过多，出现过分裂。

四、优势

•无需预设簇数量：区别于K-Means的核心痛点，自动自适应确定聚类簇数，适配未知数据分布场景；

•支持任意形状聚类：不受圆形、凸集簇限制，可精准识别不规则、细长、嵌套型聚类簇，适配复杂数据分布；

•天然支持异常检测：自动识别孤立噪声点，无需额外算法即可完成离群值筛选；

•无偏聚类效果：不依赖质心迭代，避免初始值随机带来的聚类波动，结果稳定性强；

•对离群点鲁棒性高：噪声点不参与聚类中心构建，不会干扰整体聚类结果。

五、局限性

•无法适配可变密度数据：单一 ε、MinPts 参数无法兼顾数据集内高密度簇和低密度簇，易导致低密度簇被判定为噪声或高密度簇过度合并；

•高维数据效果差：高维空间存在距离稀疏问题，样本间距离差异极小，密度判定失效，需提前做降维预处理；

•时间复杂度偏高：原生算法需遍历所有样本的邻域距离，时间复杂度为O(n²)，大规模数据计算效率较低；

•参数敏感：聚类结果高度依赖人工调参，无通用最优参数，需结合数据特性反复调试。

六、与主流聚类算法对比

对比维度\tDBSCAN\tK-Means\t层次聚类

聚类依据\t数据密度连通性\t距离最小化、质心迭代\t样本距离、层级聚合/分裂

是否需预设簇数\t不需要\t必须预设K值\t可自主确定簇数

簇形状适配性\t任意形状\t仅凸集、球形簇\t规则簇，复杂形状效果差

异常检测能力\t天然支持\t无，易受异常点干扰\t无，需额外处理

时间复杂度\tO(n²)（原生）\tO(nkt)（高效）\tO(n²logn)（低效）

适用场景\t复杂分布、含噪声数据\t大数据、规则分布数据\t小样本、需层级结构场景

七、Python实战代码（基于Sklearn）

借助Scikit-learn库可快速实现DBSCAN聚类，以下为完整可运行案例，包含数据生成、模型训练、结果可视化与评估。

python

# 导入所需库

import numpy as np

import matplotlib.pyplot as plt

from sklearn.cluster import DBSCAN

from sklearn.datasets import make_moons

from sklearn.metrics import silhouette_score

# 1. 生成不规则形状测试数据（月牙形数据，适配DBSCAN优势场景）

X, _ = make_moons(n_samples=500, noise=0.08, random_state=42)

# 2. 初始化并训练DBSCAN模型

# 调优参数：eps邻域半径，min_samples对应MinPts

dbscan = DBSCAN(eps=0.15, min_samples=4)

labels = dbscan.fit_predict(X)

# 3. 统计聚类结果

n_clusters = len(set(labels)) - (1 if -1 in labels else 0) # 去除噪声点(-1)

n_noise = list(labels).count(-1)

print(f\"聚类簇数量：{n_clusters}\")

print(f\"噪声异常点数量：{n_noise}\")

print(f\"轮廓系数（聚类效果评分）：{silhouette_score(X, labels):.4f}\")

# 4. 可视化聚类结果

plt.figure(figsize=(8, 6))

# 绘制聚类样本

unique_labels = set(labels)

colors = plt.cm.Spectral(np.linspace(0, 1, len(unique_labels)))

for k, col in zip(unique_labels, colors):

if k == -1:

# 噪声点用黑色标注

col = \"black\"

class_member_mask = (labels == k)

xy = X[class_member_mask]

plt.scatter(xy[:, 0], xy[:, 1], c=[col], s=30, label=f\"簇{k}\" if k!=-1 else \"噪声\")

plt.title(\"DBSCAN聚类结果展示\")

plt.legend()

plt.show()

代码说明：案例采用月牙形不规则数据集，完美规避K-Means的聚类缺陷，最终可精准划分2个聚类簇，黑色点位为算法自动识别的噪声点，轮廓系数越接近1代表聚类效果越好。

八、应用场景与算法优化

1.典型应用场景

•异常检测：金融欺诈交易识别、工业设备故障检测、网络攻击流量识别，利用噪声点特性筛选异常样本；

•空间地理聚类：城市POI点位聚合、交通轨迹聚类、气象区域划分，适配不规则地理分布数据；

•图像与文本挖掘：图像像素聚类分割、文本语义聚类、用户行为轨迹聚类；

•数据预处理：清洗数据集离群噪声点，为分类、回归模型优化数据质量。

2.主流优化方案

针对原生DBSCAN时间复杂度高、无法适配可变密度的缺陷，业界衍生出多种优化算法：

•OPTICS算法：解决可变密度聚类问题，通过构建密度排序序列，适配不同致密程度的数据集；

•Fast DBSCAN：基于网格索引、KD-Tree、Ball-Tree优化邻域查询效率，将时间复杂度降至O(nlogn)，适配大规模数据；

•分布式DBSCAN：基于Spark、Flink实现并行计算，解决海量数据聚类算力不足问题。

九、总结

DBSCAN作为密度聚类的标杆算法，核心价值在于摆脱预设簇数限制、适配任意形状聚类、天然兼容噪声数据，完美弥补了划分式聚类算法的短板，是无监督学习中处理复杂分布数据的首选算法之一。

其缺陷主要集中在高维数据适配性差、参数敏感、大规模计算效率低三个方面。在实际工程应用中，可通过数据降维、参数精细化调优、索引加速、分布式部署等方式弥补短板，结合业务场景灵活使用。对于可变密度数据集，可优先选用OPTICS等衍生优化算法替代原生DBSCAN。

点赞数：1