常见的五种聚类算法总结

常见的聚类算法总结

1. K-Means 聚类

描述

K-Means 是一种迭代优化的聚类算法，它通过最小化样本点到质心的距离平方和来进行聚类。

思想

随机选择 K 个初始质心。
分配每个数据点到最近的质心，形成 K 个簇。
重新计算每个簇的质心。
重复上述步骤，直到质心不再变化或达到最大迭代次数。

代码例子

from sklearn.cluster import KMeans
import numpy as np

# 生成示例数据
X = np.array([[1, 2], [1, 4], [1, 0], 
              [10, 2], [10, 4], [10, 0]])

# 定义 KMeans 模型
kmeans = KMeans(n_clusters=2, random_state=0)

# 训练模型
kmeans.fit(X)

# 获取聚类结果
labels = kmeans.labels_
centroids = kmeans.cluster_centers_

print("聚类标签:", labels)
print("质心:", centroids)

2. 层次聚类 (Hierarchical Clustering)

描述

层次聚类是一种基于树状结构的聚类方法，分为自下而上（凝聚）和自上而下（分裂）两种。

思想

自下而上：每个数据点开始为一个簇，不断合并最相似的簇，直到所有点合并为一个簇或达到预定的簇数。
自上而下：开始时将所有数据点视为一个簇，不断拆分最不相似的簇，直到每个点为一个簇或达到预定的簇数。

代码例子

from sklearn.cluster import AgglomerativeClustering

# 定义层次聚类模型
hierarchical = AgglomerativeClustering(n_clusters=2)

# 训练模型
hierarchical.fit(X)

# 获取聚类结果
labels = hierarchical.labels_

print("聚类标签:", labels)

3. DBSCAN 聚类

描述

DBSCAN（Density-Based Spatial Clustering of Applications with Noise）是一种基于密度的聚类算法，能够发现任意形状的簇，同时识别噪声点。

思想

选择一个样本点，如果在其 ε 邻域内的点数不少于 minPts，则将这些点视为一个簇的核心点。
将核心点邻域内的点添加到该簇中，重复这个过程，直到簇不再增长。
标记未分配到任何簇的点为噪声点。

代码例子

from sklearn.cluster import DBSCAN

# 定义 DBSCAN 模型
dbscan = DBSCAN(eps=3, min_samples=2)

# 生成示例数据
X = np.array([[1, 2], [2, 2], [2, 3],
              [8, 7], [8, 8], [25, 80]])

# 训练模型
dbscan.fit(X)

# 获取聚类结果
labels = dbscan.labels_

print("聚类标签:", labels)

4. 均值漂移 (Mean Shift) 聚类

描述

均值漂移是一种基于密度的聚类算法，通过不断移动数据点到高密度区域的中心，找到簇的质心。

思想

对每个点，计算其在一定窗口（带宽）内的密度中心，将点移动到密度中心。
重复上述过程，直到所有点都在其密度中心。
将密度中心附近的点合并为一个簇。

代码例子

from sklearn.cluster import MeanShift
import numpy as np

# 生成示例数据
X = np.array([[1, 2], [2, 2], [2, 3],
              [8, 7], [8, 8], [25, 80]])

# 定义均值漂移模型
meanshift = MeanShift(bandwidth=2)

# 训练模型
meanshift.fit(X)

# 获取聚类结果
labels = meanshift.labels_
centroids = meanshift.cluster_centers_

print("聚类标签:", labels)
print("质心:", centroids)

5. 高斯混合模型 (Gaussian Mixture Model, GMM)

描述

高斯混合模型是一种基于概率模型的聚类方法，假设数据由多个高斯分布组成，通过期望最大化（EM）算法估计参数。

思想

初始化每个高斯分布的参数。
E步：计算每个样本属于每个高斯分布的概率。
M步：根据概率更新高斯分布的参数。
重复上述过程，直到参数收敛。

代码例子

from sklearn.mixture import GaussianMixture
import numpy as np

# 生成示例数据
X = np.array([[1, 2], [2, 2], [2, 3],
              [8, 7], [8, 8], [25, 80]])

# 定义高斯混合模型
gmm = GaussianMixture(n_components=2, random_state=0)

# 训练模型
gmm.fit(X)

# 获取聚类结果
labels = gmm.predict(X)
centroids = gmm.means_

print("聚类标签:", labels)
print("质心:", centroids)