聚类算法总结

聚类算法总结

图片[1]-聚类算法总结-点头深度学习网站

1. K均值(K-Means)

计算效率高,适合大数据集。

结果易于解释。

缺点:

需要预先设定聚类数量 K。

对异常值敏感。

假设聚类为凸形且各向同性,可能不适用于复杂形状的数据分布。

初始中心点的选择影响最终结果。

2. 层次聚类(Hierarchical Clustering)

优点:

不需要预先设定聚类数量。

产生树状图(Dendrogram),方便可视化。

能够解决各种形状的聚类问题。

缺点:

计算复杂度高,不适合大数据集。

一旦合并,就不能再分割,影响聚类效果。

3. DBSCAN(Density-Based Spatial Clustering of Applications with Noise)

优点:

不需要预先设定聚类数量。

能够找出任意形状的聚类。

能够处理噪声点。

缺点:

需要手动设置密度阈值,对密度不均匀的数据效果较差。

对高维数据效果不佳。

4. 高斯混合模型(Gaussian Mixture Model, GMM)

优点:

软聚类,能够估计点的类别不确定性。

能够形成各种形状的聚类。

同时提供了模型参数的估计。

缺点:

计算复杂度高,不适合大数据集。

需要预先设定高斯分布的数量。

对初始化敏感。

聚类算法的评价方法

聚类的评价指标用于衡量聚类模型的性能。这些指标有很多,下面是一些常用的聚类评价指 标:

1.剪影系数 (Silhouette Coefficient):
剪影系数用于衡量聚类效果的好坏,其值的范围在-1到1之间。剪影系数计算每个样本的剪影 值,然后求平均。每个样本的剪影值是由该样本与同一簇内其他样本的平均距离 (a) 和该 样本与最近簇内所有样本的平均距离 (b) 计算而来的。剪影系数计算公式为:

$$\text { silhouette score }=\frac{b-a}{\max (a, b)}$$

值越接近1,表示聚类效果越好。

2.Calinski-Harabasz Index:
Calinski-Harabasz Index也称为方差比准则,它是类间散度和类内散度的比值。计算公式为:

$$s(k)=\frac{\text{Tr}\left(B_k\right)}{\text{Tr}\left(W_k\right)} \times \frac{n-k}{k-1}$$

其中, \(B_k\) 是类间散度矩阵, \(W_k\) 是类内散度矩阵, \(n\) 是样本总数, \(k\) 是类别数。该指标值越 大,说明聚类效果越好。

3.Davies-Bouldin Index:
Davies-Bouldin Index是一种内部评价指标,它基于簇内的平均距离和簇间的距离来计算。计算公式为:

$$DBI=\frac{1}{k} \sum_{i=1}^k \max _{i \neq j}\left(\frac{\sigma_i+\sigma_j}{d\left(c_i, c_j\right)}\right)$$

其中, \(k\) 是簇的数量, \(\sigma_i\) 是第 \(\mathrm{i}\) 个簇内所有点到簇中心的平均距离, \(d\left(c_i, c_j\right)\) 是簇中心之间的 距离。该指标值越小, 说明聚类效果越好。

4.调整兰德指数 (Adjusted Rand Index, ARI):
调整兰德指数是兰德指数的一个修正版本,用于衡量两个数据分割的一致性。其值的范围 在-1到1之间,值越大表示聚类效果越好。

5.互信息 (Mutual Information, MI):
互信息衡量了两个随机变量之间的依赖程度。在聚类中,可以通过计算真实类标和聚类结果 之间的互信息来评价聚类效果。调整互信息 (Adjusted Mutual Information, AMI) 是互信息 的一个修正版本,其值范围在0到1之间,值越大表示聚类效果越好。

6.Fowlkes-Mallows Index:
Fowlkes-Mallows Index 是基于精确率和召回率的几何平均值计算得到的。其值范围在 0 到1之 间,值越大表示聚类效果越好。
这些指标通常用于不同的聚类算法和不同的数据集,以帮助我们了解算法的性能和选择最适 合的聚类方法。

总结

K均值和高斯混合模型需要预设聚类数量,而层次聚类和DBSCAN则不需要。

K均值适用于大数据集和凸形聚类,但对异常值敏感;层次聚类适用于各种形状的聚类,但计算复杂度高;DBSCAN能处理任意形状的聚类和噪声点,但对密度阈值敏感;高斯混合模型适用于估计不确定性和各种形状的聚类,但计算复杂度高且对初始化敏感。

在实际应用中,选择哪种聚类算法取决于数据的特性、应用的需求以及计算资源的限制。

© 版权声明
THE END
喜欢就支持一下吧
点赞6 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容