层次聚类是一种常用的无监督学习方法,它通过将数据点逐渐合并为越来越大的簇,从而发现数据中的结构。
基本概念
- 簇(Cluster):一组相似的数据点。
- 相似度:用于衡量数据点之间相似性的度量,例如欧氏距离、曼哈顿距离等。
- 层次聚类算法:将数据点逐步合并形成簇的算法。
层次聚类算法
常见的层次聚类算法包括:
- 单链接法:选择最近的数据点合并成簇。
- 完全链接法:选择最远的数据点合并成簇。
- 平均链接法:计算两个簇中所有数据点对之间的平均距离。
应用场景
层次聚类在以下场景中非常有用:
- 数据探索:通过层次聚类可以更好地理解数据中的结构。
- 聚类分析:将数据点划分为具有相似特征的簇。
- 图像处理:用于图像分割和特征提取。