层次聚类是一种通过构建数据点之间层次化结构进行聚类分析的方法,常用于无监督学习场景。其核心思想是将数据视为树状结构,通过不断合并或分裂簇来形成最终的聚类结果。

原理概述

  1. 自底向上(Agglomerative)

    • 初始时每个数据点为独立簇
    • 逐步合并相似度最高的簇,形成新的簇
    • 重复此过程直至达到预设的簇数量或停止条件
    层次聚类结构
  2. 自顶向下(Divisive)

    • 初始时所有数据点归为一个簇
    • 递归分割簇,直到满足条件
    • 通常计算复杂度较高,实际应用较少

关键步骤

  • 计算所有数据点之间的相似度(如欧氏距离、余弦相似度)
  • 构建相似度矩阵(Similarity Matrix)
  • 通过链接方式(单链、全链、平均链)决定簇合并策略
    层次聚类合并过程

应用场景

  • 客户分群分析:customer_segmentation
  • 生物信息学:基因表达分析
  • 图像分割:image_segmentation

如需进一步了解聚类算法对比,可访问 /project_c/tutorials/cluster_analysis/compare 探索更多细节。 😊