无监督学习是机器学习中的一个重要分支,它主要关注如何从未标记的数据中提取模式和结构。与监督学习不同,无监督学习不需要预先标记的数据,而是通过探索数据中的内在结构来发现知识。

无监督学习类型

无监督学习可以分为以下几种类型:

  • 聚类:将相似的数据点分组到一起,例如 K-Means 聚类算法。
  • 关联规则学习:发现数据项之间有趣的关联,例如 Apriori 算法。
  • 降维:减少数据维度,例如 PCA (主成分分析)。

K-Means 聚类算法

K-Means 是一种常用的聚类算法,它通过迭代地将数据点分配到最近的聚类中心来工作。

K-Means 算法步骤

  1. 随机选择 K 个数据点作为初始聚类中心。
  2. 将每个数据点分配到最近的聚类中心。
  3. 更新每个聚类中心的坐标为该聚类中所有数据点的均值。
  4. 重复步骤 2 和 3,直到聚类中心不再变化。

降维 - PCA

PCA (主成分分析) 是一种降维技术,它通过找到数据的主要成分来减少数据维度。

PCA 步骤

  1. 计算数据点的协方差矩阵。
  2. 计算协方差矩阵的特征值和特征向量。
  3. 选择最大的 K 个特征值对应的特征向量。
  4. 将数据点投影到这些特征向量上。

PCA 示例

扩展阅读

想要了解更多关于无监督学习的内容,可以阅读以下文章: