无监督学习是机器学习中的一个重要分支,它主要关注如何从未标记的数据中提取模式和结构。与监督学习不同,无监督学习不需要预先标记的数据,而是通过探索数据中的内在结构来发现知识。
无监督学习类型
无监督学习可以分为以下几种类型:
- 聚类:将相似的数据点分组到一起,例如 K-Means 聚类算法。
- 关联规则学习:发现数据项之间有趣的关联,例如 Apriori 算法。
- 降维:减少数据维度,例如 PCA (主成分分析)。
K-Means 聚类算法
K-Means 是一种常用的聚类算法,它通过迭代地将数据点分配到最近的聚类中心来工作。
K-Means 算法步骤
- 随机选择 K 个数据点作为初始聚类中心。
- 将每个数据点分配到最近的聚类中心。
- 更新每个聚类中心的坐标为该聚类中所有数据点的均值。
- 重复步骤 2 和 3,直到聚类中心不再变化。
降维 - PCA
PCA (主成分分析) 是一种降维技术,它通过找到数据的主要成分来减少数据维度。
PCA 步骤
- 计算数据点的协方差矩阵。
- 计算协方差矩阵的特征值和特征向量。
- 选择最大的 K 个特征值对应的特征向量。
- 将数据点投影到这些特征向量上。
PCA 示例
扩展阅读
想要了解更多关于无监督学习的内容,可以阅读以下文章: