主成分分析(Principal Component Analysis,PCA)是一种经典的无监督学习降维技术,常用于数据压缩、特征提取和可视化。它通过线性变换将高维数据投影到低维空间,保留最大方差方向的信息。以下是关键内容梳理:


🧠 原理简述

  1. 协方差矩阵:计算数据各维度之间的相关性,识别主要变化方向

    协方差矩阵
  2. 特征值分解:提取协方差矩阵的特征向量和特征值,确定主成分方向

    特征值分解
  3. 投影降维:按特征值大小选择Top K主成分,构建低维子空间

    PCA流程

📈 应用场景

  • 数据可视化:将高维数据降至2D/3D进行展示
  • 噪声过滤:保留主要特征,去除冗余信息
  • 预处理优化:为后续模型训练降低计算复杂度
  • 特征工程:生成新的综合特征替代原始维度

📚 深入理解PCA数学推导可参考:/tutorial/pca


⚖️ 优缺点对比

优点 缺点
无监督学习,无需标注数据 只能捕捉线性关系,非线性结构需其他方法
计算效率高,适合大规模数据 可能丢失部分重要特征信息
PCA优缺点

🔍 扩展阅读


如需进一步探索降维技术,可查阅:/resources/papers/unsupervised-representation-learning