主成分分析(Principal Component Analysis,PCA)是一种经典的无监督学习降维技术,常用于数据压缩、特征提取和可视化。它通过线性变换将高维数据投影到低维空间,保留最大方差方向的信息。以下是关键内容梳理:
🧠 原理简述
协方差矩阵:计算数据各维度之间的相关性,识别主要变化方向
特征值分解:提取协方差矩阵的特征向量和特征值,确定主成分方向
投影降维:按特征值大小选择Top K主成分,构建低维子空间
📈 应用场景
- 数据可视化:将高维数据降至2D/3D进行展示
- 噪声过滤:保留主要特征,去除冗余信息
- 预处理优化:为后续模型训练降低计算复杂度
- 特征工程:生成新的综合特征替代原始维度
📚 深入理解PCA数学推导可参考:/tutorial/pca
⚖️ 优缺点对比
优点 | 缺点 |
---|---|
无监督学习,无需标注数据 | 只能捕捉线性关系,非线性结构需其他方法 |
计算效率高,适合大规模数据 | 可能丢失部分重要特征信息 |
🔍 扩展阅读
如需进一步探索降维技术,可查阅:/resources/papers/unsupervised-representation-learning