无需登录 数据私有 本地保存

主成分分析(PCA)降维可视化 - 高维数据投影

14
0
0
0

📊 主成分分析 (PCA) 降维可视化

高维数据投影到2D/3D空间,探索数据内在结构

数据矩阵
样本数: 特征数:
2D 投影 (PC1 vs PC2) -
3D 投影 (可旋转) -
拖拽旋转 · 滚轮缩放
各主成分解释方差比例
累计解释方差
常见问题与知识点
🔍 什么是主成分分析(PCA)?
PCA(Principal Component Analysis)是一种线性降维技术,通过正交变换将可能相关的变量转换为线性不相关的变量(主成分)。第一主成分捕获数据中最大的方差方向,后续主成分在正交约束下依次捕获剩余最大方差。它广泛应用于数据可视化、噪声过滤、特征提取和压缩。
📐 PCA的数学原理是什么?
PCA的步骤: 数据中心化(减去均值); 计算协方差矩阵(或相关矩阵); 对协方差矩阵进行特征值分解; 按特征值降序排列,选择前k个特征向量作为主成分方向; 将原始数据投影到这些方向上得到低维表示。特征值的大小反映了对应主成分所解释的方差量。
🎯 应该标准化数据吗?什么时候使用相关矩阵而非协方差矩阵?
强烈建议标准化当特征具有不同量纲或尺度差异很大时(如身高cm和体重kg)。标准化(z-score归一化)使每个特征均值为0、方差为1,此时PCA基于相关矩阵进行计算,避免方差大的特征主导主成分方向。如果所有特征已经是相同单位且尺度相近,可使用协方差矩阵。本工具默认启用标准化。
📊 如何选择保留的主成分数量?
常用方法:① 累计方差比例——选择累计解释方差达到70%-95%的前k个主成分;② Kaiser准则——保留特征值>1的主成分(适用于相关矩阵PCA);③ 碎石图拐点——观察方差解释图的"肘部"位置;④ 交叉验证——通过下游任务性能选择。对于可视化,通常只取前2-3个主成分。
⚖️ PCA与t-SNE、UMAP有什么区别?
PCA是线性方法,速度快,可解释性强,保持全局结构;t-SNE是非线性方法,擅长保持局部邻域结构,适合可视化但计算慢且结果随机;UMAP介于两者之间,速度较快,能保持更多全局结构。PCA通常作为t-SNE/UMAP的预处理步骤,先用PCA降到50维左右再进一步降维。
💡 PCA有哪些实际应用场景?
① 数据可视化——将高维数据投影到2D/3D进行探索;② 降噪——丢弃小特征值对应的成分以去除噪声;③ 特征提取——用主成分得分替代原始特征用于机器学习;④ 多重共线性处理——PCA后特征正交,解决回归中的共线性问题;⑤ 图像压缩——如特征脸(Eigenfaces)用于人脸识别;⑥ 基因数据分析——处理高维基因表达数据。
🔢 PCA对数据有哪些假设?
PCA假设:① 线性关系——主成分是原始特征的线性组合,非线性结构可能无法有效捕获;② 方差即信息——高方差方向被认为包含更多信息(信号),低方差方向可能为噪声;③ 正交性——主成分之间相互正交(不相关);④ 数据适合中心化/标准化。对于明显的非线性流形数据,考虑使用核PCA或非线性降维方法。
📈 如何解读载荷(Loadings)和得分(Scores)?
载荷(Loadings)是特征向量中的权重,表示每个原始特征对主成分的贡献程度。载荷绝对值大的特征对该主成分影响大,正负号表示方向。得分(Scores)是数据点在主成分上的投影值(坐标),即降维后的新坐标。通过分析载荷可以理解主成分的物理含义,通过得分可以进行样本聚类或异常检测。