技术分类:线性与非线性两大路径
根据映射函数 f 的性质,降维算法可分为线性与非线性两大类:
1. 线性降维:基于矩阵变换的简单高效
线性降维通过线性变换(如矩阵乘法)实现维度压缩,适用于数据分布近似线性或低维流形嵌入高维空间的情况。常见算法包括:
- 主成分分析(PCA):通过寻找数据方差最大的方向(主成分)进行投影,保留最大方差信息。例如,在股票市场中,PCA可将成百上千只股票的价格数据压缩为几个关键主成分(如市场趋势、行业波动),帮助投资者快速识别市场动态。
- 线性判别分析(LDA):在有监督场景下,通过最大化类间距离、最小化类内距离实现降维,常用于分类任务。例如,在手写数字识别中,LDA可提取笔画走向、数字闭合区域等特征,将高维图像数据投影到低维空间后,再利用简单分类器(如最近邻分类器)实现高准确率识别。
- 奇异值分解(SVD):将矩阵分解为三个矩阵的乘积,通过保留主要奇异值实现降维,广泛应用于推荐系统(如Netflix电影推荐)和文本处理(如潜在语义分析)。
非线性降维通过非线性变换(如核函数、流形学习)处理具有复杂结构的数据,适用于数据分布非线性或存在流形结构的情况。常见算法包括:
- t-分布随机邻域嵌入(t-SNE):通过优化目标函数,将高维数据点映射到低维空间,并尽量保持数据点之间的相似性,特别适合高维数据可视化。例如,在基因表达数据分析中,t-SNE可将数千个基因的表达数据降维到二维或三维空间,直观展示不同细胞类型或疾病状态的聚类情况。
- 局部线性嵌入(LLE):假设每个数据点可由其邻域内的点线性重构,通过保持这种线性重构关系实现降维,适用于非线性流形数据。例如,在人类运动跟踪中,LLE可提取关节角度、肢体位置等特征,将高维运动数据降维到低维空间,实现更高效的运动模式识别。
- 等距映射(Isomap):通过保持数据点之间的测地距离(最短路径距离)实现降维,适用于流形数据。例如,在机器人路径规划中,Isomap可将环境数据(如障碍物位置、形状)降维到低维空间,发现环境的低维几何结构,从而规划出更高效的运动路径。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.