降维算法可分为线性与非线性|高维|流形|低维|数据点

降维算法可分为线性与非线性

分享至

技术分类：线性与非线性两大路径

根据映射函数 f 的性质，降维算法可分为线性与非线性两大类：

1. 线性降维：基于矩阵变换的简单高效

线性降维通过线性变换（如矩阵乘法）实现维度压缩，适用于数据分布近似线性或低维流形嵌入高维空间的情况。常见算法包括：

主成分分析（PCA）：通过寻找数据方差最大的方向（主成分）进行投影，保留最大方差信息。例如，在股票市场中，PCA可将成百上千只股票的价格数据压缩为几个关键主成分（如市场趋势、行业波动），帮助投资者快速识别市场动态。
线性判别分析（LDA）：在有监督场景下，通过最大化类间距离、最小化类内距离实现降维，常用于分类任务。例如，在手写数字识别中，LDA可提取笔画走向、数字闭合区域等特征，将高维图像数据投影到低维空间后，再利用简单分类器（如最近邻分类器）实现高准确率识别。
奇异值分解（SVD）：将矩阵分解为三个矩阵的乘积，通过保留主要奇异值实现降维，广泛应用于推荐系统（如Netflix电影推荐）和文本处理（如潜在语义分析）。

2. 非线性降维：捕捉复杂数据结构

非线性降维通过非线性变换（如核函数、流形学习）处理具有复杂结构的数据，适用于数据分布非线性或存在流形结构的情况。常见算法包括：

t-分布随机邻域嵌入（t-SNE）：通过优化目标函数，将高维数据点映射到低维空间，并尽量保持数据点之间的相似性，特别适合高维数据可视化。例如，在基因表达数据分析中，t-SNE可将数千个基因的表达数据降维到二维或三维空间，直观展示不同细胞类型或疾病状态的聚类情况。
局部线性嵌入（LLE）：假设每个数据点可由其邻域内的点线性重构，通过保持这种线性重构关系实现降维，适用于非线性流形数据。例如，在人类运动跟踪中，LLE可提取关节角度、肢体位置等特征，将高维运动数据降维到低维空间，实现更高效的运动模式识别。
等距映射（Isomap）：通过保持数据点之间的测地距离（最短路径距离）实现降维，适用于流形数据。例如，在机器人路径规划中，Isomap可将环境数据（如障碍物位置、形状）降维到低维空间，发现环境的低维几何结构，从而规划出更高效的运动路径。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.