MediaTek Research推出沙漏MLP架构革新神经网络|高维|翻译|mlp|深度思考模型

分享至

最近，来自MediaTek Research和台湾国立大学的陈孟禧、李育昂、廖丰廷和邱达山团队发表了一项颠覆性研究，这项研究发表于2025年10月的arXiv预印本平台（论文编号：arXiv:2510.01796v1）。他们提出的全新神经网络架构就像是给AI的"大脑"重新设计了思考方式，有望让人工智能变得更加高效和强大。

想象一下传统的神经网络就像一个经典的漏斗：信息从窄口进入，在中间宽大的部分进行复杂处理，然后再从窄口输出。这种设计已经统治了神经网络领域几十年。但MediaTek的研究团队却大胆提出了一个反其道而行之的想法：为什么不把漏斗倒过来呢？他们创造性地提出了"沙漏"形状的多层感知器（MLP）架构，这种设计就像把传统漏斗的宽窄关系完全颠倒过来。

这项研究的核心理念可以用一个生动的比喻来理解。如果把传统神经网络比作一个工匠在狭小工作台上加工原材料，那么新的沙漏架构就像是把原材料先搬到宽敞的工厂车间里，在那里进行精细的改进和调整，然后通过一个精巧的窄通道输出最终产品。研究团队认为，在更宽广的"思考空间"里进行渐进式改进会比在狭窄空间里强行变换更加有效。

传统的MLP架构遵循着"窄-宽-窄"的经典模式。就像一条河流，从狭窄的河道流入宽阔的湖泊，再流回狭窄的出口。在这种设计中，跳跃连接（可以理解为信息的"快车道"）连接的是两端狭窄的部分，而所有的复杂计算都发生在中间宽广的隐藏空间里。这种设计看似合理，但MediaTek的研究者们敏锐地发现了一个问题：为什么要把所有的渐进式改进都限制在狭窄的维度空间里呢？

他们提出的沙漏架构完全颠覆了这个传统。新架构采用"宽-窄-宽"的设计模式，就像一个真正的沙漏。输入信息首先被"举升"到一个高维的宽广空间，然后在这个宽广的空间里建立跳跃连接，而实际的计算处理则通过一个相对狭窄的"瓶颈"进行。这就好比把会议从拥挤的小会议室搬到了宽敞的大礼堂，让参与者有更多空间进行思考和交流，同时通过一个高效的协调机制来处理具体的决策过程。

这种设计背后有着深刻的理论支撑。研究团队借鉴了水库计算、随机特征理论和压缩感知等多个领域的洞察。他们发现，在高维空间中，随机投影能够令人惊讶地保持信息的本质结构，这就像是无论你用什么方式把一幅画投影到足够大的墙面上，画的核心特征都不会丢失。约翰逊-林登斯特劳斯引理等数学理论也证明，适当分布的随机矩阵可以在高维空间中保持几何结构，这为他们的设计提供了坚实的数学基础。

更令人惊喜的是，研究团队还提出了一个极具实用价值的创新：固定随机投影。在传统方法中，将输入信息"举升"到高维空间的投影矩阵需要通过训练来学习，这会消耗大量的计算资源。但他们发现，当扩展后的维度足够大时，使用随机初始化的固定投影矩阵就能达到几乎相同的效果。这就像发现了即使不经过专门训练，随机选择的翻译工具在处理足够多样化的信息时也能保持翻译质量。这个发现不仅减少了需要训练的参数数量，还能显著降低内存带宽需求，特别适合那些经常受到内存限制的大型架构如变换器。

为了验证他们的理论，研究团队设计了一系列精心安排的实验。他们选择了生成任务作为测试场景，因为这类任务需要进行精细的渐进式改进，正好符合他们关于高维空间优势的假设。实验涵盖了MNIST手写数字和ImageNet-32自然图像两个数据集，包括生成分类、去噪和超分辨率三种不同的任务类型。

在MNIST的生成分类任务中，模型需要接收一个手写数字图像，生成该数字的原型图像，然后进行分类。这个任务就像是要求AI既是艺术家又是评判员：先画出最标准的数字样本，再判断这个数字是什么。实验结果显示，沙漏架构在整个参数-性能权衡曲线上都明显优于传统设计。特别是在较低精度要求（26分贝范围）时，沙漏架构能够用显著更少的参数达到相同的性能水平。

去噪任务更像是一个图像修复专家的工作。研究者向原始图像添加人工噪声，然后让模型去除这些噪声恢复清晰图像。在ImageNet-32数据集上，沙漏模型仅用6600万参数就达到了22.31分贝的峰值信噪比，而传统模型需要7500万参数才能达到同样的效果。这种效率优势在MNIST数据集上同样明显，沙漏架构在整个复杂度范围内都保持着领先优势。

超分辨率任务则考验模型从低分辨率图像重建高分辨率细节的能力，这就像是一个图像侦探需要从模糊的照片中推断出清晰的细节。在ImageNet-32上，沙漏设计用6900万参数实现了24.00分贝的性能，超越了需要8700万参数的传统模型。这种优势在中等参数预算范围内尤其突出，正是实际应用中最关心的区域。

通过系统性的架构搜索，研究团队发现了一个有趣的规律。随着参数预算的增加，最优的沙漏配置倾向于采用更深的网络、更宽的跳跃连接和更窄的瓶颈维度。这种缩放模式与传统MLP截然不同，传统设计通常依赖于浅层深度和非常宽的隐藏层。沙漏架构通常使用4或5层深度，瓶颈维度在270到765之间，而传统设计往往限制在3层以内，隐藏层维度却需要3075或更大。

研究团队还验证了固定随机投影的实用性。他们比较了两种变体：一种使用固定的随机初始化投影矩阵，另一种在训练过程中更新这个投影。令人惊讶的是，固定投影模型的性能与可训练投影几乎没有差别，这验证了他们关于随机投影足以保持基本信息结构的假设。这个发现具有重要的实用价值，特别是在资源受限或硬件约束的环境中。

这项研究的影响远远超出了MLP本身。研究团队在论文中讨论了这种"宽-窄-宽"思路在其他架构中的潜在应用。他们特别提到了变换器架构的改造可能性。传统变换器的前馈层无法独立地在扩展维度上操作，因为自注意力机制必须在匹配的维度上处理表示。但通过引入高效的注意力机制，如多头潜在注意力，可以在更宽的表示上保持较小的注意力头大小，从而实现计算效率。

他们还提出，前馈层适应应该包含多个具有"宽-窄-宽"架构模式的迭代细化块，这可能使更复杂的表示转换成为可能，同时保持良好的参数-性能比率。这种设计可能推进大规模模型架构的最新技术水平，特别是在计算效率和表示能力的平衡方面。

对于实际应用，这种设计还具有一些独特的优势。固定随机投影矩阵可以通过自定义内核或电路按需高效生成，而不是存储在内存中并通过处理器-内存接口传输。这对于经常受到内存带宽限制的大型架构特别有价值。此外，如果随机矩阵是按需计算的，这自然会减少训练和推理的内存容量需求。

尽管这项研究主要在相对低维的图像数据集上进行验证，但研究团队认识到了扩展到高分辨率应用的挑战。他们提出了两个有前途的方向来解决这个问题。第一个方向是将沙漏块集成到现有架构中，如MLP-Mixer等框架，这些框架旨在保持丰富表示的同时将计算成本保持在与MLP设计相当的水平。第二个方向是增强常用于图像到图像翻译和生成建模的U-Net架构。输入首先被投影到高维潜在空间，然后进入U-Net编码器-解码器流水线，沙漏形状的概念可以用于分辨率转换和注意力机制。

这项研究还揭示了一个更深层的洞察：在设计神经网络时，我们需要重新思考跳跃连接的最佳位置。传统观念认为跳跃连接应该在最"自然"的维度上操作，通常是输入输出维度。但这项研究表明，将跳跃连接放在人工扩展的高维空间中可能更有效，即使这需要额外的投影步骤。

从更广泛的角度来看，这项研究挑战了深度学习领域的一个基本假设。长期以来，研究者们习惯于在给定的"自然"维度上工作，很少质疑这些维度是否真的是最优的。沙漏架构的成功表明，有时候人工创造的"不自然"维度空间实际上可能提供更好的学习环境。

这种思维方式的转变可能会影响许多其他研究方向。例如，在自然语言处理中，我们通常直接在词嵌入维度上操作，但也许将文本表示投影到更高维度再进行处理会带来意想不到的改进。在计算机视觉中，也许我们不应该总是试图在图像的原始像素空间或"自然"特征空间中工作，而应该探索将视觉信息映射到专门设计的高维空间中。

研究团队的工作还为我们理解生物神经系统提供了新的视角。大脑皮层的组织方式在某种程度上也可以看作是一种"宽-窄-宽"的架构：大量的神经元在高维的连接空间中进行信息处理，然后通过相对较窄的通道传递关键信息。这种相似性可能不仅仅是巧合，而是反映了信息处理的某种基本原理。

当然，这项研究也有其局限性。目前的验证主要集中在生成任务上，还需要在更广泛的任务类型上进行测试。此外，虽然固定随机投影在当前实验中表现良好，但在更复杂的任务中是否仍然有效还需要进一步研究。扩展维度的选择也需要更系统的理论指导，目前主要依赖经验搜索。

尽管存在这些限制，这项研究的意义是深远的。它不仅提供了一种新的神经网络设计方法，更重要的是开启了一种新的思维方式。在一个领域变化如此迅速的时代，能够挑战基本假设并提出创新解决方案的研究显得格外珍贵。

研究团队通过详尽的消融研究进一步验证了他们设计选择的合理性。他们发现，在固定高维残差空间维度和残差块数量的情况下，增加瓶颈宽度会改善性能，但收益在维度270之后开始递减。这表明适度的瓶颈对于高性能是足够的，能够实现显著的参数节省。类似地，在固定其他参数的情况下，随着残差块数量的增加性能会改善，但在5层左右快速平稳，表明相对较浅的沙漏MLP就足以获得强大的结果。

这些发现对实际部署具有重要意义。它们表明，不需要无限制地增加模型复杂度就能获得良好性能。相反，通过智能的架构选择，可以在相对适中的计算预算内实现优秀的结果。这对于需要在边缘设备或资源受限环境中部署AI模型的应用场景特别有价值。

展望未来，这项研究为多个研究方向开辟了道路。首先是理论方向：需要更深入地理解为什么高维空间中的渐进改进如此有效，这可能涉及高维几何、信息理论和学习理论的交叉研究。其次是应用方向：如何将这些洞察应用到其他架构和任务中，特别是大规模的实际应用。最后是优化方向：如何进一步提高这种架构的效率，以及如何自动化地确定最优的架构参数。

对于想要深入了解这项研究的读者，可以通过论文编号arXiv:2510.01796v1在arXiv平台上查阅完整的技术细节。这项由MediaTek Research和台湾国立大学合作完成的研究，展示了工业界和学术界合作在推动AI技术发展方面的巨大潜力。

说到底，这项研究的真正价值不仅在于提出了一种新的神经网络架构，更在于它展示了一种敢于质疑传统、勇于创新的研究态度。在人工智能快速发展的今天，这种态度可能比任何具体的技术创新都更加珍贵。它提醒我们，有时候最大的突破来自于重新审视那些我们认为理所当然的基本假设，并勇敢地尝试完全不同的方法。

Q&A

Q1：沙漏MLP架构与传统MLP有什么本质区别？

A：传统MLP采用"窄-宽-窄"设计，信息从狭窄维度进入，在宽广隐藏空间处理，再回到狭窄输出。沙漏MLP完全颠倒这个过程，采用"宽-窄-宽"设计，先将输入投影到高维空间，在宽广空间建立跳跃连接进行渐进改进，通过狭窄瓶颈处理。就像把工作从拥挤小房间搬到宽敞大厅，让AI在更大"思考空间"里进行精细调整。

Q2：为什么沙漏架构能比传统架构更高效？

A：关键在于高维空间为渐进式改进提供了更好的环境。研究发现，在ImageNet-32去噪任务中，沙漏模型用6600万参数就达到22.31分贝性能，而传统模型需要7500万参数。这是因为高维空间中的随机投影能保持信息结构，让模型在更宽广的"操作空间"里进行增量学习，同时通过窄瓶颈保持计算效率。

Q3：固定随机投影是如何工作的，为什么不需要训练？

A：固定随机投影基于数学理论发现：当扩展维度足够大时，随机初始化的投影矩阵就能保持信息的本质结构，无需通过训练学习。就像把画投影到足够大的墙面上，无论用什么投影方式核心特征都不会丢失。实验证明固定投影性能与可训练投影几乎相同，但能减少训练参数、降低内存需求，特别适合资源受限环境。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.