![]()
这项由香港科技大学广州校区xLeaF实验室团队完成的研究于2026年2月发表在预印本平台,论文编号为arXiv:2601.23000v1。研究团队提出了一种名为Mano的全新优化器,能够大幅提升大型语言模型的训练效率,同时显著降低计算成本和内存消耗。
训练大型语言模型就像是在教授一个拥有数千亿个参数的超级大脑学习语言,这个过程需要消耗巨额的计算资源和电力。现有的训练方法就好比让学生用最笨拙的方式学习数学——要么只看到局部信息而忽视整体结构,要么过度追求完美而丢失了重要细节。当前最流行的AdamW优化器就像一个只会逐个检查每道题目的老师,完全忽略了题目之间的内在联系和整体规律。而另一种叫做Muon的优化器虽然能够统一处理所有维度的信息,但在这个过程中却丢失了宝贵的曲率信息,就像为了保持答题速度一致而忽略了题目的难易程度。
研究团队从一个全新的角度来思考这个问题。他们发现,传统的流形优化方法虽然在数学理论上很优美,但在实际的大模型训练中表现很差,这让很多研究者对这类方法失去了信心。然而,港科大的研究团队没有放弃,而是创新性地改造了这些方法。
他们的核心洞察是这样的:与其强制让模型参数始终待在某个特定的数学表面上,不如让学习过程本身在这些平滑的数学表面上进行。这就像是改变了学习策略——不是要求学生的答案必须符合某种固定格式,而是让学生的思考过程遵循更加高效和结构化的路径。
具体来说,Mano优化器采用了一种被称为"旋转斜流形"的巧妙设计。你可以把它理解为一种动态的学习策略:在奇数轮训练中按列方向进行归一化处理,在偶数轮训练中按行方向进行归一化处理。这种交替进行的方式确保了模型能够从多个角度理解和优化参数空间,就像一个优秀的数学老师会从不同角度讲解同一个概念,帮助学生建立更全面的理解。
更令人惊喜的是,这种方法在保持优异性能的同时,还大幅降低了计算复杂度。研究团队通过大量实验发现,Mano优化器相比于现有方法具有显著优势。在LLaMA和Qwen3等主流模型上的测试表明,Mano不仅在最终的模型性能上超越了AdamW和Muon,而且在训练速度上也有大幅提升。
实验结果显示,在LLaMA-350M模型的一天训练实验中,Mano的收敛速度比Muon快了1.75倍,在LLaMA-1.3B模型上快了1.38倍。更重要的是,这种速度优势随着训练的深入会越来越明显,因为Mano能够更好地避开局部最优解,持续向全局最优解前进。
在内存消耗方面,Mano的表现同样出色。它只需要与SGD动量法相当的内存开销,相比AdamW减少了一半的内存占用。在计算复杂度上,Mano避免了Muon中昂贵的Newton-Schulz迭代计算,显著降低了每次更新的计算成本。
一、数学优化遇上工程智慧:Mano的核心原理
要理解Mano优化器的工作原理,我们可以把大模型训练比作在一个巨大的山地中寻找最深的山谷。传统的优化方法就像是戴着有色眼镜的登山者,要么只能看到脚下的小范围地形(AdamW的局限性),要么虽然视野开阔但分不清远近深浅(Muon的问题)。
Mano的创新在于重新设计了这个"寻路"过程。它不是简单地限制登山者只能走特定的路径,而是让寻路的思考过程本身变得更加聪明和高效。具体来说,Mano采用了一种叫做"切空间投影"的数学技巧,这相当于在每次决定行进方向时,都会考虑当前位置的地形特征,确保选择的方向既符合整体的优化目标,又能充分利用局部的地形信息。
更巧妙的是,Mano引入了"旋转流形归一化"机制。你可以把它想象成一个会自动调整视角的智能导航系统。在奇数步的时候,它从东西方向观察地形并做决策;在偶数步的时候,它转换到南北方向进行观察。这种视角的交替切换确保了优化过程不会陷入某个特定方向的偏见,能够更全面地探索参数空间。
研究团队通过理论分析证明,这种交替的列行归一化过程实际上等价于著名的Sinkhorn-Knopp迭代算法,该算法能够将矩阵收敛到双随机矩阵。双随机矩阵具有非常好的数学性质,能够保证优化过程的稳定性和收敛性。
在实现层面,Mano的每次参数更新只需要进行两次列行归一化和一次切空间投影,总共消耗约11mn个浮点运算,其中m和n分别是参数矩阵的行数和列数。相比之下,Muon需要进行复杂的矩阵正交化操作,计算量要高得多。这种设计让Mano在保持数学优雅性的同时,具备了出色的工程实用性。
二、实验验证:从理论到现实的华丽转身
为了验证Mano优化器的实际效果,研究团队设计了一系列全面的对比实验。他们选择了两个代表性的模型架构——LLaMA和Qwen3,以及两个标准的文本数据集C4和Pile,确保实验结果具有广泛的代表性。
在LLaMA-350M模型的训练中,Mano展现出了独特的学习曲线特征。虽然在训练初期,Muon优化器能够实现更快的初始收敛,但随着训练的深入,Mano逐渐展现出其优势。最令人印象深刻的是,当AdamW和Muon的损失曲线开始平缓甚至停滞时,Mano仍然能够保持几乎恒定的收敛速度,持续向全局最优解逼近。
这种现象在更大的模型上表现得更加明显。在LLaMA-1.3B模型的实验中,Mano最终超越了两个基准优化器的性能。研究团队发现,对于更大的模型,Mano超越Muon的转折点会出现得更晚,这可能与大模型更大的数据规模最优点有关。
特别值得关注的是Mano在梯度稳定性方面的表现。通过分析训练过程中的梯度范数、方差和信噪比,研究团队发现Mano在相同的动量系数下能够维持更低的梯度方差和更高的信噪比。这表明Mano的流形归一化方法能够更好地保留原始梯度步骤中编码的曲率信息,从而提供更稳定的优化环境。
从频谱分析的角度来看,Mano实现了高效的频谱正则化效果。与Muon通过白化操作拉平频谱分布不同,Mano的流形归一化能够在提升更新频谱中稀有方向的相对幅度的同时,保持奇异值的原始顺序信息。这种设计避免了丢失重要的频谱结构信息,从理论角度解释了Mano的优异性能。
在实际的计算效率测试中,Mano的优势更加明显。研究团队测量了不同模型规模下Newton-Schulz迭代和Mano流形归一化操作的实际运行时间。结果显示,Mano的计算时间随模型维度线性增长,而Muon的计算时间呈指数增长。在LLaMA-70B模型上,Mano的注意力层归一化仅需2.19毫秒,而Muon需要110.79毫秒,速度提升超过50倍。
三、深度剖析:为什么Mano如此有效
要理解Mano优化器为什么如此有效,我们需要从梯度优化的本质谈起。在大模型训练中,梯度信息就像是指路的罗盘,告诉我们应该朝哪个方向调整参数来改善模型性能。但现实中的这个"罗盘"往往会受到各种干扰,导致指向不够准确或稳定。
AdamW优化器的问题在于它只关注每个参数的个体行为,就像是给每个参数都配备了独立的小罗盘。虽然这种方法简单直接,但它忽略了参数之间的相互关系和整体结构。这导致优化过程可能会陷入次优解,特别是在复杂的高维参数空间中。
Muon优化器试图通过全局的频谱归一化来解决这个问题,这相当于使用一个超级罗盘来统一指导所有参数的更新。虽然这种方法能够确保各个方向上的更新幅度保持一致,但在均匀化处理的过程中,它丢失了梯度中包含的重要曲率信息,这些信息对于找到真正的最优解至关重要。
Mano优化器的巧妙之处在于它找到了一个平衡点。通过将动量投影到参数的切空间,并在旋转斜流形上对其进行约束,Mano既保留了梯度的原始结构信息,又获得了良好的几何性质。这就像是使用一个既能保持准确度又能适应地形变化的智能导航系统。
旋转流形的设计特别值得称赞。传统的流形优化方法往往假设存在一个固定的最优流形,但在实际的深度学习中,这种假设往往不成立。Mano通过在列向归一化和行向归一化之间交替切换,创造了一个动态的几何结构,能够更好地适应不同阶段的优化需求。
研究团队还进行了详细的收敛性分析。他们证明了在简化设置下(无动量,静态斜流形),Mano具有理论上的收敛保证。具体而言,在L平滑函数和一定的角度约束条件下,Mano能够以O(1/√T)的速度收敛,这与许多经典优化算法的收敛速度相当。
从几何直觉上理解,Mano之所以能够更好地逃离局部最优解,是因为它的更新步骤天然具有"跳出陷阱"的性质。通过在切空间上的投影和流形约束,每次更新都会产生一个具有良好几何性质的方向,这种方向更容易避开参数空间中的"陷阱区域"。
四、实践指南:Mano的使用与部署
对于想要使用Mano优化器的研究者和工程师来说,了解其实际部署细节至关重要。Mano的实现相对简洁,这使得它能够轻松集成到现有的深度学习框架中。
在超参数设置方面,Mano继承了许多经典优化器的简洁性。它只需要设置学习率、动量系数和权重衰减三个核心超参数,不需要像AdamW那样调整两个不同的动量系数。研究团队建议将动量系数设为0.95,这与Muon的设置保持一致,便于公平比较。
学习率的设置遵循了与AdamW相似的原则。为了确保不同优化器在相似的有效步长下工作,研究团队采用了Liu等人提出的更新均方根控制策略,将所有优化器的参数更新幅度都约束在0.2到0.4的范围内。这种策略确保了实验比较的公平性,同时也为实际使用提供了参考基准。
在内存管理方面,Mano的优势非常明显。它只需要存储一个动量缓冲区,内存开销与SGD动量法相当,仅为AdamW的一半。这对于训练大型模型特别重要,因为内存往往是限制因素之一。
实现细节上,Mano的核心操作包括两个归一化步骤和一个切空间投影。这些操作都可以用现代深度学习框架的基本算子高效实现,不需要复杂的矩阵分解或特殊的数值算法。具体而言,列向归一化使用逐列的L2范数归一化,行向归一化使用逐行的L2范数归一化,切空间投影通过简单的内积和减法操作完成。
在处理不同维度的参数时,Mano展现出了良好的适应性。对于二维的权重矩阵,它按照既定的旋转方案进行归一化;对于一维的偏置参数,研究团队建议继续使用AdamW进行优化,这与Muon的做法保持一致。这种混合策略充分利用了不同优化器在不同类型参数上的优势。
研究团队还提供了一个通用的高维张量版本,能够处理任意维度的参数。在这个版本中,旋转方案会循环遍历张量的各个维度,确保每个维度都能得到适当的归一化处理。这种设计使得Mano能够应用于更广泛的深度学习架构。
五、对比分析:Mano与现有方法的全面比较
将Mano与现有的优化方法进行全面比较,我们可以更清楚地看到它的独特价值和适用场景。
与AdamW相比,Mano的最大优势在于对参数空间几何结构的显式建模。AdamW基于对角近似的自适应学习率虽然简单有效,但这种对角假设在高维参数空间中往往过于简化。特别是在处理具有强相关性的参数时,AdamW可能会忽略重要的结构信息。Mano通过流形约束和切空间投影,能够更好地捕捉和利用这些结构信息。
在内存效率方面,Mano相对于AdamW有显著优势。AdamW需要维护梯度的一阶和二阶动量估计,内存开销是参数量的两倍。而Mano只需要一个动量缓冲区,内存开销与参数量相当。这种差异在训练大型模型时尤为重要,因为内存限制往往决定了能够训练的模型规模上限。
与Muon的比较更加微妙。两者都试图解决AdamW忽略参数间结构关系的问题,但采用了不同的技术路线。Muon通过Newton-Schulz迭代实现矩阵正交化,确保了各个频谱方向上的均匀探索。这种方法在理论上很优雅,但计算成本较高,特别是对于大型矩阵。
Mano采用的流形约束方法在计算上更加高效,同时能够保留更多的梯度结构信息。实验结果表明,这种保留对于最终的优化性能是有益的。特别是在训练后期,当Muon和AdamW的损失曲线趋于平缓时,Mano仍然能够保持稳定的下降趋势。
从收敛速度的角度来看,不同优化器表现出了不同的特征。AdamW在训练初期通常能够实现快速的初始收敛,这得益于其自适应学习率机制。Muon在中期表现出色,其频谱归一化能够有效避免某些局部最优解。而Mano的优势主要体现在训练的后期,它能够持续向全局最优解逼近,避免早期停止。
在数值稳定性方面,Mano表现出了良好的鲁棒性。通过分析训练过程中的梯度统计量,研究团队发现Mano能够维持更低的梯度方差和更高的信噪比。这表明Mano的优化轨迹更加稳定,不容易受到随机噪声的干扰。
研究团队还进行了消融实验来验证Mano各个组件的贡献。结果显示,旋转流形方案对于大型模型的性能至关重要。在静态流形设置下,Mano在小模型上表现尚可,但在大模型上性能明显下降。这证实了动态几何结构对于复杂优化问题的重要性。
说到底,选择合适的优化器就像选择合适的交通工具——没有绝对的最优选择,只有最适合特定场景的选择。对于计算资源充足、更看重训练稳定性和最终性能的场景,Mano是一个很好的选择。对于计算资源受限、更关注训练初期快速收敛的场景,AdamW可能更合适。而对于介于两者之间的场景,Muon提供了一个平衡的选项。
这项研究最重要的贡献在于重新激发了研究社区对流形优化方法的兴趣。长期以来,由于在大规模深度学习中的表现不佳,流形优化被视为一个理论有趣但实用性有限的方向。Mano的成功证明,通过适当的改造和创新,经典的数学方法仍然可以在现代机器学习中发挥重要作用。
这种"温故知新"的研究思路为未来的优化器设计提供了新的启发。与其一味追求复杂的新技术,有时候重新审视和改进经典方法可能会带来意想不到的突破。正如这项研究所展示的,数学理论的深度与工程实践的智慧相结合,往往能够产生既优雅又实用的解决方案。
Q&A
Q1:Mano优化器的核心创新是什么?
A:Mano优化器的核心创新在于重新设计了流形优化方法,通过将动量投影到参数的切空间并在旋转斜流形上进行约束,既保留了梯度的结构信息又获得了良好的几何性质。它采用交替的列行归一化策略,在奇数轮按列归一化,偶数轮按行归一化,避免了传统流形方法的局限性。
Q2:Mano相比现有优化器有什么实际优势?
A:Mano在多个方面超越现有优化器:内存消耗仅为AdamW的一半,计算复杂度远低于Muon,同时在训练后期能保持持续的收敛速度。实验显示,Mano在LLaMA-350M模型上比Muon快1.75倍,在LLaMA-1.3B上快1.38倍,且最终模型性能更优。
Q3:普通研究者能轻松使用Mano吗?
A:是的,Mano的实现相对简洁,只需要设置学习率、动量系数和权重衰减三个超参数,比AdamW更简单。它可以轻松集成到现有的深度学习框架中,核心操作只包括两个归一化步骤和一个切空间投影,都能用标准算子高效实现。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.