复旦大学团队发现：AI训练中的"偏差陷阱"竟是稳定训练的钥匙|高维|均值|残差|极值|定理|ai训练

分享至

这项由复旦大学计算机学院、牛津大学、科罗拉多大学等多所知名高校联合完成的研究发表于2026年3月11日，研究编号为arXiv:2603.10444v1，论文标题为《FP4量化大语言模型训练中均值偏差的诅咒与祝福》。有兴趣深入了解技术细节的读者可以通过该编号查询完整论文。

当我们的智能手机变得越来越聪明，背后其实是大型人工智能模型在默默工作。这些模型就像一个巨大的虚拟大脑，需要消耗惊人的计算资源来"学习"和"思考"。为了让这些AI大脑能够在普通设备上运行，科学家们一直在寻找给它们"瘦身"的方法——这就是所谓的低精度训练，就像把原本需要用双精度数字表达的复杂思维压缩成简单的4位数字。

然而，这种压缩过程并不轻松。当科学家们尝试将AI模型的数据表示从常规的16位浮点数压缩到4位时，就像是试图用只有16种颜色的调色板来绘制一幅原本需要数万种颜色的精美画作。这个过程中，模型的表现往往会出现严重下降，训练变得极不稳定，就像一个原本运转良好的精密仪器突然开始剧烈颤抖。

这种不稳定性的罪魁祸首长期以来被认为是数据分布的"各向异性"——说得简单点，就是数据在不同方向上的分布极不均匀，就像一个被严重拉伸的橡皮球。在这种情况下，少数几个方向集中了绝大部分的"能量"，而其他方向的信息被压缩到了几乎可以忽略的程度。当进行4位量化时，这些极端值会强制扩展整个数值范围，导致大量重要的语义信息被挤压到非常狭窄的数值区间内，最终造成信息的严重丢失。

一、揭秘隐藏的"主谋"：均值偏差的真面目

复旦大学的研究团队在深入分析这个问题时，发现了一个令人意外的真相。他们通过对大语言模型训练过程的细致观察发现，导致数值不稳定的主要原因并不是复杂的多维度数据分布问题，而是一个相对简单却被长期忽视的因素：一个连贯的一阶均值偏差。

这个发现就像是在调查一起复杂案件时，所有人都把注意力放在了各种复杂的线索上，却忽略了最明显的证据。研究团队发现，在AI模型的每一层计算中，都存在一个系统性的"均值漂移"现象。这种漂移不是随机的，而是高度一致的——几乎所有的数据点都朝着同一个方向发生偏移。

为了理解这种现象，我们可以想象一个班级的学生在排队。正常情况下，学生们应该围绕队伍中心线均匀分布。但是，如果有一阵强风从左边吹来，所有学生都会不由自主地向右偏移。虽然每个学生偏移的程度可能稍有不同，但整体趋势是一致的。在AI模型中，这种"风"就是均值偏差，它会导致所有激活值都朝着同一个方向系统性地偏移。

更重要的是，研究团队发现这种均值偏差在高维空间中会被显著放大。由于AI模型通常工作在成千上万维的空间中，即使每个维度上的偏差都很小，当这些偏差汇聚在一起时，总的偏移量会按照维度数的平方根进行放大。这就解释了为什么在进行4位量化时，少数几个极端值会主导整个数值范围的分配。

二、追根溯源：偏差从何而来

研究团队进一步深入分析，发现这种均值偏差的形成是一个三阶段的过程，就像一个连锁反应逐步放大最终形成问题。

第一阶段是"种子偏差"的形成。这个过程始于模型的词嵌入层，也就是AI模型理解文字的第一站。在自然语言中，词汇的使用频率极不均匀——像"的"、"是"、"在"这样的高频词会在文本中反复出现，而专业术语或罕见词汇出现的次数要少得多。这种不均匀的分布就像是拥挤的地铁站，热门线路的列车总是人满为患，而偏远线路的列车却相对空旷。

在训练过程中，高频词汇会接受更多的梯度更新，这会导致它们的词向量在特定方向上产生一致性的偏移。随着训练的进行，这种偏移会在整个词汇表中形成一个共同的"背景方向"，就像所有列车都会受到同一个磁场的影响而发生轻微的偏移。

第二阶段是偏差的"再生成和放大"。即使输入数据本身没有明显偏差，AI模型中的非线性激活函数也会重新产生均值偏差。这些激活函数，比如ReLU和SwiGLU，都具有非对称的特性——它们对正值和负值的处理方式不同。这种非对称性就像是一个有缺陷的天平，会系统性地向某个方向倾斜，从而在每一层计算中都产生新的偏差。

与此同时，自注意力机制会优先关注那些相似度较高的方向。当存在一个主导性的均值方向时，注意力机制会通过指数权重的方式进一步放大这种一致性，就像聚光灯会让原本就明亮的物体变得更加耀眼。

第三阶段是偏差的"网络级累积"。AI模型中的残差连接机制会将每一层产生的偏差保存并传递给下一层。这种机制原本是为了帮助模型更好地学习，但同时也为偏差的累积提供了渠道。随着网络深度的增加，这些偏差会像滚雪球一样越来越大，最终在模型的深层形成极端的激活值。

研究团队通过对不同训练阶段和不同网络层深的详细分析，发现了一个清晰的趋势：在训练初期，浅层已经表现出较强的均值主导性，而随着训练的进行，深层也逐渐被均值偏差所主导。这种演化过程就像是一种"传染"，偏差从网络的入口逐渐扩散到整个网络。

三、数学揭秘：偏差如何主导极值

为了深入理解均值偏差如何成为激活值极值的主要驱动因素，研究团队进行了严格的数学分析。他们将激活矩阵分解为三个互相正交的部分：均值部分、尖峰部分和尾部部分，就像是将一个复杂的交响乐分解为主旋律、和声和背景音效。

通过这种分解，研究团队发现了一个惊人的事实：在大多数情况下，激活值的极端大小主要由均值部分贡献。为了验证这一发现，他们定义了"异常值集合"——即那些绝对值最大的前0.1%的激活值，然后分析每个部分对这些极值的贡献程度。

结果显示，随着训练的进行，均值部分对极值的贡献比例不断增加。在训练后期，均值偏差几乎完全主导了异常值的产生。这就像是在一场音乐会中，原本应该由各种乐器共同演奏的乐曲，最后却变成了主旋律的独角戏。

研究团队还从理论角度证明了这种主导性的必然性。他们证明了三个重要定理，每个定理都从不同角度说明了均值偏差相对于随机波动的压倒性优势。

第一个定理说明了"元素级极值主导性"。当确定性的均值偏移超过量化阈值时，个别坐标超过该阈值的概率会保持在一个稳定的水平，而不会随着阈值的提高而指数级下降。相比之下，纯粹由随机波动产生的极值概率会随着阈值的提高而急剧下降。

第二个定理揭示了"密集极值放大"效应。均值偏差会在大量样本中产生密集的极值分布，而随机波动只能产生稀疏的异常值。具体来说，均值主导的情况下，极值的数量与样本数量成正比增长，而在纯随机情况下，极值数量以指数级速度下降。

第三个定理提供了"高维极值分离"的更精确界限。在高维空间中，受均值偏差影响的坐标的最大值可以表示为均值大小加上一个极值项的形式，而纯随机波动产生的最大值仍然局限在传统的对数增长范围内。这种分离现象随着维度的增加而变得更加明显。

这些理论结果清楚地表明，一旦在表示空间中形成了连贯的均值组件，它就会自然地主导最大的元素激活值，从而决定低位量化的动态范围。

四、化腐朽为神奇：Averis方法的智慧

面对这个看似棘手的问题，研究团队提出了一个巧妙的解决方案。既然问题的根源是一个相对简单的一阶均值偏差，那么解决方案也可以相对简单——直接在源头移除这个偏差。

他们开发的方法被称为Averis（Averaging-Induced Residual Splitting），核心思想是在进行量化之前，先将激活矩阵分解为均值部分和残差部分，然后对这两部分分别进行量化。这种做法就像是在处理一个嘈杂的音频信号时，先把主要的噪声源分离出来单独处理，然后再处理剩余的有用信号。

具体来说，对于任何一个激活矩阵，Averis方法首先计算所有行的平均值，得到一个均值向量。然后，将原始矩阵减去这个均值向量（通过广播机制扩展为与原始矩阵同样大小），得到一个去均值的残差矩阵。接下来，分别对均值向量和残差矩阵进行4位量化。

在前向传播过程中，最终的输出是通过将量化后的均值向量和残差矩阵重新组合得到的。这种方法的美妙之处在于，它保持了原始计算的数学等价性，同时显著改善了量化的数值稳定性。

在反向传播过程中，研究团队采用了类似的策略。他们对输出梯度也进行均值-残差分解，确保整个训练过程中的一致性。这种对称处理就像是在设计一个精密仪器时，确保输入和输出都经过相同的校准过程。

Averis方法的计算开销非常低。它只需要计算两个均值向量（前向和反向各一个），以及进行两次矩阵减法操作。相比于之前需要进行复杂的奇异值分解（SVD）或迭代正交化的方法，Averis的计算复杂度几乎可以忽略不计，同时在现代GPU上的实现也非常友好。

五、实验验证：理论照进现实

为了验证Averis方法的有效性，研究团队在Qwen-3 0.6B模型上进行了全面的实验。他们选择了这个规模的模型是因为它足够大，能够反映实际应用中的问题，同时又不会因为计算资源的限制而影响实验的深度和广度。

实验采用了W4A4G4的量化配置，这意味着模型的权重、激活值和梯度都被量化为4位精度。这是目前最激进的量化设置之一，对数值稳定性提出了极高的要求。在这种设置下，任何微小的不稳定性都会被放大，导致训练失败。

实验结果令人振奋。在使用传统4位量化方法时，模型的训练损失相比于16位基准出现了显著的恶化，训练曲线表现出明显的不稳定性。而在应用Averis方法后，训练损失与16位基准的差距大幅缩小，训练过程变得稳定可靠。

更重要的是，研究团队还评估了模型在下游任务上的表现。他们选择了七个不同的评估任务，包括常识推理、阅读理解、逻辑判断等，这些任务能够全面反映模型的实际能力。结果显示，使用Averis方法训练的模型在这些任务上的平均表现从45.64%提升到了46.61%，虽然提升幅度看起来不大，但考虑到这是在极低精度设置下实现的，这样的改善是非常有意义的。

特别值得注意的是，研究团队通过详细的消融实验证明，性能的改善确实来自于均值偏差的移除，而不是其他因素。他们分析了不同训练阶段和不同网络层的激活分布，发现Averis方法成功地控制了极值的产生，使得量化过程更加稳定。

六、突破的意义：重新定义AI训练的游戏规则

这项研究的意义远远超出了技术层面的改进。它从根本上改变了我们对AI模型训练中数值不稳定性的理解，就像是为一个长期困扰科学家的谜题提供了全新的解答视角。

从理论角度来看，这项研究揭示了大语言模型中各向异性现象的根本结构。之前，研究者们普遍认为这种现象是由复杂的多维度数据分布造成的，需要通过复杂的谱分析方法来解决。而这项研究证明，问题的核心其实是一个相对简单的一阶结构——均值偏差。这种发现改变了我们对问题本质的认识，为后续的研究指明了更加清晰的方向。

从实践角度来看，Averis方法为低精度AI训练提供了一条高效可行的路径。与之前需要进行复杂矩阵运算的方法相比，Averis的计算开销几乎可以忽略，同时在硬件实现上也更加友好。这意味着更多的研究机构和公司可以采用这种方法来降低AI训练的成本，推动AI技术的普及和应用。

更深层的意义在于，这项研究展示了"诅咒与祝福"的辩证关系。同一个导致训练不稳定的均值偏差，在被正确理解和处理后，反而成为了解决问题的钥匙。这种思维转换提醒我们，在面对复杂问题时，有时候最有效的解决方案可能就隐藏在问题本身之中。

研究团队还指出，这种方法的应用范围可能远不止于大语言模型的训练。在其他需要进行低精度计算的AI任务中，比如图像识别、语音处理等，类似的均值偏差问题也可能存在。因此，Averis方法可能具有更广泛的适用性。

从AI硬件发展的角度来看，这项研究为未来的专用AI芯片设计提供了重要启示。如果能够在硬件层面直接支持均值-残差分解的计算模式，就可以进一步提高低精度训练的效率和稳定性。这种硬件-软件协同优化的思路，可能会成为下一代AI计算系统的重要特征。

此外，这项研究还对AI模型的可解释性研究具有重要价值。通过揭示激活分布中均值偏差的主导作用，研究者们可以更好地理解AI模型的内部工作机制，这有助于提高模型的可控性和安全性。

说到底，复旦大学团队的这项研究不仅解决了一个重要的技术问题，更重要的是，它展示了科学研究中"换个角度看问题"的威力。当所有人都在复杂的方向上寻找答案时，他们选择回到问题的本源，发现了一个简单而有效的解决方案。这种研究思路本身就是一种宝贵的科学财富。

这项研究让我们看到，在AI技术飞速发展的今天，有时候最大的突破并不来自更复杂的算法或更强大的硬件，而是来自对问题本质的深刻理解。当我们能够准确把握问题的核心时，解决方案往往会变得出人意料的简单和优雅。对于那些正在努力降低AI训练成本、提高AI普及性的研究者和工程师来说，这项研究无疑提供了一个极有价值的工具和思路。而对于普通人来说，这项研究意味着我们可能很快就能在自己的设备上体验到更强大、更智能的AI服务，同时这些服务的成本也会显著降低。

Q&A

Q1：均值偏差是什么，为什么会导致AI训练不稳定？

A：均值偏差是指AI模型在处理数据时，所有数据点都朝着同一个方向发生系统性偏移的现象。当进行低精度训练时，这种偏差会产生极端的数值，强制扩展整个数值范围，导致重要信息被压缩到极窄区间内，从而造成训练不稳定。

Q2：Averis方法如何解决均值偏差问题？

A：Averis方法采用"分而治之"的策略，在量化前先将数据分解为均值部分和残差部分，分别进行量化处理。这样可以避免均值偏差主导整个数值范围，让量化过程更加稳定，同时计算开销很小，只需要简单的减法运算。

Q3：这项研究对普通人使用AI有什么意义？

A：这项研究让AI模型能够在保持性能的同时大幅降低计算资源需求，这意味着未来我们的手机、电脑等普通设备可以运行更强大的AI功能，同时AI服务的成本也会显著下降，让更多人能够享受到先进的AI技术。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.