快手科技：AI语言模型训练的"权重平衡术"让机器学习更聪明|数学|编程|大模型|知名企业|快手(软体)

分享至

来源：市场资讯

（来源：科技行者）

这项由快手科技的王嘉康、刘润泽等研究人员与清华大学合作完成的研究发表于2025年10月7日，论文标题为《ASPO: 非对称重要性采样策略优化》，感兴趣的读者可以通过arXiv编号2510.06062查询完整论文内容。

在人工智能的世界里，训练一个聪明的语言模型就像教一个学生学习一样。传统的方法就好比老师在批改作业时，对答对题目的学生和答错题目的学生采用了完全相同的评分标准。但快手科技的研究团队发现了一个令人意外的问题：现有的训练方法在处理"正确答案"和"错误答案"时存在严重的不平衡，就像天平的两端重量不一样，导致整个学习过程变得摇摆不定。

研究团队注意到，当前最流行的强化学习训练方法GRPO在处理语言模型时，会给那些已经表现很好的部分分配更多的"关注度"，而对那些需要改进的部分却给予较少的"关注度"。这就像一个偏心的老师，总是表扬优等生而忽视需要帮助的学困生，结果导致整个班级的学习效果并不理想。

为了解决这个根本性问题，研究团队提出了一种全新的训练策略，叫做"非对称重要性采样策略优化"（ASPO）。这个方法的核心思想非常简单却极其有效：对于那些模型已经做得很好的部分，适当降低它们在训练中的权重；而对于那些模型还没有掌握好的部分，则给予更多的训练关注。这就像一个好老师会把更多精力放在帮助学困生提高上，同时也不忘记继续鼓励优等生保持水准。

一、发现问题：当前训练方法的"偏心"现象

要理解这个问题，我们可以把语言模型的训练过程想象成教一个学生写作文。在传统的训练方法中，当学生写出一个好句子时，系统会给这个句子很高的"重要性分数"，意思是要特别关注和强化这种写法。同样，当学生写出不好的句子时，系统也会给一个分数，但处理方式却截然不同。

研究团队通过大量实验发现，现有的GRPO方法在处理这两种情况时存在严重的不一致性。具体来说，对于写得好的句子，系统会给那些已经很流畅、很自然的部分分配更高的权重，而给那些还需要提升的部分分配较低的权重。这就好比老师在表扬学生时，总是夸奖那些本来就写得很好的词语，而对那些写得一般但有潜力提升的词语视而不见。

这种"偏心"的训练方式会导致模型出现一种叫做"熵崩塌"的现象。简单来说，就是模型变得过于保守和重复，失去了创造性和多样性。就像一个学生因为某种写法得到了老师的大力表扬，于是就反复使用同样的句式和词汇，最终写出来的文章变得单调乏味、缺乏变化。

研究团队通过详细的数据分析发现，这种权重分配的不平衡会在训练过程中逐渐放大。随着训练的进行，模型会越来越偏向于那些已经做得很好的部分，而忽视那些还有改进空间的部分。这种恶性循环最终导致模型的整体性能停滞不前，甚至出现退化。

更令人担忧的是，这种问题在数学推理和编程任务中表现得尤为明显。在这些需要逻辑严密性的任务中，模型往往需要在多个可能的解决方案之间做出选择。如果训练方法存在偏向性，模型就可能过早地锁定某种解题思路，而失去探索更优解的能力。

二、深入分析：重要性采样的"真面目"

为了彻底理解这个问题，研究团队对重要性采样这一核心机制进行了深入剖析。重要性采样本来是为了解决一个很实际的问题：在训练过程中，模型的策略在不断变化，如何确保用旧策略生成的数据仍然对新策略的学习有用呢？

传统观点认为，重要性采样就像一个"翻译器"，可以将旧策略下的经验转换为新策略可以理解的形式。但研究团队通过一系列巧妙的实验发现，在当前的语言模型训练场景中，重要性采样的作用已经发生了根本性的变化。

研究团队设计了一个对比实验：他们训练了两个版本的模型，一个使用标准的重要性采样权重，另一个将所有重要性采样权重都设置为1.0（相当于不使用重要性采样）。令人惊讶的是，两个模型的最终性能几乎没有差别，但不使用重要性采样的模型在训练过程中表现得更加稳定，没有出现明显的性能波动。

这个发现颠覆了人们对重要性采样的传统理解。原来，在语言模型的训练中，重要性采样的权重实际上更像是"训练权重"而不是"分布校正器"。也就是说，这些权重决定了每个词语在训练更新中的影响力大小，而不是简单地校正数据分布的差异。

进一步的分析显示，在处理正面样本（即模型表现较好的部分）时，传统方法会给那些概率已经很高的词语分配更大的权重，而给那些概率较低的词语分配较小的权重。这种分配方式与直觉相反：我们更希望给那些还有提升空间的部分更多关注，而不是继续强化已经表现很好的部分。

研究团队通过可视化分析清楚地展示了这种权重分配的问题。他们绘制了一个三维图表，显示了在不同概率条件下重要性采样权重的分布。结果表明，对于负面样本（模型表现不好的部分），权重分配是合理的：概率越高，权重越小，符合我们的期望。但对于正面样本，权重分配却完全相反：概率越高，权重反而越大，这就造成了训练的不平衡。

三、创新解决方案：非对称重要性采样策略

基于对问题的深入理解，研究团队提出了一个既简单又有效的解决方案：非对称重要性采样策略优化（ASPO）。这个方法的核心思想是对正面样本和负面样本采用不同的处理策略，就像一个智慧的老师会根据学生的不同情况采用不同的教学方法。

ASPO方法的实施分为三个关键步骤。第一步是保持传统的词语屏蔽机制，这就像老师会暂时忽略那些明显超出学生当前能力范围的内容，避免给学生造成过大的学习压力。第二步是权重翻转，这是ASPO的核心创新：对于表现良好的部分，系统会将原有的重要性权重进行翻转，使得那些概率较低（还有提升空间）的词语获得更高的权重，而那些概率已经很高的词语获得相对较低的权重。

第三步是双重剪切机制，这是为了防止权重翻转后可能出现的极端情况。就像老师在调整教学重点时也要把握适度原则，不能让任何一部分的训练变得过于激进或过于保守。这种双重剪切采用了"软剪切"的方式，只限制权重的数值大小，但保留梯度信息，确保学习过程的连续性。

从数学角度来看，ASPO方法的关键在于改变了梯度计算的方式。在传统方法中，梯度的大小与当前词语的概率成正比，这意味着高概率的词语会得到更大的更新幅度。而在ASPO中，梯度的大小与概率成反比，使得低概率的词语能够得到更多的关注和改进机会。

这种设计哲学体现了一种更加均衡的学习策略。传统方法就像一个会"嫌贫爱富"的老师，总是给优等生更多关注；而ASPO则像一个真正负责任的老师，会把更多精力投入到帮助那些还有提升潜力的学生身上。

四、实验验证：从理论到实践的完美转化

为了验证ASPO方法的有效性，研究团队进行了大规模的实验验证。他们选择了数学推理和编程任务作为主要测试场景，因为这些任务对模型的逻辑思维能力和精确性要求很高，能够很好地反映训练方法的优劣。

在数学推理方面，研究团队使用了多个具有挑战性的数据集，包括美国数学邀请赛（AIME）的2024年和2025年题目、美国数学竞赛（AMC）2023年题目、MATH-500数据集、Minerva数学题库以及奥林匹克数学竞赛题目。这些测试覆盖了从基础数学概念到高级数学推理的各个层面。

实验结果显示，使用ASPO训练的模型在所有测试中都表现出了显著的性能提升。以AIME 2024为例，ASPO模型的平均得分达到了49.0分，而传统DAPO方法只有42.1分，提升幅度超过16%。更重要的是，ASPO模型在pass@64指标上达到了80.0%，表明其解题的稳定性和可靠性都有明显改善。

在编程任务方面，研究团队使用了LiveCodeBench这一业界认可的编程能力评估平台。测试结果同样令人鼓舞：ASPO模型在LiveCodeBench v5上的平均得分为31.5分，比传统方法提高了约21%；在pass@8指标上达到了47.0%，显示出在代码生成准确性方面的显著优势。

更重要的是，研究团队还深入分析了训练过程中的动态变化。他们发现，使用ASPO方法训练的模型在整个训练过程中表现出更好的稳定性。具体表现为：熵值下降更加平缓，避免了传统方法中常见的急剧下降；重复率增长更加缓慢，保持了输出的多样性；剪切比率变化更加稳定，避免了训练后期的剧烈波动。

这些观察结果证实了ASPO方法不仅能够提升最终性能，还能够改善整个训练过程的质量。传统方法往往在训练后期出现性能退化，而ASPO方法能够保持持续稳定的改进，避免了过拟合和局部最优的问题。

五、技术细节：深入理解ASPO的工作机制

为了让读者更好地理解ASPO方法的技术细节，我们可以通过一个具体的例子来说明其工作原理。假设模型正在学习解决一个数学问题，传统方法和ASPO方法会如何处理同一个训练样本呢？

在传统的GRPO方法中，当模型遇到一个正确的解题步骤时，系统会计算每个词语的重要性权重。对于那些模型已经很擅长的词语（比如"因为"、"所以"这样的逻辑连接词），系统会给予较高的权重，意味着这些词语在这次训练中会得到更多的强化。相反，对于那些模型还不太熟练的词语（比如某个特定的数学概念），系统给予的权重较低，训练效果就相对有限。

而在ASPO方法中，这个过程被彻底改变了。对于同样的正确解题步骤，系统会将重要性权重进行翻转。那些模型已经很熟练的词语会得到较低的权重，避免过度强化；而那些模型还需要改进的词语会得到较高的权重，获得更多的学习机会。这种处理方式确保了训练资源的合理分配，让模型能够更均衡地提升各方面的能力。

从梯度更新的角度来看，ASPO方法的创新在于改变了梯度与概率之间的关系。在传统方法中，某个词语的概率越高，它在训练中获得的梯度更新就越大。这种机制在理论上是为了保持训练的稳定性，但在实践中却导致了"富者更富"的现象：好的部分变得更好，而需要改进的部分却得不到足够的关注。

ASPO通过引入翻转机制，使得梯度更新与概率成反比关系。这意味着那些概率较低、还有提升空间的词语会获得更大的梯度更新，从而得到更多的改进机会。这种设计哲学体现了一种更加公平和有效的学习策略。

为了防止翻转机制可能带来的不稳定性，ASPO还引入了软双重剪切机制。这个机制就像给学习过程加上了"安全阀"，确保任何词语的权重都不会变得过于极端。与传统的硬剪切不同，软剪切只限制权重的数值范围，但保留了完整的梯度信息，确保学习过程的连续性和有效性。

六、广泛影响：重新定义AI训练的标准

ASPO方法的提出不仅仅是一个技术改进，更代表了AI训练理念的重要转变。传统的训练方法往往追求快速收敛和高效率，但ASPO证明了"慢即是快"的道理：通过更加均衡和深思熟虑的训练策略，最终能够获得更好的性能和更稳定的表现。

这种理念转变对整个AI行业具有深远的影响。首先，它提醒研究者和开发者要重新审视现有的训练方法，不能简单地追求表面的性能指标，而要深入理解训练过程的内在机制。其次，ASPO方法的成功表明，即使是看似微小的技术改进，如果抓住了问题的本质，也能够产生显著的效果。

从实用性角度来看，ASPO方法具有很强的通用性和易实现性。研究团队已经基于流行的DAPO框架实现了ASPO，并且开源了相关代码和模型。这意味着其他研究者和开发者可以很容易地将ASPO集成到自己的项目中，而不需要重新构建整个训练框架。

ASPO方法的另一个重要贡献是为AI训练的理论研究提供了新的视角。它表明，重要性采样在现代AI训练中的作用可能与传统理论预期的不同，需要重新审视和理解。这种发现可能会推动相关理论的进一步发展，为未来的AI训练方法创新奠定基础。

此外，ASPO方法在数学推理和编程任务上的出色表现，也为这些特定领域的AI应用提供了重要参考。随着AI在教育、科研、软件开发等领域的应用越来越广泛，能够提供更准确、更可靠的推理能力变得至关重要。ASPO方法的成功为这些应用场景的进一步发展提供了技术支撑。

说到底，ASPO方法的核心价值在于它体现了一种更加人性化和智慧化的学习理念。就像一个好老师会根据每个学生的具体情况调整教学策略一样，ASPO让AI训练变得更加个性化和有针对性。这种理念不仅适用于当前的语言模型训练，也可能为未来的AI发展指明方向。

研究团队的工作提醒我们，AI的进步不仅来自于更大的模型和更多的数据，更来自于对学习本质的深入理解和巧妙设计。ASPO方法就是这种智慧的体现：通过深入分析问题的根源，提出简单而有效的解决方案，最终实现了显著的性能提升。这种研究范式值得更多AI研究者学习和借鉴。

Q&A

Q1：ASPO方法和传统的GRPO训练方法有什么根本区别？

A：ASPO的核心区别在于对正面样本的处理方式完全相反。传统GRPO方法会给模型已经掌握得很好的部分更高权重，而ASPO则将这些权重翻转，给那些还有提升空间的部分更多关注，就像老师把更多精力放在帮助学困生而不是继续表扬优等生。

Q2：为什么说重要性采样在现代AI训练中的作用发生了变化？

A：研究团队发现，在语言模型训练中，重要性采样的权重实际上更像是"训练权重"而不是"分布校正器"。通过对比实验，他们发现即使不使用重要性采样，模型性能也几乎没有差别，但训练过程更加稳定，这颠覆了传统理论的预期。

Q3：ASPO方法在哪些任务上表现最好？普通开发者能使用吗？

A：ASPO在数学推理和编程任务上表现出色，在AIME数学竞赛题目上提升超过16%，在编程任务上提升约21%。研究团队已经开源了相关代码和模型，普通开发者可以基于流行的DAPO框架轻松集成ASPO方法到自己的项目中。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.