Nebius团队推出智能化多目标强化学习新方法|实验|数学|有效性

分享至

这项由Nebius公司和The Humanoid公司联合完成的研究发表于2026年2月，论文编号为arXiv:2602.10231v1。该研究提出了一种名为"Blockwise Advantage Estimation"的全新方法，专门解决大型语言模型在复杂任务中的奖励分配问题。

想象一下，你正在教一个学生解数学题。这道题需要学生先写出解题步骤，然后给出答案，最后评估自己的信心程度。传统的教学方法就像是给整个过程一个总分，无法告诉学生哪个环节做得好，哪个环节需要改进。而这项研究就像是为每个环节分别打分的智慧老师，能够精确地指出学生在解题、答题、自我评估这三个不同阶段的表现。

当前的AI训练方法面临一个根本性问题：它们通常把一个复杂任务当作一个整体来评价和奖励。就好比一位老师给学生的整篇作文只打一个总分，而不分别评价开头、论证过程和结尾的质量。这种做法会导致AI无法准确理解哪个部分做得好，哪个部分需要改进，从而影响学习效果。

研究团队发现，许多AI任务实际上都具有天然的分段特征。比如在数学问题求解中，AI需要先生成解题过程，然后给出最终答案，最后报告对答案的信心程度。每个段落都有不同的目标：第一段追求准确性，第二段追求正确答案，第三段追求对不确定性的准确估计。如果用一个单一的奖励信号来指导所有段落，就会造成目标之间的相互干扰。

这就好比一位厨师在做一道需要多个步骤的菜品：切菜需要整齐，炒制需要火候适中，调味需要恰到好处。如果只根据最终菜品的味道来评判厨师在每个步骤的表现，厨师就无法知道问题出在哪个环节，也就难以针对性地改进技能。

**一、核心创新：分块优势估计方法**

研究团队提出的"分块优势估计"方法就像是给AI配备了一位细致入微的导师。这位导师不再简单粗暴地给整体表现打分，而是针对每个具体环节给出精准的反馈。

这种方法的工作原理可以用烹饪课堂来类比。传统方法就像是老师尝了最终菜品后，对学生说"这道菜不好吃，所有步骤都要改进"。而新方法则像是老师全程观察，分别评价"你的切菜技术很棒，火候掌握得当，但调料放得过多了"。这样，学生就知道要保持前两个优点，重点改进调味技巧。

在技术实现上，研究团队将AI生成的内容划分为不同的文本块，每个块对应一个特定的目标。然后，系统为每个文本块计算独立的优势分数，确保每个部分都能收到针对其特定功能的准确反馈。这种方法避免了传统单一奖励信号可能造成的目标冲突和错误归因问题。

更重要的是，这种方法与现有的群组相对策略优化技术完全兼容。群组相对策略优化是一种内存高效的AI训练方法，它通过比较同一组样本的表现来进行学习，而不需要额外的价值网络。新方法在保持这种高效性的同时，显著提升了学习的精确度。

**二、技术挑战：条件基线估计的巧妙解法**

在实施分块奖励时，研究团队遇到了一个重要的技术挑战。这个挑战就像是在接力赛中给每一棒选手打分：后面的选手接到的接力棒状态不同，直接比较他们的表现是不公平的。

具体来说，当AI生成一个多段落的回答时，后面段落的质量往往取决于前面段落的内容。比如，如果第一段的数学解题过程是错误的，那么第二段的信心评估就应该相应地调整期望值。简单地用所有样本的平均表现作为基准是不合适的，就好比用所有学生的平均成绩来评价每个学生，而忽视了他们面临的题目难度可能不同。

研究团队提出了一个叫做"结果条件基线"的巧妙解决方案。这个方法就像是把学生按照他们遇到的题目类型进行分组，然后在组内进行比较。比如，所有解对了前面步骤的学生归为一组，解错了的归为另一组，然后分别在组内评价他们后续步骤的表现。

这种分组策略的核心思想是：如果两个AI样本在前面阶段达到了相同的中间结果（比如都得到了正确答案），那么它们在后续阶段的表现就具有可比性。通过这种方式，系统可以更准确地估计每个阶段的期望表现，从而给出更精准的奖励信号。

实验表明，这种结果条件基线比简单的组均值基线更接近真实的蒙特卡罗估计，同时又避免了蒙特卡罗方法需要额外采样的计算开销。这就好比找到了一种既准确又高效的评分方法，不需要额外的考试就能给出公正的评价。

**三、数学自信度评估：实际应用的典型案例**

为了验证新方法的有效性，研究团队选择了数学问题求解中的自信度评估作为主要测试场景。这个场景特别适合展示分块方法的优势，因为它天然地包含了两个截然不同的目标：求解准确性和信心校准。

在这个应用中，AI需要完成三个连续的任务。首先，它要像学生解题一样，写出详细的推理过程并给出最终答案。接着，它需要分析自己解题过程的可靠性，识别可能的错误点。最后，它要给出一个0到1之间的数字，表示对答案正确性的信心程度。

传统的训练方法会把这三个环节的表现混合成一个单一的奖励信号。这就好比老师给学生的试卷只打一个总分，不区分解题过程分、答案分和自我评估分。这种做法的问题在于，如果学生答对了题目但信心评估不准确，或者信心评估很好但答案错误，系统都无法准确识别具体的改进方向。

而新方法则像是配备了专业分工的评判团队。解题过程由专注准确性的评委评分，信心评估由专注校准性的评委评分。每个评委都有自己的专业标准，不会被其他方面的表现干扰。这样，AI就能收到更精确的反馈信号，知道在哪个方面需要重点改进。

研究团队使用了多个不同规模的语言模型进行实验，包括Qwen2.5系列的3B、7B基础版和指令版模型。实验涵盖了多个数学数据集，从相对简单的小学数学问题到高难度的数学竞赛题目，全面测试了方法在不同复杂度下的表现。

**四、实验结果：显著提升的性能表现**

实验结果展现了新方法的显著优势。在数学问题求解的准确性方面，使用结果条件基线的模型表现与当前最先进的方法相当，有时甚至略有超越。更重要的是，在信心校准方面，新方法显示出了明显的改进。

校准质量可以用一个叫做"期望校准误差"的指标来衡量。这个指标就像是测量AI的"自知之明"程度。如果AI说自己有80%的把握答对某题，那么在所有它给出80%信心的题目中，应该确实有大约80%是正确的。期望校准误差越小，说明AI的自我评估越准确。

实验显示，在主要测试集上，新方法将期望校准误差从5.9%降低到3.0%，这是一个相当显著的改进。这意味着AI对自己能力的认知变得更加准确，既不会过度自信，也不会过度谦虚。

更令人鼓舞的是，这种改进在不同难度的测试中都保持了一致性。无论是面对简单的基础题目，还是困难的竞赛级问题，新方法训练的AI都表现出了更好的自我认知能力。这说明方法的改进是根本性的，不是针对特定类型问题的局部优化。

研究团队还测试了模型在测试时刻的扩展能力。这就像是让学生在考试时可以多做几遍同一道题，然后选择最有信心的答案。结果显示，使用新方法训练的AI在这种测试策略下表现更好，证明了其信心评估的实用价值。

**五、方法的普适性：双次尝试改进实验**

为了证明新方法不仅仅适用于信心评估，研究团队还设计了另一个实验场景：双次尝试改进。这个场景模拟的是学生做题时的自我纠错过程。

在这个设置中，AI首先尝试解决一个数学问题，给出初步的答案。然后，它需要反思自己的解答过程，识别可能的错误，并给出改进后的答案。这种情况在现实中很常见，就像是学生做完题后检查答案，发现问题后进行修正。

这个场景同样具有明显的分块特征：第一次尝试主要考验基础解题能力，第二次尝试则考验自我反思和错误纠正能力。两个阶段有不同的目标和评价标准，应该接受不同的训练信号。

实验结果表明，新方法在这个场景下同样表现出色。AI的第二次尝试相比第一次尝试有了明显改进，而且这种改进在不同的测试策略下都保持稳定。这证明了方法的通用性，它不是专门为某个特定任务设计的，而是一个可以广泛应用的通用框架。

**六、技术优势：与现有方法的深度比较**

与现有技术相比，新方法具有多个显著优势。首先是计算效率方面的优势。传统的精确方法需要额外的蒙特卡罗采样来估计中间状态的价值，这在处理长文本和复杂任务时会带来巨大的计算开销。新方法通过巧妙的分组策略，仅使用已有的样本就能得到准确的估计，避免了额外的计算负担。

其次是训练稳定性的改进。单一奖励信号容易导致训练过程中的目标冲突，就像是让一个人同时追求跑得快和跑得稳，往往会导致两个目标都无法很好实现。分块方法通过目标分离，让每个部分专注于自己的职责，避免了这种冲突。

第三是可扩展性优势。随着AI任务变得越来越复杂，涉及的步骤和目标也越来越多。传统的单一奖励设计会变得极其复杂，需要大量的人工调试来平衡不同目标的权重。而新方法提供了一个模块化的框架，可以自然地扩展到更多的目标和更复杂的任务。

研究团队还特别测试了方法在不同奖励函数下的表现。他们发现，即使使用不同的数学形式来定义信心评估的奖励（比如用交叉熵损失替代布莱尔评分），新方法依然表现出色。这说明方法的核心优势来自于架构设计，而不依赖于特定的奖励函数形式。

**七、实践意义：走向更智能的AI系统**

这项研究的意义远超出了技术层面的改进。它为构建更智能、更可靠的AI系统提供了重要思路。在现实应用中，我们往往需要AI不仅能给出答案，还能评估自己答案的可靠性。这种自我认知能力对于AI系统的安全性和实用性至关重要。

比如在医疗诊断辅助系统中，AI不仅要给出诊断建议，还要准确评估这个建议的可信度。如果AI对自己的局限性有准确认知，医生就能更好地判断何时相信AI的建议，何时需要进行额外检查。这种校准良好的不确定性评估可能比提高几个百分点的准确率更有价值。

在教育领域，这种技术可以帮助开发更好的智能辅导系统。AI导师不仅要能解题，还要能识别学生的困惑点，评估不同解释方法的有效性。分块训练方法可以让AI在解题、解释、评估这些不同任务上都达到专业水平。

从长远来看，这种方法为开发更复杂的AI代理系统铺平了道路。未来的AI系统需要处理包含数十甚至数百个步骤的复杂任务，每个步骤都可能有不同的目标和约束。分块优势估计提供了一个可扩展的框架，使得这种复杂系统的训练变得可行。

**八、局限性与未来发展方向**

尽管新方法表现出色，但研究团队也诚实地指出了其局限性。首先，方法的有效性依赖于任务的自然分段特征。如果一个任务无法清晰地划分为不同的功能块，那么方法的优势就会减弱。这就好比有些工作是高度整合的，很难拆分成独立的步骤进行评估。

其次，结果条件基线的效果取决于分组策略的合理性。如果选择的分组标准不能很好地反映任务的本质结构，可能会引入偏差。这需要对具体应用领域有深入理解，不是一个完全自动化的过程。

第三，当某个结果类别的样本数量很少时，基线估计的方差会增大，可能影响训练效果。这在处理罕见情况或边缘案例时尤其明显。

针对这些局限性，研究团队提出了多个潜在的改进方向。首先是开发更智能的自动分段方法，能够根据任务特征自动识别最优的分块策略。其次是设计更鲁棒的基线估计方法，在样本数量不足时能够借助全局信息进行平滑。

另一个有趣的方向是将这种思想扩展到多层次的分块结构。就像俄罗斯套娃一样，大的任务块可以进一步细分为更小的子块，形成层次化的目标体系。这可能为处理极其复杂的任务提供新的思路。

研究团队还计划在更多的应用领域测试方法的有效性，包括代码生成、对话系统、内容创作等。他们特别希望看到这种方法在长篇幅生成任务中的表现，因为这类任务通常包含更多的自然分段结构。

说到底，这项研究代表了AI训练方法论的一次重要进步。它从根本上改变了我们思考多目标学习的方式，从粗放的整体优化转向精细的分段优化。这种思维方式的转变可能会启发更多创新，推动AI系统向更智能、更可靠的方向发展。

归根结底，就像一位优秀的老师会针对学生的不同方面给予专门指导一样，这项研究让AI训练也变得更加精准和高效。随着AI系统承担越来越复杂的任务，这种精细化的训练方法将变得愈发重要。它不仅能够提升AI的性能，更重要的是增强了AI系统的可解释性和可信度，为AI技术的广泛应用奠定了更坚实的基础。

Q&A

Q1：什么是分块优势估计方法？

A：分块优势估计是一种新的AI训练方法，它将复杂任务分解为多个功能块，为每个块单独计算奖励信号。就像给学生的作文分别评价开头、正文和结尾一样，而不是只给一个总分。这样AI就能知道在哪个环节表现好，哪个环节需要改进。

Q2：结果条件基线解决了什么问题？

A：它解决了后续环节评价不公平的问题。比如两个AI都要评估答案信心，但一个的前面答案是对的，另一个是错的，直接比较不合理。结果条件基线会把答案正确的AI归为一组，答案错误的归为另一组，然后在组内比较信心评估的好坏。

Q3：这种方法比传统训练方法有什么优势？

A：主要有三个优势：计算效率更高，不需要额外采样；训练更稳定，避免了不同目标之间的冲突；扩展性更好，可以轻松适应更复杂的多步骤任务。实验显示，在数学问题的信心评估上，期望校准误差从5.9%降低到3.0%。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.