当你看着孩子做数学题时,可能会发现一个有趣的现象:有的孩子虽然最后算对了答案,但解题过程绕了好多弯路;而有的孩子不仅答案正确,思考过程也清晰高效。这种"会做"和"做得好"之间的差异,其实也困扰着今天的人工智能大模型。
![]()
目前训练AI解决复杂问题时,研究人员主要关注的是"答案对不对",却很少直接指导AI"该怎么想"。这就好比只看学生的考试成绩,却不关心他们的解题思路是否合理。这种训练方式看似省事,实际上会让AI养成一些投机取巧的坏习惯,遇到稍微变化的问题就可能卡壳。
要改变这种状况,最直接的办法是请专家来评判AI的思考过程,给每一步推理打分。但这样做成本太高了,就像给每个学生都配一个一对一的家教老师。而且AI在训练过程中会不断进步,它的思考方式也会变化,昨天制定的评分标准今天可能就不适用了。
研究团队想到一个巧妙的解决方案:能不能让AI自己给自己当老师?具体来说,让AI在解题的同时,也学会制定评判标准,然后用这些自己提出的标准来检查自己的思考过程。更进一步,随着训练的进行,这些评判标准还能不断进化,变得越来越精准。这就是RLCER框架的核心思想,全称是"通过自我进化评分标准进行链式思考强化学习"。
![]()
这个方法的创新之处在于,它让同一个AI模型扮演两个角色。第一个角色是"答题者",负责解决实际问题;第二个角色是"评分员",负责提出评判思考质量的标准,这些标准在论文中被称为"rubrics",可以理解为评分细则。两个角色虽然共用同一套"大脑"(模型参数),但通过不同的提示词来区分身份。
评分员提出的标准不是随便写写就算数的。研究团队设计了一个巧妙的验证机制:对于同一道题目,让答题者尝试多次解答,然后观察哪些评分标准的满足程度与最终答案的正确性高度相关。如果一条标准满足时答案总是对的,不满足时答案总是错的,那这条标准就是有效的,可以用来指导训练。反之,如果一条标准跟答案正确与否没什么关系,那它就会被筛掉。这就像是用数据说话,让标准的有效性自己证明自己。
为了让这套系统能够持续进化,研究团队还加入了"自我进化"机制。评分员不仅要提出标准,还会因为提出高质量标准而获得奖励。具体来说,如果它提出的标准中,有效标准占的比例越高,它获得的奖励就越多。这就迫使评分员不断琢磨:什么样的标准才真正能区分好的推理过程和差的推理过程?随着训练推进,这些标准会变得越来越犀利,也越来越难满足,这样就避免了标准变得过于简单而失去指导意义。
整个训练过程形成了一个良性循环。答题者努力满足评分员提出的标准,同时也要保证答案正确;评分员则努力提出既能反映答案正确性、又具有区分度的标准。两个角色互相促进,共同进步。研究团队在数学推理任务上的测试显示,采用这种方法训练的模型,不仅在AIME、AMC这些经典数学竞赛题目上表现更好,在通用推理任务如GPQA上也有明显提升。
更有趣的是,这些自动生成的评分标准本身就很有价值。研究人员发现,如果在推理时把这些标准作为提示告诉模型,模型的表现还能进一步提升。这就像是给学生一份评分细则,告诉他们解题时应该注意什么,学生自然就能做得更好。
这项研究的意义不仅在于提升了AI的推理能力,更重要的是它展示了一种新的训练范式:让AI系统具备自我监督、自我进化的能力,减少对人类标注的依赖。这为未来构建更加自主的智能系统指明了一个方向。
为什么AI需要学会"思考"而不只是"答题"
当前训练AI的主流方法叫做"可验证奖励强化学习",简称RLVR。这个方法的核心思路特别直接:给AI一道数学题,让它解答,然后检查最终答案对不对。答对了就给奖励,答错了就给惩罚。这种方法在实践中确实有效,因为数学题、编程题这类问题有明确的对错标准,不容易被AI钻空子。
在这种训练方式下,研究人员发现了一个有趣的现象:AI会自发地在给出答案前写下更长的思考过程,这种现象被称为"链式思考"。就像学生做应用题时会列出"已知条件"、"求解过程"一样,AI也学会了把复杂问题拆解成多个步骤来处理。这种思考过程的长度和质量往往决定了最终答案的准确率。
但问题在于,当前的训练方法只奖励最终答案,对思考过程本身不闻不问。这就导致一个尴尬的局面:对于同一道题,可能有无数种不同的解题思路都能得出正确答案,但这些思路在训练中获得的奖励是完全一样的。AI无法知道哪种思路更优雅、更稳健、更值得学习。
这种"欠约束"的训练信号会带来隐患。AI可能会学到一些表面上能得分、实际上很脆弱的解题策略。比如,它可能记住了某类题目的答案模式,而不是真正理解了解题原理。一旦题目稍作变化,这种投机策略就会失效。就像有些学生只会套公式而不理解公式背后的数学原理,考试题型一变就傻眼了。
要改善这个问题,最理想的做法是直接奖励思考过程的质量。但这面临两大挑战。第一个挑战是成本问题。评判思考过程需要专业知识,得请专家逐步标注哪些推理步骤是好的、哪些是有问题的。这种细粒度标注的工作量极大,很难大规模展开。就像让老师批改学生作业不仅要看答案,还要逐句点评解题过程,这显然不现实。
第二个挑战更加微妙,涉及到"分布偏移"问题。假设我们确实请专家标注了一批数据,训练出了一个评判思考过程的模型,姑且称之为"评分模型"。在训练初期,这个评分模型可能工作得很好。但随着训练推进,AI的思考方式会不断演变,它可能会探索出一些训练初期从来没见过的推理路径。这时候,用旧的评分模型来评判新的思考过程,就像用老黄历指导新问题,很可能会出现偏差。
更糟糕的是,AI还可能学会"愚弄"评分模型。它发现只要写出某些特定的表述,即使推理逻辑有问题,也能骗过评分模型拿到高分。这种现象被称为"奖励黑客",是强化学习中的老大难问题。就像学生发现老师总是偏爱某种答题格式,于是刻意模仿那种格式,却忽略了内容的实质。
面对这些挑战,研究团队提出了一个大胆的设想:能不能让AI自己制定评分标准,并且让这些标准随着训练不断进化?这样既不需要人工标注,也不用担心评分标准过时,因为标准是随着AI能力同步成长的。这个想法听起来有点像"自己给自己出题自己判卷",但研究团队找到了让这套机制运转起来的关键技巧。
他们从近年来自我进化训练方法中获得了灵感。这类方法的共同特点是让同一个AI模型在不同场景下扮演不同角色。比如,在某些研究中,AI既是出题者又是答题者,通过自我对弈来提升能力。在另一些研究中,AI既生成答案又评判答案质量。这些研究表明,只要设计得当,AI确实能够实现某种程度的"自我监督"。
![]()
RLCER框架正是建立在这个基础上。它让AI同时扮演两个角色:一个是答题者,负责解决实际问题;一个是评分员,负责提出评判思考质量的标准。这两个角色共享同一个模型,只是通过不同的提示词来激活不同的行为模式。这就像一个人既能站在考生的角度答题,又能站在阅卷老师的角度制定评分细则。
但光有这个设计还不够,关键在于如何确保评分员提出的标准是有意义的。如果评分员胡乱提出一些标准,或者提出的标准跟答案正确性毫无关系,那整个系统就会崩溃。研究团队设计了一个验证机制来解决这个问题,后面会详细展开。总之,通过精巧的设计,RLCER实现了一个自洽的训练循环:答题者努力提升思考质量,评分员努力提出更好的评判标准,两者相互促进,螺旋上升。
让AI当自己的评分员:双角色设计的精妙之处
RLCER框架的核心在于让同一个AI模型扮演两个截然不同的角色,这听起来有点匪夷所思,但在技术实现上却出奇地优雅。关键在于利用了大语言模型的一个特性:它们的行为高度依赖于提示词,给不同的提示就能激发出不同的能力。就像一个多才多艺的演员,穿上警察制服就演警察,换上医生白大褂就演医生,同样的人,不同的场景。
![]()
第一个角色叫做"答题者",它的任务很明确:给定一道题目,生成详细的思考过程和最终答案。这个角色就是传统意义上的AI推理系统,它接收问题,输出包含链式思考的完整回答。研究团队给答题者设计的提示词非常简洁,大意是"请一步步推理,并把最终答案放在特定标记里"。在这个角色下,模型会展现它解决问题的全部能力。
第二个角色叫做"评分员",它的任务要复杂得多。评分员接收两个输入:一道题目和答题者给出的思考过程。然后,它需要生成一套评分标准,专门用来评判这个思考过程的质量。这些标准不是笼统的描述,而是非常具体的可检查项。比如,评分员可能会提出这样的标准:"是否避免了在验证区间后进行无关的探索"、"是否在出现错误时及时回溯修正"等等。
每条标准都包含三个要素。第一是标准描述,用自然语言清晰表述这条标准具体要求什么。第二是重要性评分,用一个数值表示这条标准有多重要。这个数值可以是正的也可以是负的。正值表示满足这条标准是好事,应该奖励;负值表示违反这条标准是坏事,应该惩罚。第三个隐含的要素是可验证性,也就是说,这条标准必须能被明确地判断为"满足"或"不满足",不能模棱两可。
研究团队给评分员设计的提示词就复杂多了,长达数百字。这个提示词首先强调评分员的专家身份,告诉它"你是教育评估和评分标准设计的专家"。然后详细说明任务要求:基于给定的题目和答案,生成一套全面的评分标准。提示词还列出了五大评分维度:问题分解与规划的有效性、回溯与自我验证的有效性、推理清晰度与流畅性、推理专注度与效率、以及其他针对具体问题的方面。
这里有个微妙但重要的设计细节。提示词明确告诉评分员,它看到的答案只是一个参考答案,不一定是完美的答案,所以评分标准既要考虑答案中已经体现的优点,更要关注还有哪些改进空间。这样设计的目的是防止评分员提出的标准过于宽松。如果标准都是基于现有答案制定的,那答题者轻易就能满足所有标准,评分就失去了区分度。
提示词还要求评分员确保一个关键约束:参考答案的得分必须低于评分体系的平均分。换句话说,评分员必须设想出比现有答案更好的可能性,并把这些可能性纳入评分标准。这就逼迫评分员不断提高标准,不能满足于现状。就像考试如果满分100分,全班平均分90分,那出题就太简单了;只有平均分在六七十分的时候,试题才有合理的区分度。
评分员生成的标准会被输出成结构化的JSON格式,包含问题领域、具体的评分条目列表、最高可能得分、最低可能得分、以及参考答案的当前得分。这种结构化输出便于后续程序自动处理和验证。整个过程完全自动化,不需要人工介入。
但光有评分员提出标准还不够,还需要有人来执行评分。这就引入了第三个角色:验证器。验证器是一个独立训练的小模型,它的任务很单纯:给定一条评分标准和一个思考过程,判断这个思考过程是否满足这条标准,输出真或假。验证器的参数在训练过程中是冻结的,不会更新,这样可以保证评分的一致性。
验证器的训练数据来自一个更强大的教师模型。研究团队让教师模型对大量的题目-答案-标准组合进行评判,生成训练数据,然后用这些数据训练出一个小型的验证器模型。这个验证器就像一个公正的裁判,它不偏向任何一方,只是机械地执行标准检查。
有了答题者、评分员和验证器,整个系统的运作流程就清晰了。给定一道题目,答题者生成多个不同的答案尝试。评分员针对其中一个尝试生成评分标准。然后,验证器用这些标准去评判所有的答案尝试,看每个尝试在每条标准上是满足还是不满足。这样就得到了一个矩阵:每个答案尝试对应一行,每条标准对应一列,矩阵元素是真或假。
接下来的关键步骤是筛选有效标准。研究团队的做法是计算每条标准的满足度与最终答案正确性之间的相关性。具体来说,对于每条标准,收集所有答案尝试在这条标准上的满足情况,形成一个序列。同时,收集所有答案尝试的正确性,形成另一个序列。然后计算这两个序列之间的相关系数。
如果相关系数大于某个阈值,比如0.2,就说明这条标准是有效的。相关系数高意味着满足这条标准的答案往往是正确的,不满足的答案往往是错误的,这条标准确实抓住了好答案和坏答案之间的差异。相反,如果相关系数很低甚至是负的,说明这条标准跟答案质量没什么关系,或者方向搞反了,这样的标准就会被剔除。
除了相关性,还有一个判断标准是区分度。如果一条标准在所有答案尝试上的满足情况都一样,要么全满足要么全不满足,那这条标准就没有区分能力,也会被剔除。只有既相关又有区分度的标准,才会被保留下来作为有效标准。
通过这种机制,评分员提出的标准必须经过实战检验,不是随便说说就算的。那些看起来合理但实际上跟答案质量无关的标准会被自动过滤掉,只有真正有价值的标准才能存活下来。这就保证了评分体系的质量,为后续的奖励计算奠定了可靠基础。
自我进化的奥秘:让评分标准越来越精准
有了答题者和评分员的双角色设计,RLCER框架已经能够运转起来了。但如果就此打住,系统还会遇到一个问题:评分标准可能会"饱和"。什么意思呢?随着训练进行,答题者的能力越来越强,它可能会学会轻松满足评分员提出的所有标准。一旦所有标准都被满足了,这些标准就失去了区分度,无法再提供有意义的训练信号。就像一场考试,如果所有学生都考满分了,就看不出谁更优秀了。
为了解决这个问题,研究团队引入了"自我进化"机制。核心思想是不仅要奖励答题者满足标准,还要奖励评分员提出好标准。那什么算好标准呢?研究团队的定义很巧妙:有效标准占比越高,标准质量就越好。回顾一下,有效标准是指那些满足度与答案正确性高度相关、且具有区分度的标准。如果评分员提出了十条标准,其中八条都是有效的,那它就做得很好,应该获得高奖励。如果十条标准里只有两条有效,那就说明它提的标准大多是无用功,奖励就应该很低。
具体来说,评分员的奖励计算公式非常简单:有效标准数量除以总标准数量。这个比值在0到1之间,可以直接作为奖励信号。比如评分员提出了12条标准,其中9条被判定为有效标准,那它的奖励就是9除以12等于0.75分。这个奖励会反馈给模型,驱动它在未来提出更高质量的标准。
这个机制产生的效果是动态的、持续的。在训练初期,答题者的能力还比较弱,可能很多基础的标准它都无法满足。这时候评分员提出一些相对简单的标准,比如"推理过程是否有明确的步骤划分"、"是否给出了必要的中间计算结果"等,这些标准就足以产生良好的区分度,因此都是有效的。
但随着训练推进,答题者不断进步,这些基础标准逐渐变得容易满足。当所有答案尝试都满足某条标准时,这条标准的区分度就降为零了,不再被判定为有效标准。这时候评分员会发现,自己之前提的那些标准已经不管用了,有效标准占比下降,获得的奖励也变少了。这就迫使评分员必须想出更高级、更挑剔的标准。
于是评分员开始提出诸如"是否在发现矛盾后立即调整策略而非继续尝试"、"是否避免了对已验证正确的中间结果进行重复计算"这类更细致、更难满足的标准。这些新标准重新建立起区分度,又能有效指导答题者的优化方向。答题者为了满足这些更高的标准,又会进一步提升自己的推理能力。
这样就形成了一个螺旋上升的过程。答题者和评分员相互追赶,标准不断升级,能力不断提升。就像武侠小说里两个高手过招,你出一招我破一招,在不断交手中双方武艺都突飞猛进。不同的是,这里的两个角色其实是同一个模型的两个侧面,是一种内部的自我博弈。
研究团队在实验中观察到了这个进化过程的具体表现。他们统计了训练过程中标准满足度与答案正确性之间的平均相关系数,发现在采用自我进化机制的情况下,这个相关系数持续上升。这说明评分员提出的标准越来越精准,越来越能抓住问题的要害。相比之下,如果不采用自我进化机制,这个相关系数会保持不变甚至下降,说明标准质量没有改善。
更有意思的是,研究团队还统计了答题者获得的思考过程奖励值的变化趋势。在有自我进化的情况下,这个奖励值呈现先升后降的趋势。这怎么理解呢?开始时答题者能力弱,很难满足标准,奖励低。随着训练它逐渐进步,满足的标准越来越多,奖励上升。但当评分员开始提出更难的标准后,答题者又暂时跟不上了,奖励又会下降。这种波动说明标准和能力都在动态演进。
而在没有自我进化的情况下,思考过程奖励值会单调上升并趋于饱和。这说明答题者一直在满足那些固定不变的标准,直到所有标准都轻松满足,之后就没有进步空间了。这种饱和现象正是自我进化机制要避免的。
除了质量奖励,研究团队还给评分员设置了一个格式奖励。因为评分标准需要输出成特定的JSON格式才能被后续程序解析和使用,如果评分员输出的内容格式错误,比如括号不匹配、缺少必要字段等,就会导致程序报错。所以如果输出格式正确,评分员会得到额外的1分格式奖励;格式错误则得0分。这个简单的设计确保了评分员的输出总是可用的。
评分员的总奖励就是质量奖励加上格式奖励。这两个奖励会一起作用于模型的训练,既保证输出的可用性,又不断提升输出的质量。通过这种精巧的奖励设计,评分员在整个训练过程中都扮演着积极进化的角色,始终为答题者提供有价值的指导信号。
答题者的奖励构成:在结果和过程之间取得平衡
有了评分员和有效标准,接下来就是如何利用这些标准来奖励答题者了。RLCER的设计理念是既要关注结果,也要关注过程,两手都要抓,两手都要硬。这就需要精心设计答题者的奖励函数,让它同时受到答案正确性和思考过程质量的驱动。
答题者的奖励包含两部分。第一部分是结果奖励,这个很直接:答案对了就给正分,错了就给负分。具体来说,如果答题者给出的最终答案跟标准答案等价,就给1分;否则给负1分。这里的"等价"判断需要一定的技巧,因为数学答案可能有多种表达形式,比如1/2和0.5是等价的,需要用专门的判断函数来处理。这部分奖励确保了模型始终记得最终目标是答对题目。
第二部分是思考过程奖励,这是RLCER的创新所在。计算方式是这样的:对于评分员提出的所有有效标准,验证器会判断答题者的思考过程在每条标准上是满足还是不满足。如果满足,就把这条标准的重要性分值累加进来;如果不满足,这条标准就不贡献分值。最后把所有满足的有效标准的分值加总,再通过一个归一化函数映射到0到1的区间,就得到了思考过程奖励。
归一化函数的设计也有讲究。它使用的是最小-最大归一化方法,具体来说是用当前得分减去最小可能得分,再除以最大可能得分与最小可能得分的差。这里的最大最小分是根据有效标准的分值范围计算出来的。为什么要归一化呢?因为不同题目的标准数量和分值可能差异很大,直接加总的话不同题目之间没有可比性。归一化后,所有题目的思考过程奖励都在0到1的统一尺度上,便于模型学习。
这两部分奖励简单相加,就得到了答题者的总奖励。这个设计体现了一个平衡:结果奖励的数值范围是负1到正1,思考过程奖励的范围是0到1,两者量级相当,谁也不会被另一方淹没。这确保了模型既不会只顾答案不管过程,也不会过分追求过程的完美而忽视答案本身。
值得注意的是,思考过程奖励不是凭空产生的,它必须建立在有效标准的基础上。如果评分员提出的标准都不靠谱,全被筛掉了,那就没有有效标准,思考过程奖励自然也就是零,退化成纯粹的结果导向训练。这其实是一个安全机制,防止低质量的标准误导训练。
反过来说,当评分员提出了高质量的有效标准后,答题者就有了明确的过程优化方向。它会学着去满足那些跟答案正确性高度相关的标准,比如避免某些常见错误、采用更清晰的推理步骤等。这些过程上的改进即使一次两次没有直接导致答案正确,也会获得一定的奖励,从而被保留和强化。长期来看,这种过程优化会转化为答案正确率的提升。
研究团队做了一个有趣的消融实验来验证思考过程奖励的价值。他们尝试只用思考过程奖励训练模型,完全不给结果奖励,看看会发生什么。理论上,如果思考过程标准是靠谱的,只要思考得好,答案自然就对,应该也能训练出不错的模型。实验结果确实如此:在纯粹的思考过程奖励下,模型的准确率持续提升,虽然提升速度不如同时使用两种奖励,但明显优于随机奖励的对照组。
这个实验证明了一个重要结论:自我提出和自我进化的评分标准确实能够提供可靠的学习信号,即使在完全没有外部监督(答案正确性)的情况下也能驱动模型进步。这为未来在无法验证答案的领域应用类似方法提供了希望。比如创意写作、开放式问答等场景,没有标准答案可供对照,但如果模型能自己提出和进化评分标准,也许就能实现自我提升。
当然,在数学推理这类有明确对错的任务上,最佳策略还是把结果奖励和过程奖励结合起来。结果奖励提供了一个锚点,确保优化的大方向不偏;过程奖励则提供了细粒度的指导,帮助模型学会更稳健高效的推理模式。两者协同作用,产生的效果大于各自单独作用之和。
训练机制:如何让双角色协同优化
有了答题者和评分员的奖励设计,最后一步是把这些奖励信号转化为实际的模型参数更新。这里用到的是强化学习中经典的策略梯度方法,具体算法是PPO,全称是近端策略优化。PPO的特点是稳定性好、易于实现、对超参数不敏感,已经在各类强化学习任务中得到广泛应用。
关键的挑战在于如何在双角色框架下应用PPO。传统的强化学习通常只有一个智能体在一个环境中行动,而这里相当于同一个模型在两个不同的环境中扮演两个不同的角色,接收两种不同的奖励。如果处理不当,两个角色的学习目标可能会相互冲突,导致训练不稳定。
研究团队采用的解决方案是角色特定的优势估计。什么是优势呢?在强化学习中,优势函数衡量的是某个动作相比平均水平好多少。如果一个动作的优势为正,说明它比平均水平好,应该鼓励;优势为负则相反,应该抑制。标准的PPO算法就是基于优势函数来更新策略的。
在RLCER中,研究团队为答题者角色和评分员角色分别计算优势。对于答题者的每一次回答,根据它获得的总奖励(结果奖励加思考过程奖励)以及一个价值网络给出的基线,计算出这次回答的优势。对于评分员的每一次标准生成,根据它获得的总奖励(质量奖励加格式奖励)以及对应的价值基线,计算出这次生成的优势。
有了两组优势值,接下来就是用它们来更新共享的模型参数。具体的更新目标是两个角色的PPO目标之和。每个角色的PPO目标都是标准的形式:期望回报的替代函数,带有裁剪以防止更新幅度过大。两个目标相加,对应的梯度也会相加,然后一起作用于模型参数。
这种设计允许两个角色的学习信号同时影响同一套参数,实现了真正的协同优化。当答题者角色的梯度试图把模型往某个方向拉,评分员角色的梯度可能往另一个方向拉,最终的参数更新是两股力量的合力。这种"拉扯"并不是坏事,反而能产生一种制衡效果,避免模型过度优化某一个目标而忽视另一个。
具体的训练流程是这样的。对于每个训练批次,首先从训练集中抽取一批问题。对每个问题,让答题者生成多个不同的答案尝试,这里的尝试次数是一个超参数,研究中设为8。然后,对其中的一些尝试(或者全部尝试),让评分员生成评分标准。接着,用验证器评判每个答案尝试在每条标准上的满足情况,计算标准的相关性和区分度,筛选出有效标准。
有了有效标准,就可以分别计算每个答案尝试的思考过程奖励和结果奖励,从而得到答题者的总奖励。同时,根据有效标准的比例,计算评分员的质量奖励,加上格式奖励得到评分员的总奖励。所有这些奖励值会和对应的状态-动作对一起存储下来,形成经验缓冲区。
然后,从经验缓冲区中采样小批次数据,分别计算答题者和评分员的优势值。这里需要用到两个价值网络,一个估计答题者状态的价值,一个估计评分员状态的价值。价值网络通常是在模型之外额外训练的小型神经网络,它们的作用是提供基线来降低优势估计的方差。计算优势的标准方法是用实际获得的累积奖励减去价值网络的估计。
有了优势值,就可以构建PPO的目标函数并计算梯度。由于两个角色共享参数,梯度会在共享的参数上累加。然后用优化器(通常是Adam)根据梯度更新参数。这样一个小批次的更新就完成了。整个训练集会被遍历多轮,每轮都重复上述过程,直到训练步数达到预设上限。
研究团队在实验中把最大训练步数设为1500步,使用的批次大小是32个问题,每个问题采样8次答案,小批次大小是64。学习率对于答题者角色设为1e-6,对于评分员角色设为1e-5,略高一些是因为评分员的任务相对更难。PPO的裁剪参数设为0.2,这是一个经验上比较稳健的值。温度参数设为1.0,top-p设为1.0,意味着采用了相对随机的采样策略以增加探索性。
值得一提的是,研究团队选择了PPO而不是另一个流行的算法GRPO。GRPO的特点是在相同上下文下对比多个回答的好坏,但在RLCER框架中,评分员的输入是问题加答案,不同的答案对应不同的上下文,无法满足GRPO的假设。所以PPO是更合适的选择。
整个训练过程可以看作是答题者、评分员、验证器三方的舞蹈。答题者不断尝试更好的推理策略,评分员不断提出更精准的评判标准,验证器则公正地执行评判。三方的互动推动着整个系统螺旋式上升,最终达到一个新的能力水平。
实验验证:RLCER在数学推理上的惊人表现
理论设计再精妙,最终还要用实验数据说话。研究团队在多个数学推理数据集上测试了RLCER的效果,并与传统的RLVR方法进行了详细对比。实验结果非常令人鼓舞,不仅验证了RLCER的有效性,还揭示了一些有趣的现象。
实验使用的基础模型是Qwen3系列,包括8B和4B两个规格。这是一组开源的高质量语言模型,但研究团队没有直接拿预训练好的模型来用,而是先进行了冷启动训练。为什么要冷启动呢?因为即使是经过指令微调的Qwen3模型,在扮演评分员角色时也很难严格遵循复杂的提示词要求,输出格式经常出错。
冷启动的方法是收集高质量的示范数据。研究团队用一个更强大的教师模型(豆包Seed)生成了4万条训练数据,其中2万条是数学推理轨迹,另外2万条是评分标准生成轨迹。这些数据都是通过拒绝采样筛选出来的,也就是让模型生成很多候选,只保留格式正确、质量高的那些。用这4万条数据对基础模型进行全参数监督微调,就得到了能够胜任双角色的初始模型。
训练数据集是DAPO-Math-17k,包含17000道高质量数学题。测试则在多个基准上进行,包括三个数学竞赛数据集AIME24、AIME25和AMC23,以及两个通用推理数据集GPQA-Diamond和SuperGPQA。AIME是美国数学邀请赛,难度很高,顶尖高中生才能参加。AMC是美国数学竞赛,相对容易一些。GPQA和SuperGPQA则涵盖科学、工程、医学等多个领域的研究生水平问题。
评测方法是对每道题采样16次回答,取其中任意一次正确就算通过,这叫做pass@1准确率。这个指标反映的是模型在多次尝试下的最佳表现,对于推理任务来说比只采样一次更公平也更实用,因为实际应用中我们往往可以让模型多试几次然后选最好的答案。
实验结果显示,在8B规模的模型上,经过RLCER训练后,在AIME2024上的准确率达到37.5%,AIME2025上达到33.3%,AMC2023上达到86.4%,三个数学数据集的平均准确率为52.4%。相比之下,同样的模型经过传统RLVR训练,三个数据集的平均准确率为50.6%。虽然单看某一个数据集可能差异不大,但平均来看RLCER确实取得了明显优势。
在4B规模的模型上,趋势也是类似的,只是绝对性能都要低一些,这符合模型越大能力越强的一般规律。RLCER相比RLVR的提升在4B模型上相对较小,这可能说明RLCER的优势在更大模型上更能发挥出来。更大的模型有更强的理解和生成能力,因此能更好地扮演评分员角色,提出更有洞察力的标准。
更令人惊喜的是,虽然模型只在数学数据上训练,却在通用推理任务上也有不错的泛化性能。在GPQA-Diamond上,RLCER训练的8B模型达到48.8%的准确率,比RLVR的46.6%有所提升。在SuperGPQA的三个子集上也大多有改善。这说明RLCER学到的不只是解数学题的技巧,而是某种更通用的推理能力提升。
研究团队还详细分析了训练过程的动态变化。他们绘制了三个数学数据集平均准确率随训练步数的变化曲线。可以看到,RLCER的曲线整体高于RLVR,而且上升得更平稳,最终达到的性能上限也更高。RLVR的曲线在达到一定水平后就趋于平缓,而RLCER还能继续缓慢爬升。这说明RLCER避免了过早收敛,给模型提供了持续优化的空间。
为了验证自我进化机制的作用,研究团队做了一个对照实验,移除了评分员的质量奖励,只保留格式奖励。这相当于评分员不再被鼓励提出更好的标准,它提什么标准都行,只要格式对就给奖励。结果发现,这个削弱版的RLCER性能明显下降,虽然还是比纯RLVR好一点,但失去了完整RLCER的优势。
进一步分析评分标准的演化情况,发现了关键的差异。在有自我进化的RLCER中,评分标准与答案正确性的平均相关系数从训练初期的0.65左右逐渐上升到0.75以上。而在没有自我进化的版本中,这个相关系数基本保持不变。相关系数的提升意味着评分员提出的标准越来越准,越来越能抓住好答案和坏答案的本质区别。
同时,答题者获得的思考过程奖励在有自我进化时呈现先升后降的波动趋势,而在没有自我进化时单调上升并趋于饱和。前者说明标准在不断升级,答题者需要不断努力去满足新的更高要求。后者则说明标准固定不变,答题者很快就能轻松满足,之后就没有进一步提升的动力了。这个对比清楚地展示了自我进化机制的价值。
研究团队还做了一个有趣的实验:把评分员生成的标准直接放到提示词里,作为推理时的提示,看看对性能有没有帮助。理论上,如果这些标准真的抓住了好推理的要害,明确告诉模型要注意这些方面,应该能提升推理质量。实验结果证实了这个猜想:在AIME2024和AIME2025上,加入标准提示后准确率分别提升了约6个和4个百分点。这不仅验证了标准的有效性,也提供了一种实用的推理增强方法。
最后,研究团队还展示了几个具体的案例,说明评分员生成的标准是什么样的。比如对于一道关于四位数年份的组合数学题,评分员提出的标准包括"是否明确列出了数字集合范围、前导零约束和年份边界限制"、"避免冗余计数"、"是否对边缘情况进行了验证"等。这些标准都非常具体,直指这类问题的关键考点。
而且评分员能够敏锐地发现答题者的错误所在。在一个案例中,答题者在某个子情况的枚举上出了错,导致最终答案偏差。评分员生成的标准中明确指出"采用临时手工列举而非系统的排列公式,增加了错误风险",这正是问题所在。这说明评分员确实学会了识别常见错误模式,而不只是提一些空洞的原则。
所有这些实验证据共同指向一个结论:RLCER通过自我提出和自我进化的评分标准,成功地为强化学习引入了对思考过程的监督,从而提升了模型的推理能力。这种提升是全方位的,既体现在最终准确率上,也体现在推理过程的质量上,还表现为更好的泛化性和可持续优化性。
意义与展望:自我进化的推理系统
RLCER这项研究的意义远不止于在几个数学测试集上刷出了更高的分数。它代表了一种新的思路,一种让AI系统自我监督、自我进化的范式,这可能为未来的AI发展开辟新的方向。
首先,它挑战了"标注瓶颈"这个困扰机器学习多年的老问题。传统上,要训练一个高性能的AI系统,需要大量人工标注的数据。对于图像分类这类简单任务,标注还相对容易,就是给图片打个标签。但对于推理这类复杂任务,标注的难度呈指数级上升。你不仅要判断答案对错,还要评判推理过程的每一步是否合理,这需要专业知识和大量时间。RLCER展示了另一种可能:让模型自己学会评判,从而大幅降低对人工标注的依赖。
其次,它提供了一种应对"分布偏移"的策略。在强化学习中,智能体的行为会随着训练不断演化,导致早期收集的数据和评估标准逐渐失效。传统做法是定期收集新数据、重新训练评估模型,但这很麻烦而且成本高。RLCER的自我进化机制让评估标准和智能体能力同步演进,评估标准始终跟得上当前的行为分布,避免了过时的问题。
再者,它揭示了"多角色学习"的潜力。让同一个模型在不同提示词下扮演不同角色,听起来简单,但如何设计角色之间的交互,如何平衡不同角色的学习目标,如何防止角色冲突,这些都是需要精巧设计的。RLCER在这方面做了很好的探索,未来可以推广到更多场景。比如,可以让模型同时扮演问题提出者、问题解决者和答案评判者三个角色,形成一个完全自主的学习循环。
这项研究也指出了一些有待进一步探索的方向。研究团队在论文中坦诚指出了两个局限。一是引入评分员角色增加了计算开销,因为每个问题不仅要生成多个答案,还要生成评分标准,训练时间会更长。虽然最终性能的提升值得这个额外开销,但如果能找到更高效的实现方式就更好了。
二是目前的方法还主要局限在可验证的任务上,也就是那些有明确对错答案的任务,比如数学、编程。对于创意写作、开放式对话这类没有标准答案的任务,RLCER能否奏效还是未知数。虽然前面的实验显示即使去掉答案正确性的验证,只用自我提出的标准也能训练,但那毕竟是在数学任务上测试的。真正开放式的任务能不能用这个方法,需要进一步研究。
至顶AI实验室洞见
这个研究方向可以在几个维度上扩展。一是把评分标准从数学推理扩展到其他类型的任务。比如在代码生成任务中,评分标准可以包括代码的可读性、效率、健壮性等方面。在文本摘要任务中,标准可以包括信息覆盖度、语言流畅度、逻辑连贯性等。每个任务领域都可以设计一套针对性的标准框架。
二是从双角色扩展到多角色。除了答题者和评分员,还可以引入质疑者角色,专门找答案的漏洞;或者辅导者角色,提供解题提示。多个角色之间可以展开更丰富的交互,形成一个内部的多智能体系统。这方面的探索可能会产生意想不到的能力涌现。
三是把自我进化的思想应用到模型架构本身。目前的自我进化主要发生在评分标准层面,如果能让模型学会自我调整网络结构,自我优化计算路径,那就更接近真正的自我改进了。这是一个更雄心勃勃的目标,也是通向通用人工智能的可能路径之一。
RLCER打开了一扇窗,让我们看到AI系统可以在多大程度上实现自我监督和自我进化。从依赖外部标注到自我提出标准,从静态评估到动态进化,这些转变都在推动AI向更自主、更智能的方向发展。或许在不远的将来,我们会看到完全不需要人类监督,能够自己设定学习目标、自己评估学习效果、自己调整学习策略的AI系统。那将是一个激动人心的时刻。
论文地址:
https://arxiv.org/pdf/2602.10885v1
END本文来自至顶AI实验室,一个专注于探索生成式AI前沿技术及其应用的实验室。致力于推动生成式AI在各个领域的创新与突破,挖掘其潜在的应用场景,为企业和个人提供切实可行的解决方案。
Q&A
Q1:RLCER框架中的"rubrics"到底是什么?
A:Rubrics可以理解为评分细则或评判标准,是一些具体的可检查项,用来评估AI思考过程的质量。比如"推理步骤是否清晰"、"是否避免了重复计算"等。在RLCER中,这些标准不是人工预设的,而是由AI自己提出的,而且会随着训练不断进化升级。每条标准都包含描述、重要性分值和可验证性三个要素,验证器会判断某个思考过程是否满足这条标准。
Q2:RLCER如何确保AI自己提出的评分标准是靠谱的?
A:RLCER通过"相关性验证"来筛选有效标准。具体做法是对同一道题让AI尝试多次解答,然后观察某条标准的满足程度与最终答案正确性之间的相关性。如果相关系数高于阈值(比如0.2),说明这条标准确实能区分好答案和坏答案,就保留下来;否则就剔除。这样确保只有经过实战检验、真正有价值的标准才会被用来指导训练。
Q3:RLCER训练的模型比普通强化学习训练的模型强在哪里?
A:主要强在三个方面。第一是推理能力更强,在数学竞赛题等困难推理任务上准确率更高。第二是推理过程更规范,避免了一些投机取巧的解题策略,思路更清晰稳健。第三是持续优化能力更强,因为评分标准会不断进化,给模型提供源源不断的改进方向,避免过早收敛到次优解。实验显示RLCER训练的8B参数模型在三个数学数据集上平均准确率比传统方法高约2个百分点,在通用推理任务上也有明显提升。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.