李飞飞团队新突破：让AI突破"探索瓶颈"，小模型也能超越GPT-4！|gpt-4

分享至

这项由浙江大学宋明理教授团队与李想汽车等机构合作完成的研究发表于2025年8月，论文标题为《打破探索瓶颈：面向通用大语言模型推理的基于评分准则的脚手架强化学习》。有兴趣深入了解的读者可以通过arXiv:2508.16949获取完整论文。

人工智能就像一个正在学习的孩子，它需要通过不断尝试和犯错来提高自己的能力。当孩子在学习解决复杂问题时，如果没有适当的指导和支持，往往会陷入困境，反复犯同样的错误。这正是当前大语言模型面临的核心问题——它们在学习过程中容易陷入"探索瓶颈"，就像一个孩子在迷宫中反复走进死胡同，无法找到新的出路。

研究团队发现了一个有趣的现象：目前最先进的AI训练方法，比如让ChatGPT和Claude变得更聪明的强化学习技术，存在一个根本性的矛盾。这就好比教练想要训练一名游泳运动员，但这名运动员只能在他已经会游的那部分泳池里练习，永远接触不到更深、更具挑战性的水域。AI模型也是如此，它们只能在自己原有能力范围内打转，很难真正突破到新的思维层次。

更糟糕的是，随着训练的进行，这些AI模型的"思维"会变得越来越狭窄，就像一个原本充满想象力的孩子，随着年龄增长反而变得思维僵化。这种现象被称为"策略熵坍塌"，简单来说就是AI的思路越来越单一，失去了探索新解决方案的能力。

为了解决这个问题，研究团队开发了一种名为"RuscaRL"的新方法。这个名字来源于"Rubric-Scaffolded Reinforcement Learning"，意思是"基于评分准则的脚手架强化学习"。我们可以把这种方法想象成给正在学习盖房子的工人提供脚手架支撑。脚手架不是房子的一部分，但它能帮助工人安全地到达更高的地方，完成原本无法独立完成的工作。

一、什么是"脚手架学习法"？

RuscaRL的核心思想就像教育心理学中的"脚手架教学"。回忆一下你小时候学骑自行车的经历：最开始，父母会在后面扶着你，给你信心和支撑；随着你技术的提高，他们会逐渐松手，让你独立骑行。这个过程中，父母的支撑就是"脚手架"——它在你需要的时候提供帮助，在你能够独立完成时逐渐退出。

传统的AI训练方法就像让孩子在没有任何指导的情况下自己摸索如何骑车，结果往往是反复摔倒，进步缓慢。而RuscaRL方法则为AI提供了智能的"脚手架"，这个脚手架有两个神奇的特性：首先，它能够根据AI的学习进度自动调整支撑力度；其次，它使用的是"检查清单"式的指导方法。

这里的"检查清单"就像医生给病人看病时使用的诊断清单一样。比如，当AI要回答一个医学问题时，检查清单可能包括："回答是否包含准确的医学信息？逻辑是否清晰？是否考虑了患者的具体情况？是否提到了可能的风险？"通过这样的清单，AI就能明确知道一个好答案应该包含哪些要素。

研究团队发现，这种方法特别适合处理那些没有标准答案的复杂问题。在数学题中，答案要么对要么错，很容易判断；但在医疗咨询、创意写作或法律分析等领域，问题的答案往往是多维度的，需要综合考虑多个因素。传统的强化学习方法在这类问题上往往表现不佳，因为它们无法提供足够详细和准确的反馈信号。

二、双重魔力：探索与利用的完美平衡

RuscaRL的巧妙之处在于它同时解决了AI学习中的两个关键问题：如何更好地探索新可能性，以及如何更准确地评估学习效果。这就像一个探险家既需要指南针指示方向，也需要地图来评估已经走过的路径。

在探索阶段，RuscaRL使用了一种叫"组内脚手架差异化"的策略。想象一个班级里有8个学生在解同一道题，传统方法会给每个学生完全相同的提示，结果大家的答案都很相似。而RuscaRL的做法更像一位经验丰富的老师：给第一个学生提供详细的解题步骤，给第二个学生提供中等程度的提示，给第三个学生只给出关键思路，让最后一个学生完全独立思考。这样一来，同一个班级就能产生多样化的解题思路，增加了找到最佳解决方案的可能性。

更令人惊叹的是"组间脚手架衰减"机制。就像学骑自行车时父母逐渐松手一样，RuscaRL会在训练过程中逐渐减少对AI的指导。这个减少过程遵循一个精心设计的数学函数，确保在AI最需要帮助的早期阶段提供充分支持，在AI能力逐渐增强后逐步撤回辅助，最终让AI具备独立思考的能力。

在评估阶段，RuscaRL采用了"多维度评分"的方法。传统的评估方式就像用一个简单的"好"或"坏"来评价一道菜，而RuscaRL的评估更像专业的美食评论，会分别评价菜品的色香味、营养搭配、创意程度等多个维度。对于一个医学问答，它会分别评估回答的准确性、完整性、实用性、安全性等多个方面，然后综合这些评分得出最终的质量判断。

三、令人震撼的实验结果

研究团队在多个数据集上测试了RuscaRL的效果，结果令人震撼。在HealthBench-500这个专门用来测试AI医疗咨询能力的数据集上，使用RuscaRL方法训练的Qwen-2.5-7B模型的得分从23.6分跃升到50.3分，这个提升幅度相当于让一个中等学生的成绩提升到优等生水平。更令人惊叹的是，这个相对较小的模型竟然超越了GPT-4.1的表现。

当研究团队将RuscaRL应用到更大的模型Qwen3-30B上时，结果更加惊人：该模型在HealthBench-500上的得分达到了61.1，甚至超过了OpenAI最新发布的o3模型。这就像让一个天赋不错的学生通过科学的训练方法，最终超越了原本更有天赋的竞争对手。

为了验证方法的通用性，研究团队还在数学推理领域进行了测试。虽然在STEM领域的提升相对较小（因为数学问题通常有明确的对错标准，传统强化学习方法已经比较有效），但RuscaRL仍然在MATH-500、AIME等多个数学竞赛数据集上取得了稳定的性能提升。

特别值得注意的是，RuscaRL在不同规模和不同系列的模型上都展现出了一致的改进效果。从3B参数的小模型到32B参数的大模型，从Qwen系列到Llama系列，所有测试的模型都在应用RuscaRL后获得了显著的性能提升。这种普适性表明，RuscaRL发现的是AI学习的基本规律，而不仅仅是针对特定模型的技巧。

四、"最佳选择"测试：能力上限的突破

研究团队还进行了一项名为"Best-of-N"的特殊测试，这项测试就像让AI参加一场特殊的考试：每道题可以答N次，然后选择其中最好的答案作为最终成绩。这种测试能够反映AI的"能力上限"——在有充足时间和机会的情况下，AI最好能表现到什么程度。

结果显示，使用RuscaRL训练的模型不仅在单次回答的质量上有显著提升，在"能力上限"方面也有大幅改善。当N=1（只能回答一次）时，RuscaRL模型就已经展现出明显优势；当N增加到2048时，RuscaRL模型的最高分数比原始模型和传统强化学习方法都要高出一大截。这表明RuscaRL不仅提高了AI的平均水平，更重要的是扩展了AI能够达到的思维边界。

更令人印象深刻的是，RuscaRL模型的"学习效率"也更高。在相同的尝试次数下，它能更快地找到高质量的答案。这就像一个经过科学训练的学生，不仅最终成绩更好，而且解题速度也更快，体现出真正的能力提升而非单纯的"题海战术"。

五、深入机制：为什么RuscaRL如此有效？

为了理解RuscaRL为什么如此有效，研究团队进行了详细的机制分析。他们发现，传统强化学习方法存在一个根本性问题：随着训练进行，AI的思维模式会变得越来越固化，就像水流总是选择阻力最小的路径，AI也会倾向于使用它已经熟悉的解题思路，而不去探索新的可能性。

通过分析训练过程中的"策略熵"变化，研究团队发现了一个有趣的现象。在传统方法下，AI的思维多样性（策略熵）会单调下降，就像一个原本思路活跃的人逐渐变得思维僵化。而RuscaRL展现出了一个理想的学习曲线：在训练初期，AI的思维多样性实际上是增加的，这意味着它在积极探索各种可能的解决方案；随着训练进行，多样性开始下降，但这种下降是健康的，表明AI正在收敛到高质量的解决方案上。

研究团队还分析了AI生成回答的"新颖性"。他们计算了训练后的模型生成的回答与原始模型回答的差异程度，发现RuscaRL能够让AI生成那些原本被认为"几乎不可能"的高质量回答。具体来说，RuscaRL训练的模型能够生成321个"重要性比值大于2"的回答（即比原始模型困难2倍以上的回答），其中甚至有7个回答的重要性比值超过100，这意味着这些回答对原始模型来说几乎是不可能生成的。

六、技术创新的核心：智能脚手架设计

RuscaRL的技术创新主要体现在两个方面的巧妙设计。首先是"组内差异化脚手架"机制。在传统的强化学习中，每次训练都会生成多个候选答案，但这些答案往往趋同，缺乏多样性。RuscaRL通过给不同的候选答案提供不同程度的指导来解决这个问题。

具体来说，如果一次训练要生成8个候选答案，RuscaRL会给第一个答案提供100%的脚手架支持（包含所有评分准则的指导），给第二个答案提供约86%的支持，给第三个答案提供约71%的支持，以此类推，直到第八个答案只提供14%的支持。这种梯度化的支持策略确保了候选答案的多样性，同时也让AI能够学习到从"有指导"到"独立思考"的完整过渡过程。

其次是"组间衰减脚手架"机制。这个机制使用了一个精心设计的数学函数来控制脚手架的衰减过程。研究团队选择了sigmoid函数（S型曲线），这种函数的特点是开始时变化缓慢，中期变化迅速，后期又趋于平缓。这完美符合学习的自然规律：初学时需要持续的支持，掌握基础后需要快速适应独立操作，最后在精通阶段需要稳定的自主能力。

七、实际应用：从理论到实践的桥梁

RuscaRL的实际应用潜力巨大，特别是在那些需要复杂判断和多维度思考的领域。在医疗咨询场景中，AI需要综合考虑患者症状、医学知识、用药安全、心理安慰等多个方面。传统的训练方法往往让AI只关注其中一两个方面，而RuscaRL通过评分准则的指导，能让AI学会全面考虑各种因素。

在法律咨询领域，一个好的法律建议需要准确引用法条、分析案例相似性、考虑实际操作的可行性、评估风险等级等。RuscaRL可以将这些要求转化为具体的评分准则，帮助AI学会像经验丰富的律师一样进行全面分析。

在创意写作方面，优秀的文章需要在内容准确性、语言流畅性、逻辑连贯性、创意独特性等多个维度都有良好表现。RuscaRL可以帮助AI学会平衡这些往往相互冲突的要求，创作出更高质量的内容。

八、深度分析：训练动态的奥秘

研究团队对训练过程进行了深入的动态分析，揭示了RuscaRL成功的深层原因。他们发现，在没有脚手架衰减机制的情况下，AI模型虽然能够获得更高的多样性，但这种多样性是不稳定的，可能导致训练崩溃。这就像学骑自行车时如果父母突然完全松手，孩子可能会因为缺乏准备而摔倒。

通过对比RuscaRL、不带衰减的RuscaRL以及传统强化学习方法的训练曲线，研究团队发现了一个有趣的现象：RuscaRL在训练前期会经历一个"策略熵上升"的阶段，这个阶段AI正在积极探索各种可能性；随后进入"策略熵下降"阶段，这时AI开始收敛到高质量的解决方案。这种"先发散后收敛"的模式正是高效学习的标志。

更重要的是，研究团队通过"重要性比值"分析发现，RuscaRL能够让AI生成那些原本认为"不可能"的高质量回答。这些回答的平均重要性比值达到了5424.6，远远超过传统方法的1.7。这个数字的含义是，RuscaRL训练的AI能够生成那些对原始模型来说概率极低的答案，但这些答案恰恰是质量最高的。

九、多样性分析：思维的广度与深度

除了性能提升，研究团队还详细分析了RuscaRL对AI思维多样性的影响。他们使用了两个指标来衡量多样性：表面多样性（通过Self-BLEU评分衡量，关注词汇和句法的差异）和语义多样性（通过语义距离衡量，关注意思和概念的差异）。

结果显示，RuscaRL在训练早期会快速提升AI的思维多样性，然后在训练后期保持相对稳定的高多样性水平。相比之下，传统强化学习方法的多样性下降更快，特别是在语义层面上的多样性崩塌更为明显。这说明RuscaRL不仅能让AI生成更好的答案，还能让AI的思维方式更加丰富和灵活。

这种多样性的保持对实际应用具有重要意义。在医疗咨询中，同一个症状可能有多种可能的诊断和治疗方案，AI需要能够考虑到这些不同的可能性。在创意写作中，同一个主题可以从多个角度进行阐述，AI的多样性思维能够产生更丰富的内容。

十、局限性与未来展望

尽管RuscaRL取得了显著成果，但研究团队也诚实地指出了方法的局限性。首先是对高质量评分准则的依赖。RuscaRL的效果很大程度上取决于评分准则的质量，如果准则设计得不好，可能会误导AI的学习方向。这就像给学生一份质量不高的学习指南，可能会让学生走向错误的方向。

其次是计算成本的问题。由于需要对每个评分准则都进行单独的评估，RuscaRL的训练成本比传统方法要高。这就像聘请多位专家分别评判一份作业的不同方面，虽然评估更全面，但成本也更高。

最后是评分准则数据的稀缺性。目前，像HealthBench这样高质量的带有详细评分准则的数据集还很少，这限制了RuscaRL在更多领域的应用。研究团队呼吁学术界投入更多精力构建这样的数据集，以促进整个领域的发展。

展望未来，研究团队提出了几个有希望的研究方向。首先是开发更高效的评分准则生成方法，让AI能够自动为不同类型的任务生成合适的评分准则。其次是探索基于自然语言反馈的方法，让AI不仅能从分数中学习，还能从详细的文字反馈中获得指导。最后是将RuscaRL扩展到多模态任务中，让它不仅能处理文本，还能处理图像、音频等多种形式的信息。

说到底，RuscaRL为我们展示了一个令人兴奋的可能性：通过巧妙的训练方法设计，我们可以让相对较小的AI模型达到甚至超越大型模型的性能。这不仅在技术上具有重要意义，在经济和环境角度也很有价值——更高效的模型意味着更低的计算成本和更少的能源消耗。更重要的是，RuscaRL的成功证明了教育学原理在AI训练中的重要作用，为未来的AI训练方法提供了新的思路和方向。随着这种方法的进一步完善和推广，我们有理由相信AI在复杂推理任务上的表现会有更大的突破，最终更好地服务于人类社会的各个领域。

Q&A

Q1：RuscaRL是什么？它为什么能让小模型超越大模型？

A：RuscaRL是一种新的AI训练方法，全称"基于评分准则的脚手架强化学习"。它的核心思想就像教孩子学习时提供脚手架支撑一样，通过检查清单式的指导帮助AI学会更好的思考方式。它之所以能让小模型超越大模型，是因为解决了传统训练方法的"探索瓶颈"问题，让AI能够跳出原有的思维局限，学会生成那些原本认为"不可能"的高质量答案。

Q2：RuscaRL的脚手架机制是如何工作的？

A：RuscaRL的脚手架机制有两个关键特性：组内差异化和组间衰减。组内差异化就像一位老师给8个学生布置同样题目时，给每个学生提供不同程度的提示，确保答案的多样性。组间衰减则像父母教孩子骑自行车时逐渐松手，在训练初期提供充分指导，随着AI能力增强逐步减少辅助，最终让AI具备独立思考能力。

Q3：RuscaRL适用于哪些领域？普通人什么时候能用上？

A：RuscaRL特别适合那些没有标准答案的复杂问题，比如医疗咨询、法律分析、创意写作等领域。在医疗咨询方面已经显示出超越GPT-4的效果。不过目前还处于研究阶段，普通用户要想直接使用还需要等待。但随着技术的成熟，未来我们很可能会在各种AI应用中享受到这种方法带来的更智能、更准确的服务体验。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.