网易首页 > 网易号 > 正文 申请入驻

李飞飞团队新突破:让AI突破"探索瓶颈",小模型也能超越GPT-4!

0
分享至


这项由浙江大学宋明理教授团队与李想汽车等机构合作完成的研究发表于2025年8月,论文标题为《打破探索瓶颈:面向通用大语言模型推理的基于评分准则的脚手架强化学习》。有兴趣深入了解的读者可以通过arXiv:2508.16949获取完整论文。

人工智能就像一个正在学习的孩子,它需要通过不断尝试和犯错来提高自己的能力。当孩子在学习解决复杂问题时,如果没有适当的指导和支持,往往会陷入困境,反复犯同样的错误。这正是当前大语言模型面临的核心问题——它们在学习过程中容易陷入"探索瓶颈",就像一个孩子在迷宫中反复走进死胡同,无法找到新的出路。

研究团队发现了一个有趣的现象:目前最先进的AI训练方法,比如让ChatGPT和Claude变得更聪明的强化学习技术,存在一个根本性的矛盾。这就好比教练想要训练一名游泳运动员,但这名运动员只能在他已经会游的那部分泳池里练习,永远接触不到更深、更具挑战性的水域。AI模型也是如此,它们只能在自己原有能力范围内打转,很难真正突破到新的思维层次。

更糟糕的是,随着训练的进行,这些AI模型的"思维"会变得越来越狭窄,就像一个原本充满想象力的孩子,随着年龄增长反而变得思维僵化。这种现象被称为"策略熵坍塌",简单来说就是AI的思路越来越单一,失去了探索新解决方案的能力。

为了解决这个问题,研究团队开发了一种名为"RuscaRL"的新方法。这个名字来源于"Rubric-Scaffolded Reinforcement Learning",意思是"基于评分准则的脚手架强化学习"。我们可以把这种方法想象成给正在学习盖房子的工人提供脚手架支撑。脚手架不是房子的一部分,但它能帮助工人安全地到达更高的地方,完成原本无法独立完成的工作。

一、什么是"脚手架学习法"?

RuscaRL的核心思想就像教育心理学中的"脚手架教学"。回忆一下你小时候学骑自行车的经历:最开始,父母会在后面扶着你,给你信心和支撑;随着你技术的提高,他们会逐渐松手,让你独立骑行。这个过程中,父母的支撑就是"脚手架"——它在你需要的时候提供帮助,在你能够独立完成时逐渐退出。

传统的AI训练方法就像让孩子在没有任何指导的情况下自己摸索如何骑车,结果往往是反复摔倒,进步缓慢。而RuscaRL方法则为AI提供了智能的"脚手架",这个脚手架有两个神奇的特性:首先,它能够根据AI的学习进度自动调整支撑力度;其次,它使用的是"检查清单"式的指导方法。

这里的"检查清单"就像医生给病人看病时使用的诊断清单一样。比如,当AI要回答一个医学问题时,检查清单可能包括:"回答是否包含准确的医学信息?逻辑是否清晰?是否考虑了患者的具体情况?是否提到了可能的风险?"通过这样的清单,AI就能明确知道一个好答案应该包含哪些要素。

研究团队发现,这种方法特别适合处理那些没有标准答案的复杂问题。在数学题中,答案要么对要么错,很容易判断;但在医疗咨询、创意写作或法律分析等领域,问题的答案往往是多维度的,需要综合考虑多个因素。传统的强化学习方法在这类问题上往往表现不佳,因为它们无法提供足够详细和准确的反馈信号。

二、双重魔力:探索与利用的完美平衡

RuscaRL的巧妙之处在于它同时解决了AI学习中的两个关键问题:如何更好地探索新可能性,以及如何更准确地评估学习效果。这就像一个探险家既需要指南针指示方向,也需要地图来评估已经走过的路径。

在探索阶段,RuscaRL使用了一种叫"组内脚手架差异化"的策略。想象一个班级里有8个学生在解同一道题,传统方法会给每个学生完全相同的提示,结果大家的答案都很相似。而RuscaRL的做法更像一位经验丰富的老师:给第一个学生提供详细的解题步骤,给第二个学生提供中等程度的提示,给第三个学生只给出关键思路,让最后一个学生完全独立思考。这样一来,同一个班级就能产生多样化的解题思路,增加了找到最佳解决方案的可能性。

更令人惊叹的是"组间脚手架衰减"机制。就像学骑自行车时父母逐渐松手一样,RuscaRL会在训练过程中逐渐减少对AI的指导。这个减少过程遵循一个精心设计的数学函数,确保在AI最需要帮助的早期阶段提供充分支持,在AI能力逐渐增强后逐步撤回辅助,最终让AI具备独立思考的能力。

在评估阶段,RuscaRL采用了"多维度评分"的方法。传统的评估方式就像用一个简单的"好"或"坏"来评价一道菜,而RuscaRL的评估更像专业的美食评论,会分别评价菜品的色香味、营养搭配、创意程度等多个维度。对于一个医学问答,它会分别评估回答的准确性、完整性、实用性、安全性等多个方面,然后综合这些评分得出最终的质量判断。

三、令人震撼的实验结果

研究团队在多个数据集上测试了RuscaRL的效果,结果令人震撼。在HealthBench-500这个专门用来测试AI医疗咨询能力的数据集上,使用RuscaRL方法训练的Qwen-2.5-7B模型的得分从23.6分跃升到50.3分,这个提升幅度相当于让一个中等学生的成绩提升到优等生水平。更令人惊叹的是,这个相对较小的模型竟然超越了GPT-4.1的表现。

当研究团队将RuscaRL应用到更大的模型Qwen3-30B上时,结果更加惊人:该模型在HealthBench-500上的得分达到了61.1,甚至超过了OpenAI最新发布的o3模型。这就像让一个天赋不错的学生通过科学的训练方法,最终超越了原本更有天赋的竞争对手。

为了验证方法的通用性,研究团队还在数学推理领域进行了测试。虽然在STEM领域的提升相对较小(因为数学问题通常有明确的对错标准,传统强化学习方法已经比较有效),但RuscaRL仍然在MATH-500、AIME等多个数学竞赛数据集上取得了稳定的性能提升。

特别值得注意的是,RuscaRL在不同规模和不同系列的模型上都展现出了一致的改进效果。从3B参数的小模型到32B参数的大模型,从Qwen系列到Llama系列,所有测试的模型都在应用RuscaRL后获得了显著的性能提升。这种普适性表明,RuscaRL发现的是AI学习的基本规律,而不仅仅是针对特定模型的技巧。

四、"最佳选择"测试:能力上限的突破

研究团队还进行了一项名为"Best-of-N"的特殊测试,这项测试就像让AI参加一场特殊的考试:每道题可以答N次,然后选择其中最好的答案作为最终成绩。这种测试能够反映AI的"能力上限"——在有充足时间和机会的情况下,AI最好能表现到什么程度。

结果显示,使用RuscaRL训练的模型不仅在单次回答的质量上有显著提升,在"能力上限"方面也有大幅改善。当N=1(只能回答一次)时,RuscaRL模型就已经展现出明显优势;当N增加到2048时,RuscaRL模型的最高分数比原始模型和传统强化学习方法都要高出一大截。这表明RuscaRL不仅提高了AI的平均水平,更重要的是扩展了AI能够达到的思维边界。

更令人印象深刻的是,RuscaRL模型的"学习效率"也更高。在相同的尝试次数下,它能更快地找到高质量的答案。这就像一个经过科学训练的学生,不仅最终成绩更好,而且解题速度也更快,体现出真正的能力提升而非单纯的"题海战术"。

五、深入机制:为什么RuscaRL如此有效?

为了理解RuscaRL为什么如此有效,研究团队进行了详细的机制分析。他们发现,传统强化学习方法存在一个根本性问题:随着训练进行,AI的思维模式会变得越来越固化,就像水流总是选择阻力最小的路径,AI也会倾向于使用它已经熟悉的解题思路,而不去探索新的可能性。

通过分析训练过程中的"策略熵"变化,研究团队发现了一个有趣的现象。在传统方法下,AI的思维多样性(策略熵)会单调下降,就像一个原本思路活跃的人逐渐变得思维僵化。而RuscaRL展现出了一个理想的学习曲线:在训练初期,AI的思维多样性实际上是增加的,这意味着它在积极探索各种可能的解决方案;随着训练进行,多样性开始下降,但这种下降是健康的,表明AI正在收敛到高质量的解决方案上。

研究团队还分析了AI生成回答的"新颖性"。他们计算了训练后的模型生成的回答与原始模型回答的差异程度,发现RuscaRL能够让AI生成那些原本被认为"几乎不可能"的高质量回答。具体来说,RuscaRL训练的模型能够生成321个"重要性比值大于2"的回答(即比原始模型困难2倍以上的回答),其中甚至有7个回答的重要性比值超过100,这意味着这些回答对原始模型来说几乎是不可能生成的。

六、技术创新的核心:智能脚手架设计

RuscaRL的技术创新主要体现在两个方面的巧妙设计。首先是"组内差异化脚手架"机制。在传统的强化学习中,每次训练都会生成多个候选答案,但这些答案往往趋同,缺乏多样性。RuscaRL通过给不同的候选答案提供不同程度的指导来解决这个问题。

具体来说,如果一次训练要生成8个候选答案,RuscaRL会给第一个答案提供100%的脚手架支持(包含所有评分准则的指导),给第二个答案提供约86%的支持,给第三个答案提供约71%的支持,以此类推,直到第八个答案只提供14%的支持。这种梯度化的支持策略确保了候选答案的多样性,同时也让AI能够学习到从"有指导"到"独立思考"的完整过渡过程。

其次是"组间衰减脚手架"机制。这个机制使用了一个精心设计的数学函数来控制脚手架的衰减过程。研究团队选择了sigmoid函数(S型曲线),这种函数的特点是开始时变化缓慢,中期变化迅速,后期又趋于平缓。这完美符合学习的自然规律:初学时需要持续的支持,掌握基础后需要快速适应独立操作,最后在精通阶段需要稳定的自主能力。

七、实际应用:从理论到实践的桥梁

RuscaRL的实际应用潜力巨大,特别是在那些需要复杂判断和多维度思考的领域。在医疗咨询场景中,AI需要综合考虑患者症状、医学知识、用药安全、心理安慰等多个方面。传统的训练方法往往让AI只关注其中一两个方面,而RuscaRL通过评分准则的指导,能让AI学会全面考虑各种因素。

在法律咨询领域,一个好的法律建议需要准确引用法条、分析案例相似性、考虑实际操作的可行性、评估风险等级等。RuscaRL可以将这些要求转化为具体的评分准则,帮助AI学会像经验丰富的律师一样进行全面分析。

在创意写作方面,优秀的文章需要在内容准确性、语言流畅性、逻辑连贯性、创意独特性等多个维度都有良好表现。RuscaRL可以帮助AI学会平衡这些往往相互冲突的要求,创作出更高质量的内容。

八、深度分析:训练动态的奥秘

研究团队对训练过程进行了深入的动态分析,揭示了RuscaRL成功的深层原因。他们发现,在没有脚手架衰减机制的情况下,AI模型虽然能够获得更高的多样性,但这种多样性是不稳定的,可能导致训练崩溃。这就像学骑自行车时如果父母突然完全松手,孩子可能会因为缺乏准备而摔倒。

通过对比RuscaRL、不带衰减的RuscaRL以及传统强化学习方法的训练曲线,研究团队发现了一个有趣的现象:RuscaRL在训练前期会经历一个"策略熵上升"的阶段,这个阶段AI正在积极探索各种可能性;随后进入"策略熵下降"阶段,这时AI开始收敛到高质量的解决方案。这种"先发散后收敛"的模式正是高效学习的标志。

更重要的是,研究团队通过"重要性比值"分析发现,RuscaRL能够让AI生成那些原本认为"不可能"的高质量回答。这些回答的平均重要性比值达到了5424.6,远远超过传统方法的1.7。这个数字的含义是,RuscaRL训练的AI能够生成那些对原始模型来说概率极低的答案,但这些答案恰恰是质量最高的。

九、多样性分析:思维的广度与深度

除了性能提升,研究团队还详细分析了RuscaRL对AI思维多样性的影响。他们使用了两个指标来衡量多样性:表面多样性(通过Self-BLEU评分衡量,关注词汇和句法的差异)和语义多样性(通过语义距离衡量,关注意思和概念的差异)。

结果显示,RuscaRL在训练早期会快速提升AI的思维多样性,然后在训练后期保持相对稳定的高多样性水平。相比之下,传统强化学习方法的多样性下降更快,特别是在语义层面上的多样性崩塌更为明显。这说明RuscaRL不仅能让AI生成更好的答案,还能让AI的思维方式更加丰富和灵活。

这种多样性的保持对实际应用具有重要意义。在医疗咨询中,同一个症状可能有多种可能的诊断和治疗方案,AI需要能够考虑到这些不同的可能性。在创意写作中,同一个主题可以从多个角度进行阐述,AI的多样性思维能够产生更丰富的内容。

十、局限性与未来展望

尽管RuscaRL取得了显著成果,但研究团队也诚实地指出了方法的局限性。首先是对高质量评分准则的依赖。RuscaRL的效果很大程度上取决于评分准则的质量,如果准则设计得不好,可能会误导AI的学习方向。这就像给学生一份质量不高的学习指南,可能会让学生走向错误的方向。

其次是计算成本的问题。由于需要对每个评分准则都进行单独的评估,RuscaRL的训练成本比传统方法要高。这就像聘请多位专家分别评判一份作业的不同方面,虽然评估更全面,但成本也更高。

最后是评分准则数据的稀缺性。目前,像HealthBench这样高质量的带有详细评分准则的数据集还很少,这限制了RuscaRL在更多领域的应用。研究团队呼吁学术界投入更多精力构建这样的数据集,以促进整个领域的发展。

展望未来,研究团队提出了几个有希望的研究方向。首先是开发更高效的评分准则生成方法,让AI能够自动为不同类型的任务生成合适的评分准则。其次是探索基于自然语言反馈的方法,让AI不仅能从分数中学习,还能从详细的文字反馈中获得指导。最后是将RuscaRL扩展到多模态任务中,让它不仅能处理文本,还能处理图像、音频等多种形式的信息。

说到底,RuscaRL为我们展示了一个令人兴奋的可能性:通过巧妙的训练方法设计,我们可以让相对较小的AI模型达到甚至超越大型模型的性能。这不仅在技术上具有重要意义,在经济和环境角度也很有价值——更高效的模型意味着更低的计算成本和更少的能源消耗。更重要的是,RuscaRL的成功证明了教育学原理在AI训练中的重要作用,为未来的AI训练方法提供了新的思路和方向。随着这种方法的进一步完善和推广,我们有理由相信AI在复杂推理任务上的表现会有更大的突破,最终更好地服务于人类社会的各个领域。

Q&A

Q1:RuscaRL是什么?它为什么能让小模型超越大模型?

A:RuscaRL是一种新的AI训练方法,全称"基于评分准则的脚手架强化学习"。它的核心思想就像教孩子学习时提供脚手架支撑一样,通过检查清单式的指导帮助AI学会更好的思考方式。它之所以能让小模型超越大模型,是因为解决了传统训练方法的"探索瓶颈"问题,让AI能够跳出原有的思维局限,学会生成那些原本认为"不可能"的高质量答案。

Q2:RuscaRL的脚手架机制是如何工作的?

A:RuscaRL的脚手架机制有两个关键特性:组内差异化和组间衰减。组内差异化就像一位老师给8个学生布置同样题目时,给每个学生提供不同程度的提示,确保答案的多样性。组间衰减则像父母教孩子骑自行车时逐渐松手,在训练初期提供充分指导,随着AI能力增强逐步减少辅助,最终让AI具备独立思考能力。

Q3:RuscaRL适用于哪些领域?普通人什么时候能用上?

A:RuscaRL特别适合那些没有标准答案的复杂问题,比如医疗咨询、法律分析、创意写作等领域。在医疗咨询方面已经显示出超越GPT-4的效果。不过目前还处于研究阶段,普通用户要想直接使用还需要等待。但随着技术的成熟,未来我们很可能会在各种AI应用中享受到这种方法带来的更智能、更准确的服务体验。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
如果你足够尊重孩子天性,会发现:他们怕苦怕累怕学习、又馋又懒

如果你足够尊重孩子天性,会发现:他们怕苦怕累怕学习、又馋又懒

棉花糖妈妈
2026-01-30 17:48:02
忍了两天,中方开了金口:日本敢碰红线,总账就从甲午战争开始算

忍了两天,中方开了金口:日本敢碰红线,总账就从甲午战争开始算

趣味八卦
2025-11-20 04:26:57
白人女性与黑人女性的体味差异,网友真实分享引发热议

白人女性与黑人女性的体味差异,网友真实分享引发热议

特约前排观众
2025-12-22 00:20:06
王祖蓝举家搬离上海,重回香港生活,当老板签约超百位艺人

王祖蓝举家搬离上海,重回香港生活,当老板签约超百位艺人

娱小余
2026-01-30 21:59:10
《太平年》5大忠臣结局:水丘昭券惨死,冯道被郭荣弃用后被封王

《太平年》5大忠臣结局:水丘昭券惨死,冯道被郭荣弃用后被封王

掠影后有感
2026-02-01 10:02:04
38岁德约科维奇澳网失利后,暗示可能退役,青梅竹马妻子发文力挺

38岁德约科维奇澳网失利后,暗示可能退役,青梅竹马妻子发文力挺

译言
2026-02-02 08:17:08
我带着闺女去墓地看她妈,她指着照片说:爸,她不是天天在咱家吗

我带着闺女去墓地看她妈,她指着照片说:爸,她不是天天在咱家吗

兰姐说故事
2026-01-29 17:20:03
有一种痛苦叫买了“loft公寓房”!入住5年,有些话不吐不快

有一种痛苦叫买了“loft公寓房”!入住5年,有些话不吐不快

装修秀
2026-01-04 10:50:03
人生建议,不要轻易带父母去旅游!网友:只有疯了的人才带

人生建议,不要轻易带父母去旅游!网友:只有疯了的人才带

另子维爱读史
2026-01-23 20:28:44
中国男篮决战日本队,最新大名单曝光,徐杰还没戏,顶级锋线加入

中国男篮决战日本队,最新大名单曝光,徐杰还没戏,顶级锋线加入

宗介说体育
2026-02-02 10:17:09
陪玩陪睡、风流成性、挤走原配?再封影后的宋佳,到底什么是真的

陪玩陪睡、风流成性、挤走原配?再封影后的宋佳,到底什么是真的

巧手晓厨娘
2025-12-12 21:19:47
钱再多有什么用?79岁身家525亿的特朗普,给全部中老年人提了醒

钱再多有什么用?79岁身家525亿的特朗普,给全部中老年人提了醒

阿器谈史
2026-01-19 19:33:57
70岁老人医院下跪求女儿出钱救老伴,女儿一句话,获在场众人支持

70岁老人医院下跪求女儿出钱救老伴,女儿一句话,获在场众人支持

磊子讲史
2025-08-12 14:56:11
瓜帅:平局是挫折,会继续前进

瓜帅:平局是挫折,会继续前进

体坛周报
2026-02-02 12:22:11
一级军士长王忠心简历,他享受什么待遇?退休后婉拒百万年薪

一级军士长王忠心简历,他享受什么待遇?退休后婉拒百万年薪

混沌录
2026-01-27 22:33:05
全村移民加拿大,70多年没回来,广东一无人村,村民斥巨资盖别墅

全村移民加拿大,70多年没回来,广东一无人村,村民斥巨资盖别墅

小熊侃史
2026-01-10 07:20:10
终于理解为啥吕布从没斩杀有名大将,却被称为第一猛将!评论太精辟

终于理解为啥吕布从没斩杀有名大将,却被称为第一猛将!评论太精辟

热闹的河马
2024-10-08 16:25:19
董明珠的言语经常惹争议,但是她做的事为何都做对了?

董明珠的言语经常惹争议,但是她做的事为何都做对了?

BT财经
2026-02-02 07:00:03
即将升温至25℃!春节假期广东有冷空气!下一轮降温+降雨时间也确定了→

即将升温至25℃!春节假期广东有冷空气!下一轮降温+降雨时间也确定了→

广东最生活v
2026-02-02 11:34:39
伊朗已被包围,美军开战在即,哈梅内伊进地堡,中方要做最坏打算

伊朗已被包围,美军开战在即,哈梅内伊进地堡,中方要做最坏打算

来科点谱
2026-01-29 08:55:35
2026-02-02 13:15:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7081文章数 548关注度
往期回顾 全部

科技要闻

元宝发10亿红包,阿里千问:我跟30亿

头条要闻

美伊局势脆弱且微妙 两国谈判"最大症结"披露

头条要闻

美伊局势脆弱且微妙 两国谈判"最大症结"披露

体育要闻

澳网男单决赛,属于阿尔卡拉斯的加冕仪式

娱乐要闻

周杰伦带王俊凯陈奕迅聚餐 畅聊音乐

财经要闻

国六货车被迫"换头" 每次收费超200元

汽车要闻

雷克萨斯LC500将于今年底停产 "最美雷克萨斯"谢幕

态度原创

健康
艺术
亲子
时尚
本地

耳石症分类型,症状大不同

艺术要闻

马斯克花5万买的折叠屋,是预制住宅的未来吗?

亲子要闻

“妊娠”竟然不读rèn chén,正确读音是什么?你知道吗?

普通人衣服没必要买太多,准备好这些单品,简单实用又耐看

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

无障碍浏览 进入关怀版