网易首页 > 网易号 > 正文 申请入驻

啊?7B的DeepSeek反超R1满血版,上海AI Lab周伯文团队新成果

0
分享至

梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

倒反天罡了,新方法让DeepSeek蒸馏的Qwen数学能力反超R1满血版,7B反超671B

除此之外,0.5B模型超过GPT-4o,1.5B的DeepSeek蒸馏Qwen超过o1-mini和o1-preview,3B的Llama超过405B的Llama……

这是上海AI Lab/清华哈工大/北邮团队最新研究成果,通讯作者为齐弼卿周伯文

重新思考计算最优的Test-Time Scaling(TTS)

团队认为,尽管TTS在提升语言模型推理能力上取得进展,但目前的研究还缺乏对策略模型、过程奖励模型(PRM)和问题难度等因素影响的系统分析。

因此,该研究聚焦两个核心问题:

  • 跨不同策略模型、PRM和问题难度,最优的TTS方式是什么?
  • TTS能在多大程度上提升语言模型在复杂任务上的表现?小模型能否超越大模型?

重新思考Test-Time Scaling

为探究这些问题,团队在MATH-500和AIME24数学推理数据集上,使用多个不同规模的策略模型和PRM,进行了全面的实验评估。

他们将推理问题建模为马尔可夫决策过程,定义了状态空间、动作空间、转移函数、奖励函数和折扣因子等元素。

对于TTS,考虑了Best-of-N、Beam Search和Diverse Verifier Tree Search(DVTS)三种方法。

实验发现,最优的TTS方法高度依赖于具体的策略模型、过程奖励模型(PRM)和问题难度。

对于小型策略模型,基于搜索的方法优于BoN,而对于大型策略模型相反。

团队认为之所以出现这种差异,是因为较大的模型具有更强的推理能力,并且不需要验证器来执行逐步选择。相比之下,较小的模型依靠验证器来选择每个步骤,确保每个中间步骤的正确性。

对于过程奖励模型,对Llama3.1-8B-Instruct使用Skywork和Qwen2.5-Math的PRM时效果拔群,在MATH-500数据集上搜索方法的性能随计算预算增加显著提升。

而使用Math-Shepherd和RLHFlow的PRMs时效果不佳甚至不如多数投票。

对于问题难度,参数少于7B的小型策略模型,BoN更适合于简单的问题,而Beam Search更适合于更难的问题。

参数在7B-32B的策略模型,DVTS在简单和中等问题上表现良好,而Beam Search对于困难问题更有效。

另外在72B参数的策略模型上,BoN是所有难度级别的最佳方法。

因此,团队提出了一个更通用的奖励感知型最优计算TTS框架,确保TTS计算能适应特定的策略模型、提示和奖励函数。

利用奖励感知型最优TTS框架,在MATH-500和AIME24上取得了如下结果:

3B的Llama3.2超越135倍大的Llama3.1-405B,与之前的TTS研究(超越23倍大的模型)相比,改善了487%。

DeepSeek-R1-Distill-Qwen-7B超过了OpenAI-o1(参数量未知)和DeepSeek-R1(671B)。

甚至0.5B和1.5B的小模型也展现出了与GPT-4o、o1-preview等专门的推理模型媲美的表现。

研究还比较了最优TTS和目前流行的基于长CoT的方法。

结果表明,TTS在MATH-500和AIME2024上优于多数长CoT方法。

然而,虽然TTS在MATH-500上的性能接近DeepSeek-R1-Distill-Qwen-7B,但在AIME24上却显示出显著的下降。
这说明TTS在相对简单任务上优势明显,但在更复杂的任务上则逊色于从超大规模模型蒸馏得到模型,还有提升空间。

最后,团队提出研究真正的 “从弱到强” 方法而不是当前 “从强到弱” 的策略优化监督机制的重要性。

未来的工作应侧重于开发更具适应性和通用性的监督机制,以提高小语言模型在复杂任务上的性能,并为开发有效的推理策略提供新方法。

目前的工作对数学任务上的TTS做了全面评估,但仍有一些局限性和未来方向需要探索:比如将TTS扩展到更多任务,例如代码和化学,以及探索更高效的计算最优TTS方法。

论文地址:
https://arxiv.org/abs/2502.06703

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张雪峰二婚妻子颜值高,正面照片流出,遗产继承恐陷纷争

张雪峰二婚妻子颜值高,正面照片流出,遗产继承恐陷纷争

老猫观点
2026-03-26 07:35:34
200亿美元收益!NBA推进两大计划 每队老板至少分到6.5亿美元

200亿美元收益!NBA推进两大计划 每队老板至少分到6.5亿美元

罗说NBA
2026-03-26 06:21:27
卡塔尔向伊朗交60亿美元保护费? 伊朗打击升级: 瞄准以色列往死里打

卡塔尔向伊朗交60亿美元保护费? 伊朗打击升级: 瞄准以色列往死里打

起喜电影
2026-03-26 13:20:15
中年男人最大的悲哀是什么?网友:说到底就是自己能力差呗

中年男人最大的悲哀是什么?网友:说到底就是自己能力差呗

带你感受人间冷暖
2026-03-23 00:02:19
陈明仁起义开价:保留兵团司令,林彪看完只说了4个字

陈明仁起义开价:保留兵团司令,林彪看完只说了4个字

史海孤雁
2026-03-24 17:26:17
50岁何润东做梦也没想到,因张凌赫一个造型,让他的口碑一夜暴涨

50岁何润东做梦也没想到,因张凌赫一个造型,让他的口碑一夜暴涨

八卦南风
2026-03-24 15:15:25
“上海实体交通卡,为啥退不了?”73岁老伯来沪遭遇引发质疑,记者调查:确实难

“上海实体交通卡,为啥退不了?”73岁老伯来沪遭遇引发质疑,记者调查:确实难

新民晚报
2026-03-25 18:45:33
美军第82空降师3000人出兵,危急时刻,伊朗特种兵亮剑56冲和FPV

美军第82空降师3000人出兵,危急时刻,伊朗特种兵亮剑56冲和FPV

沧海旅行家
2026-03-26 13:11:41
估价32万!这4种年份的1元硬币,可要留好了!

估价32万!这4种年份的1元硬币,可要留好了!

富哥爱收藏
2026-03-26 13:51:45
爆料广东队教练组大调整,杜锋面临下课,替代者现身,球迷支持

爆料广东队教练组大调整,杜锋面临下课,替代者现身,球迷支持

宗介说体育
2026-03-25 10:31:37
稀土案告破:截获220吨,够造90架F-35核心材料

稀土案告破:截获220吨,够造90架F-35核心材料

策略述
2026-03-26 13:45:33
62年胡宗南病逝,死前高举左手惊叫数声,其子:他常恨自己没早死

62年胡宗南病逝,死前高举左手惊叫数声,其子:他常恨自己没早死

云霄纪史观
2026-03-26 11:47:26
女同主播出轨大哥 被"正宫"直播对质!真实长相曝光

女同主播出轨大哥 被"正宫"直播对质!真实长相曝光

游民星空
2026-03-25 20:08:13
如今三大战场同时开打,中国一个举动,却是让西方悟了一个道理

如今三大战场同时开打,中国一个举动,却是让西方悟了一个道理

近史谈
2026-03-25 20:26:28
海关总署署长孙梅君到广东调研

海关总署署长孙梅君到广东调研

证券时报
2026-03-26 13:26:01
49年上海解放第三天,李克农密电陈毅:不惜全部代价,找着李静安

49年上海解放第三天,李克农密电陈毅:不惜全部代价,找着李静安

让时间说真话
2024-03-26 15:23:22
张雪峰去世,“跑完步就不行了”:苏州独墅湖医院外的生死4小时

张雪峰去世,“跑完步就不行了”:苏州独墅湖医院外的生死4小时

哲学船
2026-03-25 00:44:19
个人公众号“千问”停更近10年,近期接连遭阿里投诉均被驳回,号主:规避风险不发AI文章,如果我不发声,账号就不保了

个人公众号“千问”停更近10年,近期接连遭阿里投诉均被驳回,号主:规避风险不发AI文章,如果我不发声,账号就不保了

中国能源网
2026-03-25 13:53:05
留意!局部暴雨+短时大风,3月27日起广东降水将趋于频密

留意!局部暴雨+短时大风,3月27日起广东降水将趋于频密

新浪财经
2026-03-26 03:04:38
五枚导弹,拦下四枚,就那漏网的一枚,不偏不倚,正好砸中…

五枚导弹,拦下四枚,就那漏网的一枚,不偏不倚,正好砸中…

福建平子
2026-03-25 10:14:49
2026-03-26 14:36:49
量子位 incentive-icons
量子位
追踪人工智能动态
12346文章数 176424关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

亲子
本地
手机
公开课
军事航空

亲子要闻

躺平的孩子意外觉醒了,在父母学会当“乌龟”!

本地新闻

春日吃花第三站——广东

手机要闻

三星One UI 9前瞻:小部件更方正、Now Bar动画更丝滑

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版