网易首页 > 网易号 > 正文 申请入驻

啊?7B的DeepSeek反超R1满血版,上海AI Lab周伯文团队新成果

0
分享至

梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

倒反天罡了,新方法让DeepSeek蒸馏的Qwen数学能力反超R1满血版,7B反超671B

除此之外,0.5B模型超过GPT-4o,1.5B的DeepSeek蒸馏Qwen超过o1-mini和o1-preview,3B的Llama超过405B的Llama……

这是上海AI Lab/清华哈工大/北邮团队最新研究成果,通讯作者为齐弼卿周伯文

重新思考计算最优的Test-Time Scaling(TTS)

团队认为,尽管TTS在提升语言模型推理能力上取得进展,但目前的研究还缺乏对策略模型、过程奖励模型(PRM)和问题难度等因素影响的系统分析。

因此,该研究聚焦两个核心问题:

  • 跨不同策略模型、PRM和问题难度,最优的TTS方式是什么?
  • TTS能在多大程度上提升语言模型在复杂任务上的表现?小模型能否超越大模型?

重新思考Test-Time Scaling

为探究这些问题,团队在MATH-500和AIME24数学推理数据集上,使用多个不同规模的策略模型和PRM,进行了全面的实验评估。

他们将推理问题建模为马尔可夫决策过程,定义了状态空间、动作空间、转移函数、奖励函数和折扣因子等元素。

对于TTS,考虑了Best-of-N、Beam Search和Diverse Verifier Tree Search(DVTS)三种方法。

实验发现,最优的TTS方法高度依赖于具体的策略模型、过程奖励模型(PRM)和问题难度。

对于小型策略模型,基于搜索的方法优于BoN,而对于大型策略模型相反。

团队认为之所以出现这种差异,是因为较大的模型具有更强的推理能力,并且不需要验证器来执行逐步选择。相比之下,较小的模型依靠验证器来选择每个步骤,确保每个中间步骤的正确性。

对于过程奖励模型,对Llama3.1-8B-Instruct使用Skywork和Qwen2.5-Math的PRM时效果拔群,在MATH-500数据集上搜索方法的性能随计算预算增加显著提升。

而使用Math-Shepherd和RLHFlow的PRMs时效果不佳甚至不如多数投票。

对于问题难度,参数少于7B的小型策略模型,BoN更适合于简单的问题,而Beam Search更适合于更难的问题。

参数在7B-32B的策略模型,DVTS在简单和中等问题上表现良好,而Beam Search对于困难问题更有效。

另外在72B参数的策略模型上,BoN是所有难度级别的最佳方法。

因此,团队提出了一个更通用的奖励感知型最优计算TTS框架,确保TTS计算能适应特定的策略模型、提示和奖励函数。

利用奖励感知型最优TTS框架,在MATH-500和AIME24上取得了如下结果:

3B的Llama3.2超越135倍大的Llama3.1-405B,与之前的TTS研究(超越23倍大的模型)相比,改善了487%。

DeepSeek-R1-Distill-Qwen-7B超过了OpenAI-o1(参数量未知)和DeepSeek-R1(671B)。

甚至0.5B和1.5B的小模型也展现出了与GPT-4o、o1-preview等专门的推理模型媲美的表现。

研究还比较了最优TTS和目前流行的基于长CoT的方法。

结果表明,TTS在MATH-500和AIME2024上优于多数长CoT方法。

然而,虽然TTS在MATH-500上的性能接近DeepSeek-R1-Distill-Qwen-7B,但在AIME24上却显示出显著的下降。
这说明TTS在相对简单任务上优势明显,但在更复杂的任务上则逊色于从超大规模模型蒸馏得到模型,还有提升空间。

最后,团队提出研究真正的 “从弱到强” 方法而不是当前 “从强到弱” 的策略优化监督机制的重要性。

未来的工作应侧重于开发更具适应性和通用性的监督机制,以提高小语言模型在复杂任务上的性能,并为开发有效的推理策略提供新方法。

目前的工作对数学任务上的TTS做了全面评估,但仍有一些局限性和未来方向需要探索:比如将TTS扩展到更多任务,例如代码和化学,以及探索更高效的计算最优TTS方法。

论文地址:
https://arxiv.org/abs/2502.06703

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
比芯片断供还难受,美日垄断全世界90%市场,我们连高仿都造不出

比芯片断供还难受,美日垄断全世界90%市场,我们连高仿都造不出

搜史君
2026-02-07 13:35:11
004航母全力冲刺,四艘航母部署西太,瘫痪美军最后优势

004航母全力冲刺,四艘航母部署西太,瘫痪美军最后优势

风流女汉
2026-02-08 09:05:14
曼联2-0热刺获4连胜!卡里克再过一关,斩落克星重返欧冠几无悬念

曼联2-0热刺获4连胜!卡里克再过一关,斩落克星重返欧冠几无悬念

罗米的曼联博客
2026-02-08 00:03:55
黄金白银,突然大反转!

黄金白银,突然大反转!

吉刻新闻
2026-02-07 15:13:19
民进党无法掌控“中选会”?陆配李贞秀案台官方只喊话不出手

民进党无法掌控“中选会”?陆配李贞秀案台官方只喊话不出手

海峡导报社
2026-02-07 08:46:04
马略卡边后卫莫希卡:亚马尔整场比赛都没能过掉我

马略卡边后卫莫希卡:亚马尔整场比赛都没能过掉我

懂球帝
2026-02-08 09:37:08
幼儿园有出路了!吉林一女子怕父亲卧床,送他去养老院玩引发热议

幼儿园有出路了!吉林一女子怕父亲卧床,送他去养老院玩引发热议

火山诗话
2026-02-06 14:48:47
无解封神!切尔西真核38分钟戴帽打服全场,新帅英超全胜比肩穆帅

无解封神!切尔西真核38分钟戴帽打服全场,新帅英超全胜比肩穆帅

听我说球
2026-02-08 09:16:48
人大代表:鸭子是对付福寿螺的高手,但农民告诉我,在上海养鸭子很麻烦,各种部门、各种证、各种规定

人大代表:鸭子是对付福寿螺的高手,但农民告诉我,在上海养鸭子很麻烦,各种部门、各种证、各种规定

新民晚报
2026-02-05 09:09:09
准确预言黄金暴跌的人,最新预言

准确预言黄金暴跌的人,最新预言

时尚的弄潮
2026-02-07 20:39:13
“难怪大学生不爱回家了”,江苏母亲晒客厅,有钱也改变不了心累

“难怪大学生不爱回家了”,江苏母亲晒客厅,有钱也改变不了心累

叮当当科技
2026-02-08 04:31:30
周炜上任48小时翻车,姜昆脸都被打肿!

周炜上任48小时翻车,姜昆脸都被打肿!

观星赏月
2026-02-08 01:39:41
湖北开放大学校长陈志祥被查,曾任湖北宏泰集团总经理

湖北开放大学校长陈志祥被查,曾任湖北宏泰集团总经理

澎湃新闻
2026-02-07 15:25:05
黄岩岛上演震撼一幕,翼龙-10与美军RC-135U的“发生交锋”

黄岩岛上演震撼一幕,翼龙-10与美军RC-135U的“发生交锋”

头条爆料007
2026-02-07 14:03:48
惊艳世界波!亚马尔25米石破天惊,巴萨大胜:又一18岁天才归来

惊艳世界波!亚马尔25米石破天惊,巴萨大胜:又一18岁天才归来

话体坛
2026-02-08 02:14:23
2-0!卡里克神了:疯狂4连胜,曼联掀翻克星,只落后曼城3分

2-0!卡里克神了:疯狂4连胜,曼联掀翻克星,只落后曼城3分

足球狗说
2026-02-07 22:26:38
亨德森:整场比赛我们都在咬牙坚持,小伙子们顶住了压力

亨德森:整场比赛我们都在咬牙坚持,小伙子们顶住了压力

懂球帝
2026-02-08 05:10:06
英媒:沙特计划3倍年薪签下萨拉赫 取代C罗 成为沙特超新招牌

英媒:沙特计划3倍年薪签下萨拉赫 取代C罗 成为沙特超新招牌

智道足球
2026-02-08 09:01:10
王鹤棣官宣赵露思!

王鹤棣官宣赵露思!

黎兜兜
2026-02-07 17:13:25
蓝正龙曾爆料:吴佩慈就是所有男生都想踹她的那种女生

蓝正龙曾爆料:吴佩慈就是所有男生都想踹她的那种女生

追影客栈
2026-02-05 17:08:07
2026-02-08 10:00:49
量子位 incentive-icons
量子位
追踪人工智能动态
12132文章数 176373关注度
往期回顾 全部

科技要闻

惨遭“兄弟”封禁的腾讯元宝,干得过豆包千问吗?

头条要闻

牛弹琴:美又创造历史 一些美国人感叹"沦落到和俄一样"

头条要闻

牛弹琴:美又创造历史 一些美国人感叹"沦落到和俄一样"

体育要闻

铜牌与苏翊鸣的这四年,他说:我对得起自己

娱乐要闻

金晨处罚结果曝光!肇事逃逸被罚款

财经要闻

金银震荡144小时 大爷大妈排队「抄底」

汽车要闻

工信部公告落地 全新腾势Z9GT焕新升级

态度原创

艺术
教育
手机
健康
公开课

艺术要闻

浓艳的静物花卉,英国当代画家Emma Dunbar

教育要闻

聚焦“四个关键” 扎实推进中小学校党组织领导的校长负责制落地生效

手机要闻

手机换机攻略:存储涨价潮下,现在买还是再等等?

转头就晕的耳石症,能开车上班吗?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版