网易首页 > 网易号 > 正文 申请入驻

无需数据标注!测试时强化学习,模型数学能力暴增|清华&上海AI Lab

0
分享至

  • 克雷西 发自 凹非寺
    量子位 | 公众号 QbitAI

无需数据标注,在测试时做强化学习,模型数学能力暴增159%!

清华和上海AI Lab周伯文团队用这样的方法,对模型进行了强化——

结果模型在多个数据集上的成绩均大幅提升,尤其是Qwen-2.5-Math-7B,它做AIME 2024竞赛题的成绩直接提高了159%。

实验过程中,强化学习的数据均由被训练的模型自身生成。

作者还发现,训练后的模型性能,准确性已经超过了用于训练它的伪标签(测试时强化学习过程中产生)。

DeepMind工程师评价,这种测试时强化学习的方式将改变LLM的格局:

  • 它利用预训练模型和特定任务的提示进行实时自适应,而无需大量带标签的数据集,这是向前迈出的重要一步。

模型自己生成强化学习数据

作者提出的测试时强化学习(TTRL)过程是测试时扩展和测试时训练的结合,具体可以分为“生成、投票、强化”三个大步骤。

第一步生成的目的,是让模型针对每个输入的prompt,生成尽可能多样化的候选答案,该过程通过测试时推理来实现。

其思路是在推理阶段增加计算资源以获得更好的性能,具体到TTRL采用的是增加采样数量的方式,即对每个prompt,让模型采样生成N个不同的答案,而不是只生成一个确定性最高的输出。

作者的实验中,当在AIME 2024数据集上应用TTRL训练Qwen2.5-Math-7B模型时,每个prompt采样64次(N=64),温度系数设为1.0,以鼓励模型生成多样化的答案。

投票过程从上一步生成的N个候选答案出发,通过多数投票的方式来估计正确答案,并将其作为伪标签。

TTRL在实际应用投票机制时还引入了一个参数 Maj@N,表示多数投票的估计准确率。

它衡量的是伪标签与真实标签的一致性。通过控制Maj@N,可以权衡伪标签的质量和数量。

最后一步利用强化学习,基于上一步估计出的伪标签,来优化语言模型的策略,使其倾向于给出正确答案。

TTRL采用GRPO算法,还加入了重要性采样和蒙特卡洛估计等技术,以提高训练效率和稳定性。

模型数学能力大幅提升

为了评估TTRL的效果,作者在AIME 2024、AMC和MATH-500三个数据集上对调整前后的三款模型进行了测试。

  • 在AIME 2024数据集上,对于Qwen2.5-Math-7B基础模型,TTRL将其准确率从16.7%提高到43.3%,提升幅度高达159.3%,超越了所有在大规模标注数据上训练的模型。
  • 在AMC数据集上,Qwen2.5-Math-7B、Qwen2.5-Math-1.5B和LLaMA模型的准确率分别获得了74.9%、63.1%和68.4%的大幅提高。
  • MATH-500数据集上的表现更为突出,Qwen2.5-Math-7B和Qwen2.5-Math-1.5B分别实现了66.4%和142.4%的惊人提升,LLaMA模型的准确率也提高了29.3%。

平均而言,TTRL使Qwen2.5-Math-7B模型在三个数据集上的性能提高了84.1%。

进一步的泛化性实验表明,在一个数据集上应用TTRL后,性能的提高可以自然迁移到其他数据集,甚至是从未参与训练的任务。

为了分析TTRL方法有效的原因,作者比较了TTRL训练前后模型的多数投票性能。

结果,应用TTRL后,模型的多数投票准确率(Maj@64)显著高于原始的Qwen模型,说明通过多数投票得到的伪标签质量优于单个模型输出。

并且强化学习具备纠错能力。即使伪标签并非完全准确,强化学习也可以通过奖惩机制引导模型朝着正确方向优化。

从AIME 2024上标签准确率和奖励准确率的变化曲线中可以看到,即使在标签准确率较低的阶段,奖励准确率也能维持在90%以上。

作者简介

这项研究的领导者是清华大学C3I课题组博士生张开颜和上海AI实验室青年研究员崔淦渠。

张开颜的导师是上海人工智能实验室主任、首席科学家周伯文教授;崔淦渠则毕业于清华NLP实验室,读博期间导师是刘知远副教授。

本文共同一作是张开颜和同样来自清华的Yuxin Zuo,周伯文和C3I课题组博士后丁宁是本文的通讯作者。

论文地址:
https://arxiv.org/abs/2504.16084

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
为进组做准备,颖儿直播打热玛吉,疼到捏扁解压球,太敬业了

为进组做准备,颖儿直播打热玛吉,疼到捏扁解压球,太敬业了

TVB的四小花
2026-03-26 13:38:07
带娃出国的中产后悔了:想回来,但回国失败

带娃出国的中产后悔了:想回来,但回国失败

视觉志
2026-03-24 10:36:13
迟迟都等不到中企复工,巴拿马头号帮手已介入,中方加强港口管制

迟迟都等不到中企复工,巴拿马头号帮手已介入,中方加强港口管制

黑鹰观军事
2026-03-25 13:49:59
全球首次!俄军10倍音速锆石高超音速导弹发射车:最后一刻被摧毁

全球首次!俄军10倍音速锆石高超音速导弹发射车:最后一刻被摧毁

Ck的蜜糖
2026-03-26 12:30:25
中国选美冠军白欣禾,胸前的美人痣真好看,仙气飘飘像刘奕菲

中国选美冠军白欣禾,胸前的美人痣真好看,仙气飘飘像刘奕菲

可乐谈情感
2026-03-24 18:06:38
Anthropic冲塔ASI自进化,要做全球操作系统!Claude OS一刀砍向6.4万亿帝国

Anthropic冲塔ASI自进化,要做全球操作系统!Claude OS一刀砍向6.4万亿帝国

新智元
2026-03-25 19:40:39
千万粉丝挖机小何塌房了,挖机被厂家回收,厂家出面爆出真相

千万粉丝挖机小何塌房了,挖机被厂家回收,厂家出面爆出真相

新游戏大妹子
2026-03-26 13:10:14
克拉拉擦边香艳床戏包贝尔再演坏淫!这部网大爽得太肤浅

克拉拉擦边香艳床戏包贝尔再演坏淫!这部网大爽得太肤浅

释凡电影
2026-03-24 04:57:40
好消息!湖北多地将放“春假”!

好消息!湖北多地将放“春假”!

越乔
2026-03-26 15:04:49
登顶Top.1,女神新作又爆了

登顶Top.1,女神新作又爆了

来看美剧
2026-03-24 19:35:04
有一种“算计”叫郭晋安欧倩怡,离婚一年后才看懂郭晋安有多精明

有一种“算计”叫郭晋安欧倩怡,离婚一年后才看懂郭晋安有多精明

小椰的奶奶
2026-03-27 00:02:26
老友鼓励加图索晋级世界杯,但意大利锋线却只能依赖20岁的他

老友鼓励加图索晋级世界杯,但意大利锋线却只能依赖20岁的他

里芃芃体育
2026-03-27 00:10:08
杜锋下课警钟敲响,球迷贴脸输出,赛后点名陈家政争议发言遭声讨

杜锋下课警钟敲响,球迷贴脸输出,赛后点名陈家政争议发言遭声讨

晚雾空青
2026-03-26 14:00:12
为啥一听说给农民涨养老金,就有一群人激烈反对?真相太沉重

为啥一听说给农民涨养老金,就有一群人激烈反对?真相太沉重

复转这些年
2026-03-14 23:48:05
成龙昔日兰博基尼,705万被山东小伙买走,全球就这1辆,车牌很讲究

成龙昔日兰博基尼,705万被山东小伙买走,全球就这1辆,车牌很讲究

西莫的艺术宫殿
2026-03-23 20:15:44
复出遥遥无期!热刺进攻核心再次接受手术 此前已伤缺10月

复出遥遥无期!热刺进攻核心再次接受手术 此前已伤缺10月

雪狼侃体育
2026-03-26 23:13:58
出大事了,美以陷入孤立,特朗普连夜反水,德总统公开嘲讽美国

出大事了,美以陷入孤立,特朗普连夜反水,德总统公开嘲讽美国

无人倾听无人倾听
2026-03-26 23:16:56
丫蛋有三个孩子,大儿子王天琦是她与前夫王金龙所生,2011年出生

丫蛋有三个孩子,大儿子王天琦是她与前夫王金龙所生,2011年出生

南权先生
2026-03-23 15:17:49
乌干达高层放话支持以色列:历史恩怨正在反转

乌干达高层放话支持以色列:历史恩怨正在反转

桂系007
2026-03-26 23:58:56
穷可以让一个女人卑微到什么程度?看网友的评论引起万千共鸣

穷可以让一个女人卑微到什么程度?看网友的评论引起万千共鸣

夜深爱杂谈
2026-03-01 21:28:54
2026-03-27 01:00:49
量子位 incentive-icons
量子位
追踪人工智能动态
12348文章数 176425关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

亲子
时尚
旅游
教育
数码

亲子要闻

看看把孩子吓得哈哈哈

400万人爱过的女孩,被黄谣网暴180天后

旅游要闻

老外为羊拿铁扎堆魔都街头 法国游客花式夸上海

教育要闻

精准研判,提质增效丨我校召开2026届毕业生就业工作研判会

数码要闻

英特尔发Q1.26版Arc Pro专业显卡驱动,支持B70 / B65显卡

无障碍浏览 进入关怀版