网易首页 > 网易号 > 正文 申请入驻

超越Claude 3.5和o1!8B模型靠「分层投票+测试时训练」逆袭

0
分享至


新智元报道

编辑:peter东 英智

【新智元导读】小时候完成月考测试后,老师会通过讲解考试卷中吃错题让同学们在未来取得好成绩。近日MIT的研究者,发现测试时训练在大模型应对复杂推理问题时,能通过将任务分解,大幅提升回答的准确率。拿到题目后模型开始训练,效果意外的好!

测试时训练(test-time training)是一种通用的训练方法。

该方法将单个未标记的测试实例转化为自监督学习问题,在对测试样本进行预测之前更新模型参数。

而对于大模型训练,通常会使用一种称为情境学习的技术来提高其模型在新任务上的性能。

该方法通过将新任务的几个示例作为文本提示输入模型,从而指导模型的输出。

但情境学习并不总是适用于需要逻辑和推理的问题。 因为逻辑和推理问题是环环相扣的,需要先做好对问题的拆解,才能够解决对应的问题。

只是给出例子,而不教会大模型推理方法,相当于只是给学生几道例题和答案,却不教解题思路,对成绩的提升于事无补。


图1:大模型测试时学习的框架

测试时训练的第一步,是数据重构,即通过留一法,将K个示例拆分为K个伪任务,每个任务用K-1个样本作训练,留1个作测试。

同时修改训练优化的损失函数,涵盖所有的示例,让模型不仅学到训练集,还能扩展到测试集上。

测试时训练涉及使用少量特定于当前任务的新数据来更新某些模型参数——即模型用于进行预测的内部变量。

下面的图2,对应的是在抽象推理数据集(ARC)和BBH两个基准测试集应用测试时训练后,成功给出回答的示例。


图2:使用测试时训练解决抽象推理问题的示例

测试中使用的模型,其参数量不过是8B的lemma3,而其性能提升相当显著,对于ARC数据集,准确性翻了近两倍,从17.5%提高到45%;在BBH数据集上,也从50.5%提升到57.8%。


图3:在80个随机选择的ARC验证任务子集上和全部BBH任务上的准确性

让大模型的思考逻辑问题如人类专家

为了扩展测试时给出数据集的大小,研究者还通过略微改变示例中的问题和解决方案来创建新的数据,例如通过水平翻转一些输入数据。

他们发现,在新增的数据集上训练模型可以使得模型获得最佳性能。

在使用留一法和可逆几何变换后,可通过测使用分层投票策略,对训练后的模型预测进行聚合:首先,在每个变换内部进行投票,然后从每个变换中选出的顶级候选者进行全局投票以产生最终的前两个预测。


图4:分层投票策略示例

使用分层投票和测试时训练后,即使是1B参数的模型,其在抽象推理问题上的性能提升也相当显著,性能与8B模型相近,如图5所示。


图5 1B 3B和8B参数量模型面对抽象推理问题的回答准确率对比

经过了微调并使用测试时训练的8B模型,其在抽象推理任务上的准确率高达62.8,已经超过了人类的均值60.2%,对比主流的Claude3.5,Deepseek R1,openAI o1更是遥遥领先。


相比在提示词中给出示例,测试时训练这一策略模仿了人类的思维方式,将大任务分解为数个小目标,每一步都包含可管理的逻辑步骤。

不仅适用于抽象推理问题,对于很多涉及多步骤推理的问题,都会带来显著的性能提升。

例如物体计数问题,即跟踪打乱顺序的五个物体, 跟踪打乱顺序后的物体顺序,或是电影推荐,即选择满足多个条件的电影。

在Big-Bench hard数据集的10类任务中,通过消融分析,也可对比使用了测试训练及分层投票策略所带来的性能提升(图6)。

这意味着测试时训练解决了大模型应用的一个核心痛点,即它们能生成流畅的文本,但在需要严密逻辑链条的复杂推理任务中,往往会走捷径或产生逻辑谬误。

例如虽然会计公司的大模型可能擅长总结财务报告,但如果要求该模型预测市场趋势或识别欺诈交易,它可能会意外地失败。


图7:在Big-Bench hard数据集上,的特定任务进行消融实验的完整结果

而测试时训练的引入,让大模型的思考方式变得类似人类专家,能够让大模型学习如何将一个大问题分解成多个子问题,然后按计划、有条不紊地解决,并在得出最终答案前对中间步骤进行自我审视和验证。

其意义不仅在于提升了模型的测试分数,更重要的是,它为构建更值得信赖的AI系统提供了可能。

一个能够清晰展示其推理步骤并进行自我纠错的AI,将在科学发现、医疗诊断、法律分析等高风险领域具有更广阔的应用前景。

这些说明测试时训练在处理新型推理任务方面的潜力,表明其在推动下一代语言模型的发展方面具有巨大前景。

然而,该研究一作Akyürek指出,即使采取了低秩适配的技术,只更新少量模型参数,从而提升测试时训练的部署效率,由于使用该策略意味着大模型每回答一个问题,都要重新进行训练。

这会导致一个通常在不到一分钟内回答查询的模型,在测试时训练下可能需要五到十分钟来提供答案。

因此Akyürek并不希望对所有用户查询都这样做,但如果您有一个非常困难的任务,希望模型能够很好地解决,那么测试是就是有用的。

而另一些任务,不需要使用该方法,上下文情境学习就够用了。

而研究者的长期目标是建立一个能持续学习的大模型,可根据查询自动判断是否需要使用测试时训练来更新参数,或者是否可以使用情境学习来完成任务,然后无需人工干预即可实施最佳测试时训练策略。

参考资料:

https://github.com/ekinakyurek/marc

https://news.mit.edu/2025/study-could-lead-llms-better-complex-reasoning-0708

https://arxiv.org/pdf/2411.07279


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
热议!院长奖金系数3,科主任1.8,小医生才0.8!医生吐槽:我们院职领导能达5,且领导太多,医院难以承受!

热议!院长奖金系数3,科主任1.8,小医生才0.8!医生吐槽:我们院职领导能达5,且领导太多,医院难以承受!

梅斯医学
2025-09-17 07:54:20
灼灼韶华大结局:褚韶华用20年换来母女重逢,发现陈萱已脱胎换骨

灼灼韶华大结局:褚韶华用20年换来母女重逢,发现陈萱已脱胎换骨

诗意世界
2025-09-16 22:40:21
增程份额跌至7.7%,车企后悔药白吃?有院士称插电式在向增程进化

增程份额跌至7.7%,车企后悔药白吃?有院士称插电式在向增程进化

道哥说车
2025-09-15 11:02:17
以色列凭什么这么狂?因为他们手握三大核心,值得我们警惕

以色列凭什么这么狂?因为他们手握三大核心,值得我们警惕

踏青云看世界
2025-09-12 14:06:57
央媒发文仅8天,石平在华资产被扒,千万财产被冻结,家属受牵连

央媒发文仅8天,石平在华资产被扒,千万财产被冻结,家属受牵连

吴蒂旅行ing
2025-09-17 08:54:40
俄罗斯突然公布涉华解密文件,看完让人心里发沉

俄罗斯突然公布涉华解密文件,看完让人心里发沉

闫树军论评
2025-08-24 21:23:59
中美在太空进行了一次较量,绝对是高手过招,招招致命!

中美在太空进行了一次较量,绝对是高手过招,招招致命!

荆楚寰宇文枢
2025-09-15 07:52:21
拔出萝卜带出泥,宋伊人风波升级,王鹤棣郭俊辰等明星受牵连

拔出萝卜带出泥,宋伊人风波升级,王鹤棣郭俊辰等明星受牵连

八斗小先生
2025-09-16 14:43:30
15岁智力残障女孩穿村铁轨殒命,家人索赔127万元!女孩家属:铁路方称监护人应担责;一审未宣判

15岁智力残障女孩穿村铁轨殒命,家人索赔127万元!女孩家属:铁路方称监护人应担责;一审未宣判

扬子晚报
2025-09-16 12:20:35
基因好是啥体验?网友:精力旺盛真的是天赋基因,这种人都不胖

基因好是啥体验?网友:精力旺盛真的是天赋基因,这种人都不胖

带你感受人间冷暖
2025-09-15 00:05:16
1967年,“三老四帅”大闹怀仁堂,他们谁的职务级别最高?

1967年,“三老四帅”大闹怀仁堂,他们谁的职务级别最高?

太傅言史
2025-09-16 09:26:41
傅斯年:人间一个稀有的天才

傅斯年:人间一个稀有的天才

尚曦读史
2025-09-14 10:56:13
心脏支架为何单价从700元重新涨到30000元,真相到底是什么?

心脏支架为何单价从700元重新涨到30000元,真相到底是什么?

华庭讲美食
2025-09-16 15:45:39
中美谈完第2天,英媒爆料:特朗普欲全球范围,对中资港口使阴招

中美谈完第2天,英媒爆料:特朗普欲全球范围,对中资港口使阴招

笑一个吧
2025-09-17 05:24:51
隔壁夫妻天天蹭我充电桩,我怒断电源出国游,3天后物业打来电话

隔壁夫妻天天蹭我充电桩,我怒断电源出国游,3天后物业打来电话

清茶浅谈
2025-09-11 21:10:19
差24亿回本?吴京换成李晨,陈凯歌夺回影史第一导演的目标泡汤了

差24亿回本?吴京换成李晨,陈凯歌夺回影史第一导演的目标泡汤了

靠谱电影君
2025-09-16 16:50:14
直降1000元!iPhone 17系列价格已破发

直降1000元!iPhone 17系列价格已破发

随州派
2025-09-14 16:58:27
李秉宪出演妻子李珉廷视频节目,全程40分钟被打码引韩网友热议

李秉宪出演妻子李珉廷视频节目,全程40分钟被打码引韩网友热议

韩小娱
2025-09-17 07:06:10
余承东:2点几秒的零百没意义 漂移是个很愚蠢的行为

余承东:2点几秒的零百没意义 漂移是个很愚蠢的行为

手机中国
2025-09-16 20:27:05
广东猛然惊醒:广西,才是自己未来20年最大的“经济增量”

广东猛然惊醒:广西,才是自己未来20年最大的“经济增量”

小鬼头体育
2025-09-16 10:13:12
2025-09-17 10:11:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13459文章数 66155关注度
往期回顾 全部

教育要闻

学校年级组如何实现“愿景共绘”?

头条要闻

牛弹琴:特朗普对美国报纸挥出铁拳 当心中国被躺枪

头条要闻

牛弹琴:特朗普对美国报纸挥出铁拳 当心中国被躺枪

体育要闻

2022:勇士归来,库里的第四个冠军

娱乐要闻

李小璐母亲:女儿嫁给贾乃亮我好后悔

财经要闻

曝匹克大幅降薪 员工还要进行"三观培训"

科技要闻

英伟达RTX6000D遇冷,中国大厂不买账

汽车要闻

智能体豪华旅行车 享界S9T30.98万元起售

态度原创

时尚
亲子
手机
数码
教育

气质女人,都少不了亦舒笔下的开衫

亲子要闻

父母最大的成功:让孩子离开你也能活得漂亮

手机要闻

适配慢热:苹果推“液态玻璃”设计,应用全面普及需数年

数码要闻

Mophie 新推 Qi2 充电宝,iPhone 充电有新玩法!

教育要闻

今年高考若录取到这5个专业,可以不用考研,另外5个专业必须考研

无障碍浏览 进入关怀版