网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

超越Claude 3.5和o1！8B模型靠「分层投票+测试时训练」逆袭

2025-07-22 09:35:33　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：peter东英智

【新智元导读】小时候完成月考测试后，老师会通过讲解考试卷中吃错题让同学们在未来取得好成绩。近日MIT的研究者，发现测试时训练在大模型应对复杂推理问题时，能通过将任务分解，大幅提升回答的准确率。拿到题目后模型开始训练，效果意外的好！

测试时训练（test-time training）是一种通用的训练方法。

该方法将单个未标记的测试实例转化为自监督学习问题，在对测试样本进行预测之前更新模型参数。

而对于大模型训练，通常会使用一种称为情境学习的技术来提高其模型在新任务上的性能。

该方法通过将新任务的几个示例作为文本提示输入模型，从而指导模型的输出。

但情境学习并不总是适用于需要逻辑和推理的问题。因为逻辑和推理问题是环环相扣的，需要先做好对问题的拆解，才能够解决对应的问题。

只是给出例子，而不教会大模型推理方法，相当于只是给学生几道例题和答案，却不教解题思路，对成绩的提升于事无补。

图1：大模型测试时学习的框架

测试时训练的第一步，是数据重构，即通过留一法，将K个示例拆分为K个伪任务，每个任务用K-1个样本作训练，留1个作测试。

同时修改训练优化的损失函数，涵盖所有的示例，让模型不仅学到训练集，还能扩展到测试集上。

测试时训练涉及使用少量特定于当前任务的新数据来更新某些模型参数——即模型用于进行预测的内部变量。

下面的图2，对应的是在抽象推理数据集（ARC）和BBH两个基准测试集应用测试时训练后，成功给出回答的示例。

图2：使用测试时训练解决抽象推理问题的示例

测试中使用的模型，其参数量不过是8B的lemma3，而其性能提升相当显著，对于ARC数据集，准确性翻了近两倍，从17.5%提高到45%；在BBH数据集上，也从50.5%提升到57.8%。

图3：在80个随机选择的ARC验证任务子集上和全部BBH任务上的准确性

让大模型的思考逻辑问题如人类专家

为了扩展测试时给出数据集的大小，研究者还通过略微改变示例中的问题和解决方案来创建新的数据，例如通过水平翻转一些输入数据。

他们发现，在新增的数据集上训练模型可以使得模型获得最佳性能。

在使用留一法和可逆几何变换后，可通过测使用分层投票策略，对训练后的模型预测进行聚合：首先，在每个变换内部进行投票，然后从每个变换中选出的顶级候选者进行全局投票以产生最终的前两个预测。

图4：分层投票策略示例

使用分层投票和测试时训练后，即使是1B参数的模型，其在抽象推理问题上的性能提升也相当显著，性能与8B模型相近，如图5所示。

图5 1B 3B和8B参数量模型面对抽象推理问题的回答准确率对比

经过了微调并使用测试时训练的8B模型，其在抽象推理任务上的准确率高达62.8，已经超过了人类的均值60.2%，对比主流的Claude3.5，Deepseek R1，openAI o1更是遥遥领先。

相比在提示词中给出示例，测试时训练这一策略模仿了人类的思维方式，将大任务分解为数个小目标，每一步都包含可管理的逻辑步骤。

不仅适用于抽象推理问题，对于很多涉及多步骤推理的问题，都会带来显著的性能提升。

例如物体计数问题,即跟踪打乱顺序的五个物体, 跟踪打乱顺序后的物体顺序，或是电影推荐，即选择满足多个条件的电影。

在Big-Bench hard数据集的10类任务中，通过消融分析，也可对比使用了测试训练及分层投票策略所带来的性能提升（图6）。

这意味着测试时训练解决了大模型应用的一个核心痛点，即它们能生成流畅的文本，但在需要严密逻辑链条的复杂推理任务中，往往会走捷径或产生逻辑谬误。

例如虽然会计公司的大模型可能擅长总结财务报告，但如果要求该模型预测市场趋势或识别欺诈交易，它可能会意外地失败。

图7：在Big-Bench hard数据集上，的特定任务进行消融实验的完整结果

而测试时训练的引入，让大模型的思考方式变得类似人类专家，能够让大模型学习如何将一个大问题分解成多个子问题，然后按计划、有条不紊地解决，并在得出最终答案前对中间步骤进行自我审视和验证。

其意义不仅在于提升了模型的测试分数，更重要的是，它为构建更值得信赖的AI系统提供了可能。

一个能够清晰展示其推理步骤并进行自我纠错的AI，将在科学发现、医疗诊断、法律分析等高风险领域具有更广阔的应用前景。

这些说明测试时训练在处理新型推理任务方面的潜力，表明其在推动下一代语言模型的发展方面具有巨大前景。

然而，该研究一作Akyürek指出，即使采取了低秩适配的技术，只更新少量模型参数，从而提升测试时训练的部署效率，由于使用该策略意味着大模型每回答一个问题，都要重新进行训练。

这会导致一个通常在不到一分钟内回答查询的模型，在测试时训练下可能需要五到十分钟来提供答案。

因此Akyürek并不希望对所有用户查询都这样做，但如果您有一个非常困难的任务，希望模型能够很好地解决，那么测试是就是有用的。

而另一些任务，不需要使用该方法，上下文情境学习就够用了。

而研究者的长期目标是建立一个能持续学习的大模型，可根据查询自动判断是否需要使用测试时训练来更新参数，或者是否可以使用情境学习来完成任务，然后无需人工干预即可实施最佳测试时训练策略。

参考资料：

https://github.com/ekinakyurek/marc

https://news.mit.edu/2025/study-could-lead-llms-better-complex-reasoning-0708

https://arxiv.org/pdf/2411.07279

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

荆州统一校服款式，购买方式出炉！

更荆州 2025-09-17 09:39:54
0 跟贴 0
万物皆可建系，函数最值求法

阿航观世界 2025-09-16 13:06:19
2 跟贴 2

2026高考数学世纪金榜一轮复习第二讲常用逻辑用语(6)

邹老实课堂 2025-09-15 11:30:18
3 跟贴 3

跨越千里“云访”雪域哨所，五年书信见证鱼水情深

菏泽日报 2025-09-17 09:42:16
0 跟贴 0
神秘鳖臑阳马曝光！空间向量基本定理揭秘，爪子模型技巧大提升！

六维坐标系 2025-09-16 18:04:02
0 跟贴 0

正高级教师开讲｜上海市南洋模范中学杜嘉陵：那些花儿

上海徐汇 2025-09-17 09:43:12
0 跟贴 0

学校年级组如何实现“愿景共绘”？

中国教师报 2025-09-17 09:28:03
0 跟贴 0
沉浸式体验+互动教学！乐陵郭家街道这场国防教育活动受欢迎

齐鲁壹点 2025-09-17 09:55:03
0 跟贴 0

降低大模型幻觉、让企业AI输出更靠谱，亚马逊云科技掏出10年家底

智东西 2025-09-16 15:10:23
0 跟贴 0
如何为LLM智能体编写工具？Anthropic官方教程来了

机器之心Pro 2025-09-12 21:50:08
0 跟贴 0
最耐看的5部悬疑神剧，《无证之罪》垫底，第1名毫无争议！

翰林涛涛 2025-09-16 12:40:01
3 跟贴 3
腾讯邱跃鹏：推理需求爆发，云基础设施也要同步升级

华尔街见闻官方 2025-09-16 16:03:14
0 跟贴 0
穷人该对环境和极端天气负责吗？来盘一盘环保的逻辑

九江老渭 2025-09-14 19:00:00
6 跟贴 6
事关黄岩岛，中方切换策略，用制度说话，马科斯算盘落空

朝晖前哨 2025-09-16 19:55:00
0 跟贴 0
中美经贸谈判，中国邀特朗普访华？2件事4信号，中美关系3变量

小彻 2025-09-16 15:52:35
0 跟贴 0
“秦始皇遣使采药昆仑石刻”最新进展：国家文物局认定为秦代石刻

封面新闻 2025-09-15 12:32:15
20906 跟贴 20906
最大“赃物市场”一日游！沉浸式体验大英博物馆 “强盗逻辑”

德国人Leo乐柏说 2025-09-13 10:30:00
35 跟贴 35
长征：历史与文本对于「两万五千里长征」您究竟了解多少

老王特爱聊 2025-09-16 08:05:31
0 跟贴 0
谷歌DeepMind「粪坑淘金」全新方法，暗网毒数据也能训出善良模型

新智元 2025-09-16 20:32:03
0 跟贴 0
网络上最可怕的10个画面，违背逻辑的怪异现象，你敢看到最后吗

可乐爆笑说 2025-09-16 10:22:19
1 跟贴 1
谁说Scaling Law到头了?新研究:每一步微小提升会带来指数级增长

机器之心Pro 2025-09-16 14:09:27
0 跟贴 0
中美经贸会谈交锋激烈，中方多维度反击美方‘卡脖子’策略

梦想的旅途 2025-09-15 11:34:31
0 跟贴 0
1954年蒋介石亲信被捕，毛主席先放后杀策略获赞

天仙无味小仙女 2025-09-16 00:12:34
0 跟贴 0
全新开源模型复现o3视觉推理，无需大量训练即可实现深度思考

量子位 2025-09-15 16:04:52
0 跟贴 0
谷歌“香蕉”杀死Photoshop，全球软件业彻底变天了

钛媒体APP 2025-09-16 16:39:10
19 跟贴 19
尹念红当选中山市人民政府市长

南方都市报 2025-09-16 20:04:18
726 跟贴 726
中科院软件所成果获英伟达重点引用，打造EDA领域更强核心引擎

DeepTech深科技 2025-09-15 17:27:51
5 跟贴 5
下单到上鱼仅6分钟，太二酸菜鱼一门店回应：不是预制菜！一年关停65家店

红星资本局 2025-09-16 22:04:18
4132 跟贴 4132
TikTok：有国家撑腰真好

东针 2025-09-16 21:28:35
0 跟贴 0
调整训练数据出场顺序大模型就能变聪明！无需扩大模型/数据规模

量子位 2025-09-06 12:02:44
0 跟贴 0
基于3DGS场景理解和视觉语言预训练，让3D高斯「听懂人话」的一跃

机器之心Pro 2025-09-08 13:26:10
0 跟贴 0
上海交大自招题求函数定义域，增强对定义域的理解！

三乐大掌柜 2025-09-15 09:47:48
1 跟贴 1
吉林石化公开招聘230人

吉刻新闻 2025-09-16 10:48:27
196 跟贴 196
浙江多所高校迎来领导班子调整

极目新闻 2025-09-17 07:20:49
11 跟贴 11
夸克公开国内首个覆盖全阶段医师考试的健康大模型测试集

雷峰网 2025-09-16 22:43:07
0 跟贴 0
相信我，这是今年最重要的华语片之一

虹膜 2025-09-16 21:32:15
1 跟贴 1
一袋皮皮虾116元，塑料袋花了20元

极目新闻 2025-09-16 21:20:47
616 跟贴 616
河南一景点石头被彩绘，如同巨型蛇头，当地管委会：没有危险可以放心游玩

潇湘晨报 2025-09-12 11:19:12
1549 跟贴 1549
夜读 | 致敬，为我指点迷津的人（一）

上海杨浦 2025-09-13 22:05:49
0 跟贴 0
下属不服管？不是他们叛逆，而是你犯了这3个致命错误！

老王的Boss圈 2025-09-17 07:56:06
0 跟贴 0

热议！院长奖金系数3，科主任1.8，小医生才0.8！医生吐槽：我们院职领导能达5，且领导太多，医院难以承受！

热议！院长奖金系数3，科主任1.8，小医生才0.8！医生吐槽：我们院职领导能达5，且领导太多，医院难以承受！

梅斯医学

2025-09-17 07:54:20

灼灼韶华大结局：褚韶华用20年换来母女重逢，发现陈萱已脱胎换骨

灼灼韶华大结局：褚韶华用20年换来母女重逢，发现陈萱已脱胎换骨

诗意世界

2025-09-16 22:40:21

增程份额跌至7.7%，车企后悔药白吃？有院士称插电式在向增程进化

增程份额跌至7.7%，车企后悔药白吃？有院士称插电式在向增程进化

道哥说车

2025-09-15 11:02:17

以色列凭什么这么狂？因为他们手握三大核心，值得我们警惕

以色列凭什么这么狂？因为他们手握三大核心，值得我们警惕

踏青云看世界

2025-09-12 14:06:57

央媒发文仅8天，石平在华资产被扒，千万财产被冻结，家属受牵连

央媒发文仅8天，石平在华资产被扒，千万财产被冻结，家属受牵连

吴蒂旅行ing

2025-09-17 08:54:40

俄罗斯突然公布涉华解密文件，看完让人心里发沉

俄罗斯突然公布涉华解密文件，看完让人心里发沉

闫树军论评

2025-08-24 21:23:59

中美在太空进行了一次较量，绝对是高手过招，招招致命！

中美在太空进行了一次较量，绝对是高手过招，招招致命！

荆楚寰宇文枢

2025-09-15 07:52:21

拔出萝卜带出泥，宋伊人风波升级，王鹤棣郭俊辰等明星受牵连

拔出萝卜带出泥，宋伊人风波升级，王鹤棣郭俊辰等明星受牵连

八斗小先生

2025-09-16 14:43:30

15岁智力残障女孩穿村铁轨殒命，家人索赔127万元！女孩家属：铁路方称监护人应担责；一审未宣判

15岁智力残障女孩穿村铁轨殒命，家人索赔127万元！女孩家属：铁路方称监护人应担责；一审未宣判

扬子晚报

2025-09-16 12:20:35

基因好是啥体验？网友：精力旺盛真的是天赋基因，这种人都不胖

基因好是啥体验？网友：精力旺盛真的是天赋基因，这种人都不胖

带你感受人间冷暖

2025-09-15 00:05:16

1967年，“三老四帅”大闹怀仁堂，他们谁的职务级别最高？

1967年，“三老四帅”大闹怀仁堂，他们谁的职务级别最高？

太傅言史

2025-09-16 09:26:41

傅斯年：人间一个稀有的天才

尚曦读史

2025-09-14 10:56:13

心脏支架为何单价从700元重新涨到30000元，真相到底是什么？

心脏支架为何单价从700元重新涨到30000元，真相到底是什么？

华庭讲美食

2025-09-16 15:45:39

中美谈完第2天，英媒爆料：特朗普欲全球范围，对中资港口使阴招

中美谈完第2天，英媒爆料：特朗普欲全球范围，对中资港口使阴招

笑一个吧

2025-09-17 05:24:51

隔壁夫妻天天蹭我充电桩，我怒断电源出国游，3天后物业打来电话

隔壁夫妻天天蹭我充电桩，我怒断电源出国游，3天后物业打来电话

清茶浅谈

2025-09-11 21:10:19

差24亿回本？吴京换成李晨，陈凯歌夺回影史第一导演的目标泡汤了

差24亿回本？吴京换成李晨，陈凯歌夺回影史第一导演的目标泡汤了

靠谱电影君

2025-09-16 16:50:14

直降1000元！iPhone 17系列价格已破发

直降1000元！iPhone 17系列价格已破发

随州派

2025-09-14 16:58:27

李秉宪出演妻子李珉廷视频节目，全程40分钟被打码引韩网友热议

李秉宪出演妻子李珉廷视频节目，全程40分钟被打码引韩网友热议

韩小娱

2025-09-17 07:06:10

余承东：2点几秒的零百没意义漂移是个很愚蠢的行为

余承东：2点几秒的零百没意义漂移是个很愚蠢的行为

手机中国

2025-09-16 20:27:05

广东猛然惊醒：广西，才是自己未来20年最大的“经济增量”

广东猛然惊醒：广西，才是自己未来20年最大的“经济增量”

小鬼头体育

2025-09-16 10:13:12

AI产业主平台领航智能+时代

13459文章数 66155关注度

往期回顾全部

教育要闻

学校年级组如何实现“愿景共绘”？

头条要闻

牛弹琴：特朗普对美国报纸挥出铁拳当心中国被躺枪

头条要闻

牛弹琴：特朗普对美国报纸挥出铁拳当心中国被躺枪

体育要闻

2022：勇士归来，库里的第四个冠军

娱乐要闻

李小璐母亲：女儿嫁给贾乃亮我好后悔

财经要闻

曝匹克大幅降薪员工还要进行"三观培训"

科技要闻

英伟达RTX6000D遇冷，中国大厂不买账

汽车要闻

智能体豪华旅行车享界S9T30.98万元起售

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

时尚

亲子

手机

数码

教育

气质女人，都少不了亦舒笔下的开衫

亲子要闻

父母最大的成功：让孩子离开你也能活得漂亮

手机要闻

适配慢热：苹果推“液态玻璃”设计，应用全面普及需数年

数码要闻

Mophie 新推 Qi2 充电宝，iPhone 充电有新玩法！

教育要闻

今年高考若录取到这5个专业，可以不用考研，另外5个专业必须考研

© 1997-2025 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版