网易首页 > 网易号 > 正文 申请入驻

AGI范式终于找到了?MIT新研究颠覆复杂推理测试,ARC挑战赛比肩人类

0
分享至

麻省理工学院(MIT) 的研究人员最近提出了测试时训练”(Test-Time Training, TTT) 的新方法,并在抽象推理挑战赛 (ARC) 中取得了突破性进展,其性能达到人类平均水平

ARC挑战赛正是以其高难度、对泛化能力的严格要求以及与人类推理的紧密联系而闻名,因此,MIT的TTT新方法 在此 benchmark 上的成功具有重要的意义,预示着未来模型推理的新方向

这项研究为何重要?

TTT(Test-Time Training)并非MIT独创,在MIT的这篇论文之前就已经存在了,Sun等人2020年的论文"Test-time training for out-of-distribution generalization" 就比较明确地提出了TTT的概念,并将其用于提高模型在分布外泛化 (Out-of-Distribution Generalization) 方面的性能。 他们使用少量未标记的测试数据在测试时对模型进行微调,从而使模型适应新的数据分布

在那之后,也有一些研究探索了类似的想法,例如在测试时进行元学习或在线学习。不过,MIT的这篇论文在以下几个方面做出了贡献:

系统地研究了TTT在ARC挑战赛上的应用:他们详细探讨了数据生成、推理方法和预训练策略等关键因素,并取得了SOTA的结果

提出了"可逆变换下的自洽性"方法:这种创新的推理方法有效地提高了模型在ARC上的性能

结合LoRA等高效的微调技术:这使得TTT在实际应用中更加可行

因此,虽然TTT的概念并非全新,但MIT的研究将其推到了一个新的高度,并展示了其在解决复杂推理任务方面的巨大潜力

MIT的研究做了什么?

MIT的研究人员对TTT进行了深入研究,并将其应用于ARC挑战赛。他们系统地探索了以下几个关键问题:

TTT需要哪些数据?

研究人员比较了两种生成TTT数据的方法:上下文学习(In-Context Learning, ICL)和端到端学习(End-to-End, E2E)。ICL从给定的测试示例 demonstrations 中创建“留一法(Leave-One-Out Cross-Validation,LOOCV)”任务,利用测试样例中的部分数据作为演示,模拟少样本学习的场景。E2E则将每个输入/输出对视为单独的任务。此外,他们还应用了多种几何变换(例如旋转、翻转)来增强数据,创建更多样化的训练样本。结果表明,ICL结合数据增强效果最佳,显著优于单独使用E2E或仅使用ICL

如何高效地进行TTT?

研究人员使用了低秩适应(Low-Rank Adaptation, LoRA) 技术来更新模型参数,这是一种高效的模型微调方法。LoRA的关键在于冻结预训练模型的权重,并在每一层注入可训练的秩分解矩阵。这样可以显著减少需要训练的参数量,从而加快训练速度并降低内存需求

一个关键问题是:应该为每个测试任务训练一个新的LoRA,还是使用所有测试任务生成的数据集训练一个共享的LoRA?研究人员比较了这两种方法,发现为每个测试任务训练一个新的LoRA(Per-task LoRA或FT + TTT)效果更好,显著优于使用共享LoRA(Shared-TTT)的方案。这意味着针对每个测试任务进行个性化的调整比使用通用的调整策略更有效

TTT后如何进行推理?

由于ARC没有思维链(Chain-of-Thought, CoT)的提示,无法直接使用多数投票等方法来提高准确率。为了解决这个问题,研究人员开发了一种名为“可逆变换下的自洽性”(Self-Consistency under Invertible Transformations) 的方法。他们使用可逆函数(例如旋转、平移)对输入进行变换,生成多个版本的输入数据。然后将这些变换后的输入分别馈送给模型,得到相应的输出。最后,将所有输出逆变换回原始空间,并通过多数投票或其他聚合方法选择最佳答案。这种方法通过利用变换的不变性来提高预测的准确性和鲁棒性

TTT前如何进行微调?

研究人员发现,使用ARC训练集中的任务进行微调,并结合少量几何变换进行数据增强,就足以获得良好的性能。而使用更复杂的、基于大型语言模型生成的合成数据进行微调,并没有带来额外的提升

这表明,针对特定任务的数据比通用数据更有效。令人惊讶的是,TTT还能缩小不同规模模型(例如参数量不同的模型)之间的性能差距,这为资源受限的场景提供了新的可能性

实验结果:

在ARC公共验证集上,TTT方法显著提升了各种语言模型的性能。一个经过简单微调的语言模型,在应用TTT后,得分从18分跃升至47分。结合BARC论文中的程序生成模型,最终得分达到了58.5%。更令人振奋的是,使用BARC一周前发布的微调模型进行实验,结合TTT后,得分达到了61%,与人类平均水平相当。Minds AI团队也在私有测试集上取得了类似的成绩,他们是第一个将TTT应用于ARC benchmark的团队。这表明TTT具有巨大的潜力,可以显著提高模型在复杂推理任务上的性能,并且这种方法可以与其他方法(例如程序生成)相结合,进一步提升性能

局限性:

研究人员也坦诚这项研究的一些局限性,包括:由于硬件资源和运行时间限制(12小时运行时间限制在A100 GPU上,而官方提交要求在P100或2xT4 GPU上12小时内完成),难以在私有测试集上进行全面评估;实验缺乏标准误差分析,难以评估结果的统计显著性;以及公开的ARC数据集可能存在数据泄露的风险,即预训练模型可能已经接触过这些数据

业内人士评价:

这项研究也引起了业内人士的关注和讨论。OpenAI的研究员Noam Brown评论道:“通过OpenAI o1,我们开发了一种扩展测试时计算的方法,但这并非唯一的方法,也可能不是最佳方法。我很高兴看到学术研究人员在这个方向上探索新的方法。” 这表明测试时计算正逐渐成为一个重要的研究方向,并且有多种不同的实现方式

Yam Peleg则对这项研究给予了高度评价:“非常巧妙的方法,攻克了ARC挑战赛!测试时增强(TTA)是一种已知的提升性能的方法:在推理过程中多次输入带有噪声或增强的数据,并对预测结果进行平均。但这里他们使用了简单的增强(例如翻转),并在测试集上训练模型来执行这些增强。” 这说明MIT的方法虽然简单,但却非常有效,并且对传统的TTA方法进行了创新

参考:

https://ekinakyurek.github.io/papers/ttt.pdf

Sun, Y., Wang, X., Liu, Z., Miller, J., Efros, A. A., & Darrell, T. (2020). Test-time training for out-of-distribution generalization. arXiv preprint arXiv:2009.13231.

⭐星标AI寒武纪,好内容不错过

用你的在看告诉我~

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
痛心!广西失联18岁女孩李思绮去世,月薪3000,晚上11点才下班

痛心!广西失联18岁女孩李思绮去世,月薪3000,晚上11点才下班

小鋭有话说
2026-06-03 11:19:08
黄仁勋:AI投资或带来“疯狂”回报,“疯子”才会质疑

黄仁勋:AI投资或带来“疯狂”回报,“疯子”才会质疑

IT之家
2026-06-03 19:18:06
纳达尔:打破我在法网的纪录,比打破德约的24冠更难

纳达尔:打破我在法网的纪录,比打破德约的24冠更难

懂球帝
2026-06-03 23:45:34
今早台州一辆问界M9底部起火!刚刚,问界回应:非车辆自身原因导致

今早台州一辆问界M9底部起火!刚刚,问界回应:非车辆自身原因导致

都市快报橙柿互动
2026-06-03 12:22:15
英超俱乐部身价榜:曼城13.2亿第1,利物浦跌8500万,热刺跌1.11亿

英超俱乐部身价榜:曼城13.2亿第1,利物浦跌8500万,热刺跌1.11亿

懂球帝
2026-06-03 19:39:16
筹备3年!周星驰电影《女足》携手两大顶流,压力给到贾玲了

筹备3年!周星驰电影《女足》携手两大顶流,压力给到贾玲了

悠悠说世界
2026-06-03 15:41:07
“这么小就一脸恶婆婆相”,家长晒两个女儿吃饭视频,很难不偏心

“这么小就一脸恶婆婆相”,家长晒两个女儿吃饭视频,很难不偏心

妍妍教育日记
2026-06-03 20:07:24
保罗:西部这些年竞争太惨烈,当年火箭22连胜只上升1-2位

保罗:西部这些年竞争太惨烈,当年火箭22连胜只上升1-2位

懂球帝
2026-06-04 02:05:16
NBA总决赛G1开战前,文班亚马为马刺队友赠送了一份独特的礼物

NBA总决赛G1开战前,文班亚马为马刺队友赠送了一份独特的礼物

夜白侃球
2026-06-03 10:57:38
甘肃最牛诈骗犯,刚出狱就冒充市委副书记,因政绩优秀而被抓

甘肃最牛诈骗犯,刚出狱就冒充市委副书记,因政绩优秀而被抓

神奇的锤子
2025-02-23 22:11:02
买房最后悔的两波人:一波是2019年高价接盘,一波是2026抄底被套

买房最后悔的两波人:一波是2019年高价接盘,一波是2026抄底被套

今朝牛马
2026-06-03 21:30:38
从北大才女到毒枭:3分钟问诊,让10万美国人沦为瘾君子,狂赚1亿

从北大才女到毒枭:3分钟问诊,让10万美国人沦为瘾君子,狂赚1亿

莫地方
2026-06-02 00:10:58
Lisa带球逼宫驴老三失败,独自“抓娃娃”!

Lisa带球逼宫驴老三失败,独自“抓娃娃”!

八卦疯叔
2026-06-03 11:17:00
卖掉开8年的燃油车,花35万买了一辆理想L8,开了6个月,终于明白

卖掉开8年的燃油车,花35万买了一辆理想L8,开了6个月,终于明白

沙雕小琳琳
2026-06-01 06:06:09
山东美女老板“大静静”去世,年仅42岁,日常开路虎,还有貂衣店

山东美女老板“大静静”去世,年仅42岁,日常开路虎,还有貂衣店

裕丰娱间说
2026-06-03 22:42:24
印军上将多年后透露:2020年加勒万那夜,士兵和将军想打,打不动

印军上将多年后透露:2020年加勒万那夜,士兵和将军想打,打不动

贱议你读史
2026-06-03 17:03:53
原来就是她骗了朱丹1600万,她让朱丹倾家荡产,朱丹让她全网社死

原来就是她骗了朱丹1600万,她让朱丹倾家荡产,朱丹让她全网社死

混沌录
2026-06-02 22:58:08
国际足联发言人证实,央视世界杯签约金额创新高,不是六千万美金

国际足联发言人证实,央视世界杯签约金额创新高,不是六千万美金

野渡舟山人
2026-06-03 14:35:47
伟大的2-0!郑钦文终结者大爆冷,掀翻22号种子平纪录首进法网4强

伟大的2-0!郑钦文终结者大爆冷,掀翻22号种子平纪录首进法网4强

大秦壁虎白话体育
2026-06-03 19:08:23
释永信老照片曝光!21岁的他推着师傅去医院看病,看起来老实本分

释永信老照片曝光!21岁的他推着师傅去医院看病,看起来老实本分

火山詩话
2026-06-02 06:21:21
2026-06-04 06:47:01
AI寒武纪 incentive-icons
AI寒武纪
专注于人工智能,科技领域
1040文章数 395关注度
往期回顾 全部

科技要闻

传DeepSeek融资意向500亿:腾讯投100亿

头条要闻

男子不想上班辞职后上武当山当道士 8个月后选择下山

头条要闻

男子不想上班辞职后上武当山当道士 8个月后选择下山

体育要闻

选择中国品牌的库里,和他们的巨大野心

娱乐要闻

官方痛批乱象 刘涛郑恺等艺人遭点名

财经要闻

AI,开始偷懒了?

汽车要闻

专访蒋平:安全不做高低配 长安要让安全技术普惠

态度原创

房产
旅游
本地
时尚
公开课

房产要闻

突发!254亩调规,海口江东的超级学校真的快来了!

旅游要闻

全国A级景区去年接待游客75.1亿人次

本地新闻

用杨柳青年画的方式,打开天津

月经、初潮与生育真相,那些藏在动画片里的性启蒙

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版