网易首页 > 网易号 > 正文 申请入驻

斯坦福×英伟达发布AI推理新范式,刷新了多领域SOTA

0
分享至


新智元报道

编辑:艾伦

【新智元导读】斯坦福与英伟达联合发布重磅论文 TTT-Discover,打破「模型训练完即定型」的铁律。它让 AI 在推理阶段针对特定难题「现场长脑子」,不惜花费数百美元算力,只为求得一次打破纪录的极值。从重写数学猜想到碾压人类代码速度,这种「激进进化」正在重新定义机器发现的边界。

如果把现在的 AI 模型比作一个学霸,它们的工作方式通常是这样的:在学校(预训练阶段)读万卷书,把知识固化在脑子里(参数冻结)。

等到考试(推理阶段)时,它们靠的是「回忆」和「逻辑推演」来答题。

即便像 OpenAI 的 o1 这种「会思考」的模型,也只是在考场上多打了打草稿(CoT思维链),它的大脑回路(权重)依然是锁死的。

但就在本周,一篇名为《Learning to Discover at Test Time》的论文横空出世,来自斯坦福大学和英伟达的研究团队提出了一种不仅「打草稿」,而且敢在考场上「现场长脑子」的新范式——TTT-Discover(Test-Time Training,测试时训练)。


这是对「智能」定义的再一次挑战。

核心颠覆

这项研究的核心逻辑非常反直觉:它不追求「平均分」,它只想要那一次「满分」。

在传统的强化学习中,我们希望训练出一个「全能选手」,不仅能做对这道题,以后遇到类似的题也能做对。

但 TTT-Discover 说:不,科学发现(Discovery)不需要「通用」。

比如我们要寻找一种能治愈癌症的新分子,或者要找出一个数学猜想的反例。

只要我们找到了这一个答案,哪怕模型在这个过程中严重「偏科」,甚至为了这道题把自己练废了(过拟合),把其他所有题都做错了,又有什么关系呢?

只要那个答案是对的,人类就赢了。

基于这个理念,TTT-Discover 采用了一种极其激进的策略:

  1. 现场进化:在推理阶段,针对当前的特定问题,利用强化学习直接修改模型的参数。

  2. 赌徒心态:它修改了损失函数,不再追求「稳健」,而是鼓励模型去探索那些极端的、风险极高但回报可能巨大的区域。

  3. 用完即弃:这个针对特定问题进化出来的「特种兵」模型,解完题就可以丢掉了。


战绩:它真的比人类聪明吗?

「不看广告看疗效」。

这篇论文最硬核的地方,在于它挑选的对手——全是硬骨头。


1. 数学界的「毫厘之争」

在著名的Erdős 最小重叠问题(一个困扰数学家数十年的数论难题)上,人类和此前最强 AI(AlphaEvolve)的竞争已经卷到了小数点后几位。TTT-Discover 进场后,直接把上界从 0.380924 压低到了0.380876

别小看这小数点后四位的变化,在理论数学的无人区,每推进一步都是在重写历史。


它构造出了一个极其复杂的、拥有 600 个分段的非对称函数,而之前的人类最佳构造只有 51 段。


这就像是人类还在用积木搭房子,AI 已经开始用 3D 打印构建复杂的非对称建筑了。

2. 碾压人类顶级程序员

在 GPU 内核优化(TriMul)比赛中,任务是写出运行速度最快的底层代码。

这是极度考验工程师对硬件理解能力的领域。

  • 人类第一名的代码在 H100 显卡上运行耗时:1371 微秒

  • TTT-Discover 写出的代码耗时:1161 微秒

  • 在 A100 显卡上更夸张,它比人类第一名快了整整50%


这意味着,在未来,你玩的游戏、跑的大模型,仅仅因为底层代码被这种 AI 重写了一遍,性能就能凭空提升一倍。

它发现了一些人类工程师完全没想到的「骚操作」,比如极其激进的算子融合和精度压缩。

3. 算法竞赛的降维打击

在著名的 AtCoder 启发式竞赛(ahc039, ahc058)中,它不仅击败了之前最强的 AI 智能体,还超越了人类金牌选手的历史最佳成绩。


如果当时它参赛,它就是当之无愧的第一名

冷静一下,它不是万能神药

虽然战绩辉煌,但作为一篇严谨的科普,必须指出它的「阿喀琉斯之踵」。

第一,它是真的「贵」。

传统的 AI 回答一个问题可能只需要几分钱的算力。

而 TTT-Discover 为了解决一个问题,需要在测试时进行几千次甚至上万次的采样和训练。

论文坦承,解决单道题的成本约为500 美元(约合人民币 3500 元)。

用来做小学奥数题?疯了。

用来设计下一代光刻机指令?便宜得像不要钱。

第二,它是个「偏科生」。

你不能指望用这个进化后的模型去和你聊天。

因为它在解决那道数学题时,可能已经把「如何说你好」这部分的脑细胞都改写成了「如何计算微积分」。

它是为了单点突破而生的一次性工具

第三,它需要「打分器」。

这是最关键的局限。

它目前只能解决那些「好坏显而易见」的问题(有连续奖励信号),比如代码运行速度(越快越好)、数学边界(越小越好)。

对于「写一首感人的诗」或者「证明黎曼猜想」(通常只有对 / 错两种状态)这类问题,它目前还无能为力。

作者简介

本文通讯作者 Yu Sun,是「Test-Time Training (TTT)」这一概念的坚定布道者和「总设计师」,目前是斯坦福大学博士后,同时也是英伟达的研究员。


图源:https://yueatsprograms.github.io/

他博士毕业于加州大学伯克利分校,导师是计算机视觉领域的泰斗 Alexei A. Efros 和机器学习专家 Moritz Hardt。


https://openreview.net/profile?id=~Yu_Sun1

他的「核心思想」

很多研究者会追逐不同的热点(例如今天做 Diffusion,明天做 RAG),但 Yu Sun 极其罕见地死磕一个概念长达 7 年。

他的核心信仰是:「学习不应该在训练结束时停止。」

他认为现有的神经网络(Train-then-Freeze)是僵化的,真正的智能体应该在推理阶段(Test-Time)继续通过参数更新来学习。

TTT 三部曲:从「修补」到「颠覆」

翻看他的论文列表,可以清晰地看到一条把 TTT 从边缘推向主流的进化路线。

  • 1.0 时代(视觉修复):

    • 代表作:Test-Time Training with Self-Supervision (ICML 2020)

    • 当时主要处理图片。模型在测试时如果遇到模糊或旋转的图片(分布偏移),就现场「微调」一下自己来适应这张坏图。这时候的 TTT 还是个「修补匠」,为了健壮性。


  • 2.0 时代(架构革命):

    • 代表作:Learning to (Learn at Test Time): RNNs with Expressive Hidden States (ICML 2025)

    • 他开始挑战 Transformer 的核心地位。他提出要把 Attention 机制直接换成一个「快速的 TTT 过程」。这篇论文曾在 AI 社区引发巨大讨论,被称为 TTT-LM。


  • 3.0 时代(智能进化):

    • 代表作:TTT-Discover (2026, 本篇论文)

    • 他把 TTT 用在了最硬核的科学发现上。不再是为了适应坏数据,而是为了在推理时「进化」出超越预训练水平的智力,去解决人类都解不开的难题。

Yu Sun 正在试图用 TTT 重写深度学习的底层范式——从「静态的模型」转向「动态的过程」。

这篇 TTT-Discover 正是他这一长期愿景的最新、也是最激进的成果。

关于智慧的另一种想象

TTT-Discover 的出现,不仅是一次技术突破,更是一次哲学上的敲打。

过去我们认为的「博学」,是像百科全书一样无所不知。

但 AI 向我们展示了另一种更有力量的智慧形态:为了解决一个未知的难题,能够瞬间遗忘所有无关的平庸,集中全部生命力去异化、去突变,直到成为那把唯一能打开锁的钥匙。

即使这种进化是不可逆的,即使解决问题后它将不再是它。

这或许就是「发现」的本质代价。

真正的探索者并不追求成为一本永恒正确的百科全书,他们更愿意做一颗为了照亮未知瞬间而燃尽自我的流星。

参考资料:

https://arxiv.org/pdf/2601.16175


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
国安部“点名”张艺谋,释放三个强烈信号,原来我们确实低估他了

国安部“点名”张艺谋,释放三个强烈信号,原来我们确实低估他了

东方不败然多多
2026-01-26 02:32:31
没想到!边角料球员,7投7中 成为广东队赢山西的奇兵

没想到!边角料球员,7投7中 成为广东队赢山西的奇兵

体育哲人
2026-01-25 09:22:16
张帅上演惊天逆转进女双16强,王欣瑜战药娃时间确定被赔率唱衰

张帅上演惊天逆转进女双16强,王欣瑜战药娃时间确定被赔率唱衰

网球之家
2026-01-25 22:08:09
吉娜的身材一言难尽,腿型好难看,内衣垫子太多了,看着很假!

吉娜的身材一言难尽,腿型好难看,内衣垫子太多了,看着很假!

小娱乐悠悠
2026-01-23 10:02:08
晚上8点!CBA公司给迪亚洛开出大罚单,潘江也被罚款

晚上8点!CBA公司给迪亚洛开出大罚单,潘江也被罚款

体育哲人
2026-01-25 20:18:20
“富婆”李湘栽了:这20年的钱,她到底赚得有多野?

“富婆”李湘栽了:这20年的钱,她到底赚得有多野?

红大娘娱乐
2026-01-18 17:20:47
他曾担任红军最高指挥官,赴苏联后便神秘失联,新中国成立之后,毛主席依旧惦记着他,一直没有停止寻找

他曾担任红军最高指挥官,赴苏联后便神秘失联,新中国成立之后,毛主席依旧惦记着他,一直没有停止寻找

寄史言志
2025-12-23 12:05:14
克林顿不是男人!要用雪茄助兴?莱温斯基:他把我当成“自助餐”

克林顿不是男人!要用雪茄助兴?莱温斯基:他把我当成“自助餐”

老蝣说体育
2026-01-05 14:59:04
曾仕强:当你无路可走的时候,你要想到有神明在救你

曾仕强:当你无路可走的时候,你要想到有神明在救你

杏花烟雨江南的碧园
2025-12-04 15:10:03
38+33+32+30!回来了!NBA第一攻击型大中锋

38+33+32+30!回来了!NBA第一攻击型大中锋

篮球实战宝典
2026-01-25 18:10:46
郭艾伦依旧神勇,他只是不如从前的自己,不是不如现在的年轻人!

郭艾伦依旧神勇,他只是不如从前的自己,不是不如现在的年轻人!

徐觳解说
2026-01-26 04:28:10
一场伟大的胜利!第4艘航母细节曝光,弃用10万吨核动力,美方慌了

一场伟大的胜利!第4艘航母细节曝光,弃用10万吨核动力,美方慌了

芯火相承
2026-01-25 18:01:24
祝贺!福州大学院长

祝贺!福州大学院长

植物研究进展
2026-01-25 23:14:41
李兴湖卸任福建省副省长

李兴湖卸任福建省副省长

上观新闻
2026-01-25 21:27:04
汉武帝玩了一招阳谋,专挑春季发兵打匈奴,致使女人流产人口锐减

汉武帝玩了一招阳谋,专挑春季发兵打匈奴,致使女人流产人口锐减

掠影后有感
2026-01-25 11:33:06
支持率暴跌57%,高市麻烦大了,日新首相出炉,对中国态度不一般

支持率暴跌57%,高市麻烦大了,日新首相出炉,对中国态度不一般

知法而形
2026-01-25 19:26:16
他贪污百亿美元,家中黄金成吨,妻子一晚花500万,名字听着耳熟

他贪污百亿美元,家中黄金成吨,妻子一晚花500万,名字听着耳熟

华人星光
2026-01-22 11:33:01
美国运动员霍诺德成功徒手攀爬508米高台北101,耗时约1小时31分钟

美国运动员霍诺德成功徒手攀爬508米高台北101,耗时约1小时31分钟

潇湘晨报
2026-01-25 12:00:17
夫妇网购娃娃菜食用后中毒,检出鼠药成分,警方已受案 平台:下架商家商品,配合调查

夫妇网购娃娃菜食用后中毒,检出鼠药成分,警方已受案 平台:下架商家商品,配合调查

红星新闻
2026-01-24 19:30:49
向太唱衰李亚鹏!称全民拯救也没用,李亚鹏没能力又烂好心是硬伤

向太唱衰李亚鹏!称全民拯救也没用,李亚鹏没能力又烂好心是硬伤

离离言几许
2026-01-24 00:01:10
2026-01-26 05:00:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14411文章数 66530关注度
往期回顾 全部

科技要闻

黄仁勋在上海逛菜市场,可能惦记着三件事

头条要闻

委代总统控诉遭美国威胁:不配合就杀了你们

头条要闻

委代总统控诉遭美国威胁:不配合就杀了你们

体育要闻

中国足球不会一夜变强,但他们已经创造历史

娱乐要闻

央八开播 杨紫胡歌主演的40集大剧来了

财经要闻

隋广义等80人被公诉 千亿骗局进入末路

汽车要闻

别克至境E7内饰图曝光 新车将于一季度正式发布

态度原创

家居
亲子
健康
数码
公开课

家居要闻

在家度假 160平南洋混搭宅

亲子要闻

2026年宝宝面霜硬核测评:秋冬红干敏救星,这三款闭眼入!

耳石脱落为何让人天旋地转+恶心?

数码要闻

AMD最强APU更新!锐龙AI Max+ 400详细规格曝光:5.2GHz CPU、3.0GHz GPU

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版