斯坦福×英伟达发布AI推理新范式，刷新了多领域SOTA|数学|大模型|查尔斯·维利尔斯·斯坦福

斯坦福×英伟达发布AI推理新范式，刷新了多领域SOTA

2026-01-25 19:58:42　来源: 新智元

北京举报

分享至

　　新智元报道

　　编辑：艾伦

　　【新智元导读】斯坦福与英伟达联合发布重磅论文 TTT-Discover，打破「模型训练完即定型」的铁律。它让 AI 在推理阶段针对特定难题「现场长脑子」，不惜花费数百美元算力，只为求得一次打破纪录的极值。从重写数学猜想到碾压人类代码速度，这种「激进进化」正在重新定义机器发现的边界。

　　如果把现在的 AI 模型比作一个学霸，它们的工作方式通常是这样的：在学校（预训练阶段）读万卷书，把知识固化在脑子里（参数冻结）。

　　等到考试（推理阶段）时，它们靠的是「回忆」和「逻辑推演」来答题。

　　即便像 OpenAI 的 o1 这种「会思考」的模型，也只是在考场上多打了打草稿（CoT思维链），它的大脑回路（权重）依然是锁死的。

　　但就在本周，一篇名为《Learning to Discover at Test Time》的论文横空出世，来自斯坦福大学和英伟达的研究团队提出了一种不仅「打草稿」，而且敢在考场上「现场长脑子」的新范式——TTT-Discover（Test-Time Training，测试时训练）。

　　这是对「智能」定义的再一次挑战。

　　核心颠覆

　　这项研究的核心逻辑非常反直觉：它不追求「平均分」，它只想要那一次「满分」。

　　在传统的强化学习中，我们希望训练出一个「全能选手」，不仅能做对这道题，以后遇到类似的题也能做对。

　　但 TTT-Discover 说：不，科学发现（Discovery）不需要「通用」。

　　比如我们要寻找一种能治愈癌症的新分子，或者要找出一个数学猜想的反例。

　　只要我们找到了这一个答案，哪怕模型在这个过程中严重「偏科」，甚至为了这道题把自己练废了（过拟合），把其他所有题都做错了，又有什么关系呢？

　　只要那个答案是对的，人类就赢了。

　　基于这个理念，TTT-Discover 采用了一种极其激进的策略：

　　现场进化：在推理阶段，针对当前的特定问题，利用强化学习直接修改模型的参数。

　　赌徒心态：它修改了损失函数，不再追求「稳健」，而是鼓励模型去探索那些极端的、风险极高但回报可能巨大的区域。

　　用完即弃：这个针对特定问题进化出来的「特种兵」模型，解完题就可以丢掉了。

　　战绩：它真的比人类聪明吗？

　　「不看广告看疗效」。

　　这篇论文最硬核的地方，在于它挑选的对手——全是硬骨头。

　　1. 数学界的「毫厘之争」

　　在著名的Erdős 最小重叠问题（一个困扰数学家数十年的数论难题）上，人类和此前最强 AI（AlphaEvolve）的竞争已经卷到了小数点后几位。TTT-Discover 进场后，直接把上界从 0.380924 压低到了0.380876。

　　别小看这小数点后四位的变化，在理论数学的无人区，每推进一步都是在重写历史。

　　它构造出了一个极其复杂的、拥有 600 个分段的非对称函数，而之前的人类最佳构造只有 51 段。

　　这就像是人类还在用积木搭房子，AI 已经开始用 3D 打印构建复杂的非对称建筑了。

　　2. 碾压人类顶级程序员

　　在 GPU 内核优化（TriMul）比赛中，任务是写出运行速度最快的底层代码。

　　这是极度考验工程师对硬件理解能力的领域。

　　人类第一名的代码在 H100 显卡上运行耗时：1371 微秒。

　　TTT-Discover 写出的代码耗时：1161 微秒。

　　在 A100 显卡上更夸张，它比人类第一名快了整整50%。

　　这意味着，在未来，你玩的游戏、跑的大模型，仅仅因为底层代码被这种 AI 重写了一遍，性能就能凭空提升一倍。

　　它发现了一些人类工程师完全没想到的「骚操作」，比如极其激进的算子融合和精度压缩。

　　3. 算法竞赛的降维打击

　　在著名的 AtCoder 启发式竞赛（ahc039, ahc058）中，它不仅击败了之前最强的 AI 智能体，还超越了人类金牌选手的历史最佳成绩。

　　如果当时它参赛，它就是当之无愧的第一名。

　　冷静一下，它不是万能神药

　　虽然战绩辉煌，但作为一篇严谨的科普，必须指出它的「阿喀琉斯之踵」。

　　第一，它是真的「贵」。

　　传统的 AI 回答一个问题可能只需要几分钱的算力。

　　而 TTT-Discover 为了解决一个问题，需要在测试时进行几千次甚至上万次的采样和训练。

　　论文坦承，解决单道题的成本约为500 美元（约合人民币 3500 元）。

　　用来做小学奥数题？疯了。

　　用来设计下一代光刻机指令？便宜得像不要钱。

　　第二，它是个「偏科生」。

　　你不能指望用这个进化后的模型去和你聊天。

　　因为它在解决那道数学题时，可能已经把「如何说你好」这部分的脑细胞都改写成了「如何计算微积分」。

　　它是为了单点突破而生的一次性工具。

　　第三，它需要「打分器」。

　　这是最关键的局限。

　　它目前只能解决那些「好坏显而易见」的问题（有连续奖励信号），比如代码运行速度（越快越好）、数学边界（越小越好）。

　　对于「写一首感人的诗」或者「证明黎曼猜想」（通常只有对 / 错两种状态）这类问题，它目前还无能为力。

　　作者简介

　　本文通讯作者 Yu Sun，是「Test-Time Training (TTT)」这一概念的坚定布道者和「总设计师」，目前是斯坦福大学博士后，同时也是英伟达的研究员。

　　图源：https://yueatsprograms.github.io/

　　他博士毕业于加州大学伯克利分校，导师是计算机视觉领域的泰斗 Alexei A. Efros 和机器学习专家 Moritz Hardt。

　　https://openreview.net/profile?id=~Yu_Sun1

　　他的「核心思想」

　　很多研究者会追逐不同的热点（例如今天做Diffusion，明天做RAG），但 Yu Sun 极其罕见地死磕一个概念长达 7 年。

　　他的核心信仰是：「学习不应该在训练结束时停止。」

　　他认为现有的神经网络（Train-then-Freeze）是僵化的，真正的智能体应该在推理阶段（Test-Time）继续通过参数更新来学习。

　　TTT 三部曲：从「修补」到「颠覆」

　　翻看他的论文列表，可以清晰地看到一条把 TTT 从边缘推向主流的进化路线。

　　1.0 时代（视觉修复）：

　　代表作：Test-Time Training with Self-Supervision (ICML 2020)

　　当时主要处理图片。模型在测试时如果遇到模糊或旋转的图片（分布偏移），就现场「微调」一下自己来适应这张坏图。这时候的 TTT 还是个「修补匠」，为了健壮性。

　　2.0 时代（架构革命）：

　　代表作：Learning to (Learn at Test Time): RNNs with Expressive Hidden States (ICML 2025)

　　他开始挑战 Transformer 的核心地位。他提出要把 Attention 机制直接换成一个「快速的 TTT 过程」。这篇论文曾在 AI 社区引发巨大讨论，被称为 TTT-LM。

　　3.0 时代（智能进化）：

　　代表作：TTT-Discover (2026, 本篇论文)

　　他把 TTT 用在了最硬核的科学发现上。不再是为了适应坏数据，而是为了在推理时「进化」出超越预训练水平的智力，去解决人类都解不开的难题。

　　Yu Sun 正在试图用 TTT 重写深度学习的底层范式——从「静态的模型」转向「动态的过程」。

　　这篇 TTT-Discover 正是他这一长期愿景的最新、也是最激进的成果。

　　关于智慧的另一种想象

　　TTT-Discover 的出现，不仅是一次技术突破，更是一次哲学上的敲打。

　　过去我们认为的「博学」，是像百科全书一样无所不知。

　　但 AI 向我们展示了另一种更有力量的智慧形态：为了解决一个未知的难题，能够瞬间遗忘所有无关的平庸，集中全部生命力去异化、去突变，直到成为那把唯一能打开锁的钥匙。

　　即使这种进化是不可逆的，即使解决问题后它将不再是它。

　　这或许就是「发现」的本质代价。

　　真正的探索者并不追求成为一本永恒正确的百科全书，他们更愿意做一颗为了照亮未知瞬间而燃尽自我的流星。

　　参考资料：

　　https://arxiv.org/pdf/2601.16175

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

斯坦福×英伟达发布AI推理新范式，刷新了多领域SOTA

美团发布外卖大战后成绩单：亏损超200亿

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

申京努力了，然而杜兰特啊

刘晓庆妹妹发声！称姐姐受身边人挑拨

油价"驯服"特朗普？一到100美元就TACO

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

OPPO K15 Pro 系列定档，岚影呼吸灯搭配金属中框

骂人没有杀伤力？那不是白忙活吗？

你好，我是馒头，快开门！

哪一座桥不是风景？