网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

彻底改写Transformer！「能量驱动架构」横空出世，通用推理时代要来了？

2025-07-14 11:07:06　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：海狸

【新智元导读】UIUC、斯坦福与哈佛联合提出全新「能量驱动Transformer（EBT）」架构，突破传统前馈推理方式，以能量最小化模拟人类System 2思维，预训练扩展性能较Transformer++最高提升35%。下一代AI基础架构新变革，来了！

在Transformer统治AI世界十余年之后，

Attention的时代正在退场，真正的思考刚刚开始——

由UIUC、斯坦福、哈佛等顶尖机构联合提出的Energy-Based Transformer（EBT）震撼登场。

它首次将Transformer架构引入能量建模（Energy-Based Models, EBM）框架，彻底打破「前馈即推理」的旧范式。

论文链接：https://arxiv.org/pdf/2507.02092

EBT既不是轻量化微调，也不是RNN的改进，而是一种彻底不同的推理机制：

模型不再一次性「说完答案」，而是像人类一样从模糊猜测出发，逐步优化推理路径。

EBT训练更高效，推理更精准，对OOD（Out of Distribution）数据更稳健，在训练效率、提升幅度等方面大幅超越前馈式Transformer（Transformer++）：

并且，EBT在文本与图像等多模态任务中展现出惊人的扩展性能，有望实现无监督跨模态通用推理。

「一次生成」vs「动态优化」

传统Transformer是一种典型的「前馈预测器」，每次推理过程都是按照从输入prompt，到固定的前向传播路径，再到输出结果一次完成的。

无论问题简单还是复杂，模型都以固定的计算路径和步骤完成推理，无法因难度灵活调整。

每个token都只做一次决策，不进行「反悔」或者「修改」。

这就像一个学生答题时，只能「一遍写完不许改」。

在这种模式下，模型既不能「检查答案」，也无法「修正思路」，更谈不上「深入思考」。

而EBT彻底颠覆了这种机制。

EBT对每个预测都进行多轮优化：

不直接输出token，从随机初始预测开始
模型计算该预测与上下文的「能量值」（兼容性高对应能量低，兼容性差对应能量高）
通过对能量的梯度下降，不断更新预测，逐步将其「调得更合适」

这个过程会持续多轮，直到能量收敛，也就是模型认为这个预测「足够合理」了。

这样EBT最后得到的每个token都是动态计算、多步修正的产物，像在能量地形图中「下山」一样逐步收敛到最优答案。

也就是说，模型的「思考」被建模成了一个小型优化任务，不是一遍完全输出答案，而是反复尝试—验证—更新—收敛。

这个「能量最小化」的过程就是EBT前所未有的System 2 Thinking——更慢，更准，更通用的类人深度思考能力。

EBT「三大跃迁」

EBT的思考过程赋予了它三项关键能力上的根本性突破。

动态计算

传统Transformer模型是静态的：每个token、每个预测都使用固定的计算路径和深度，无论问题简单还是复杂，计算量一视同仁。

而EBT拥有动态计算资源分配能力，可以像人一样，遇到简单问题快速处理，遇到困难问题则投入更多思考。

换句话说，EBT可以动态决定要「多想几步」还是「快速收敛」。

不确定度

而且，EBT预测能量的设计决定了它可以在连续空间中表达不确定性。

Transformer虽然能在离散的token输出中使用softmax表示「概率分布」，但在图像、视频等连续模态中就很难表达不确定性。

EBT预测上下文之间的能量建模，自然地通过能量高低表达了预测的「可信程度」。

这种能力让EBT 能在图像、视频等连续任务中识别哪些位置「值得多想」。

自我验证

在能量分数的加持下，EBT天生具备显式的自我验证能力。

每次预测，它都会计算衡量上下文匹配程度的「能量分数」。

这个分数不仅可以用来判断答案是否靠谱，而且可以生成多个候选答案，并挑出能量最低的答案作为最终结果。

这种机制彻底摆脱了对外部打分器或奖励函数的依赖，将「反思」环节引入了模型结构本身。

相比之下，传统架构在「思考能力」上几乎全面溃败。

无论是Feed Forward Transformer还是RNN，都缺乏动态计算分配能力、无法建模连续空间中的不确定性，更谈不上对预测结果进行验证。

就连在生成模型中备受追捧的Diffusion Transformer，也仅在“动态计算”这一项上有所突破，其余两项依然是空白。

相比之下，EBT是目前为止最接近「人类式思考流程」的方案。

越想越准！Transformer望尘莫及

EBT不仅在理论特性上惊艳四座，在实际实验中也表现惊人。

无论有多少数据、加多大批次，模型有多深，EBT都比经典Transformer++学得更快、更省、效果更稳。

具体而言，要达到相同的困惑度（Perplexity），EBT的下降速度快35.98%。也就是说，它只需大约2/3的训练语料，在「数据瓶颈」的情况下更具性价比。

在分布式大批次训练环境下，EBT训练收敛速度比Transformer++快28.46%，深度扩展效率提升5.29%，效率不掉队。

在OOD（Out of Distribution）数据上，EBT也展现出更强的稳健性。

EBT能通过「多轮推理」与「自我验证」大幅缓解泛化性能下降的问题。

相比之下，传统 Transformer++ 的表现几乎不随推理次数改变。

这意味着，哪怕EBT预训练指标比Transformer略差，一旦开始「思考」，它就能后来居上，「越想越准」。

这种「思维带来泛化」的机制，在当前所有主流大模型架构中都是独一无二的。

跨模态通吃：AGI更近一步

只要定义清楚「输入」和「候选预测」，EBT就能在无监督中思考和优化。

EBT的设计不依赖监督、不依赖额外奖励、不局限于文本或编程，天然适用于任意模态与任务。

对于文本，EBT 能自动学出不同词的规律：简单词能量低，难词能量高，借此自然表达出语义上的不确定性。

在图像任务中，EBT告别Diffusion模型的上百步生成式推理，仅用1%的推理步数就能超越Diffusion Transformer（DiT）在图像去噪和分类上的表现。

视频帧的「不确定性」预测和注意力调整更是不在话下。

这种统一、灵活、高效的推理机制，很可能成为通往「通用智能」的关键。

毕竟，关于大模型的终极疑问始终存在：它们，真的会「思考」吗？

EBT，或许就是首批有资格回答这个问题的架构之一。

参考资料：

https://x.com/AlexiGlad/status/1942231878305714462

https://x.com/du_yilun/status/1942236593479102757

https://arxiv.org/pdf/2507.02092

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

PixelRefer ：让AI从“看大图”走向“看懂每个对象”

机器之心Pro 2025-11-11 12:49:23
0 跟贴 0
Transformer作者：DeepSeek才有搞头，OpenAI指望不上了

量子位 2025-09-12 11:07:58
124 跟贴 124

唯快不破：上海AI Lab 82页综述带你感受LLM高效架构的魅力

机器之心Pro 2025-08-25 18:03:35
0 跟贴 0

VLA到RoboOmni，全模态具身新范式让机器人察言观色、听懂画外音

机器之心Pro 2025-11-11 16:04:32
0 跟贴 0
AI秒破18世纪「天书」账本！谷歌新模型盲测刷屏全网

新智元 2025-11-12 18:55:19
9 跟贴 9

雷军挖来前DeepSeek大将！大模型团队40人合影曝光，疑进军具身智能

智东西 2025-11-12 15:45:12
491 跟贴 491

再给老外亿点点震撼？Kimi杨植麟：啥时发K3? 奥特曼的万亿数据中心建成前

华尔街见闻官方 2025-11-12 21:05:19
0 跟贴 0
AI界有自己的「砍一刀」

36氪 2025-11-12 18:53:11
0 跟贴 0

OpenAI，重磅发布！奥尔特曼发声

每日经济新闻 2025-11-13 10:59:10
0 跟贴 0
基于ASPP-Swin Transformer模型的加密流量识别方法

通信世界 2025-10-28 11:31:02
0 跟贴 0
模型不用微调，靠上下文就能自我进化？

机器之心Pro 2025-10-11 20:20:59
0 跟贴 0
刚刚，GPT-5.1发布，OpenAI开始拼情商

机器之心Pro 2025-11-13 10:17:22
0 跟贴 0
百度世界大会直击：首次亮相昆仑芯超节点，单卡性能提升95%，无人驾驶技术已越临界点

华尔街见闻官方 2025-11-13 10:49:56
0 跟贴 0
“AI4S”，对青年科学家意味着什么？

钛媒体APP 2025-11-13 10:49:08
0 跟贴 0
轻量高效，即插即用：Video-RAG为长视频理解带来新范式

机器之心Pro 2025-10-20 18:23:17
0 跟贴 0
模型曝光大量细节，福建舰还有同款姐妹舰？004是核动力？

深蓝航迹 2025-11-12 16:24:44
1 跟贴 1
必须要知道，九个饮食规律，看完瞬间涨知识了！

幽默达人馆 2025-11-11 14:25:27
1 跟贴 1
梅西的动作展示了如何通过身体协调性、空间感知和瞬间决策

足球印象CC 2025-11-10 18:30:27
108 跟贴 108
紫牛热点｜绝味鸭脖标价方式遭吐槽：半斤鸭舌89元，消费者结账直呼太贵

扬子晚报 2025-11-10 19:59:10
6708 跟贴 6708
NeurIPS 25开新坑：145万个图文对，覆盖八种主流水下理解任务

新智元 2025-11-12 10:25:08
0 跟贴 0
娶老婆是有规律的，嫁鸡随鸡嫁狗随狗，老辈口中的门当户对！

日常逗趣集 2025-11-11 11:23:47
1 跟贴 1
朱婷数据决策显神威，新人蔡晓晴关键时刻助河南女排逆转晋级

完善法 2025-11-12 19:35:06
0 跟贴 0
语言之镜：在词与物之间的幽暗地带

想去北极洲 2025-11-12 21:27:09
14 跟贴 14
“大客户”租下百万豪车却人间蒸发，贵阳租车公司找到车后一看：天塌了！

极目新闻 2025-11-12 15:24:31
1810 跟贴 1810
薛岳决策失误，导致重要阵地丢失

果丸影视 2025-11-08 17:51:08
1 跟贴 1
求三角形面积，根据比例模型求解

公考客栈店小二 2025-11-12 14:33:00
0 跟贴 0
字节重新定义编程：开发软件只需动动嘴，程序员沉默了

雷科技 2025-11-12 20:50:24
58 跟贴 58
福特CEO:拆中国电动车后自愧不如发现的东西令人震惊

环球网资讯 2025-11-12 17:06:55
1837 跟贴 1837
国台办发言人读赖氏家庙祖训：怕他没听清我再念一遍

环球网 2025-11-12 11:48:04
72 跟贴 72
女生素颜展示体态，正脸绝了侧脸更绝，好权威的建模！

笑匠老顽童 2025-11-10 16:48:44
1 跟贴 1
人工智能足彩预测斩获23场玩转竞彩中小赛事

网易红彩 2025-11-13 10:12:28
0 跟贴 0
介文汲：“19号舰”模型引热议，网友畅想中国下一代航母！

宁宁妈咪 2025-11-13 00:03:59
0 跟贴 0
推理新范式：动态效能算法让算力资源实现最大化

智东西 2025-11-12 19:58:10
0 跟贴 0
深度长文：意识到底是什么？

宇宙时空 2025-11-13 08:20:47
0 跟贴 0
高速路上的生死决策，一般人很难快速做出选择，预防真的很重要

车神交通汇 2025-11-12 14:04:31
0 跟贴 0
委内瑞拉全面进入战备状态

每日经济新闻 2025-11-12 13:56:01
2281 跟贴 2281
弗雷格的本体论的研究方法及难题

听哲学 2025-11-12 22:24:18
11 跟贴 11
2026高考数学世纪金榜一轮复习第十二节导数的与函数的单调性(15)

邹老实课堂 2025-11-11 12:33:35
1 跟贴 1
最新消息：乌军从扎波罗热五个村庄撤出

参考消息 2025-11-12 17:41:05
1190 跟贴 1190
成都飞三亚机票价格暴涨

华西都市报 2025-11-13 03:22:18
46 跟贴 46

有钩必咬？C罗被记者的问题搞到嘴角疯狂上扬，球迷：蒙着被子SIU

有钩必咬？C罗被记者的问题搞到嘴角疯狂上扬，球迷：蒙着被子SIU

侧身凌空斩

2025-11-13 09:19:07

美媒爆：五角大楼突然取消

陆弃

2025-11-13 10:04:11

山东U20男足主帅韩鹏：四年的准备以这种方式结束，很难接受

山东U20男足主帅韩鹏：四年的准备以这种方式结束，很难接受

懂球帝

2025-11-12 21:22:59

中方：强烈谴责，对遇难者表示深切哀悼

中方：强烈谴责，对遇难者表示深切哀悼

政知新媒体

2025-11-12 15:48:01

黑龙江肇东两挂车相撞起火，消防称驾驶室都烧没了，一名司机烧伤住院

黑龙江肇东两挂车相撞起火，消防称驾驶室都烧没了，一名司机烧伤住院

大风新闻

2025-11-12 18:28:03

我出嫁爸给了5万，堂妹结婚包了20万，爸突发脑梗，打电话给堂姐

我出嫁爸给了5万，堂妹结婚包了20万，爸突发脑梗，打电话给堂姐

小秋情感说

2025-11-11 14:52:14

李彦宏：AI产业结构正转变为健康的“倒金字塔”

李彦宏：AI产业结构正转变为健康的“倒金字塔”

界面新闻

2025-11-13 10:13:03

山姆的“白底牛排”风波：揭开中产阶层的脆弱底线

山姆的“白底牛排”风波：揭开中产阶层的脆弱底线

坠入二次元的海洋

2025-11-13 00:55:25

罗马诺透露皇马对阿隆索的解雇立场，称球队存在一些问题

罗马诺透露皇马对阿隆索的解雇立场，称球队存在一些问题

刘哥谈体育

2025-11-13 07:19:27

下周四川盆地降温至个位数

华西都市报

2025-11-13 03:22:17

退休人员好消息！工龄超30年的人，可享受这几大福利，人人都有

退休人员好消息！工龄超30年的人，可享受这几大福利，人人都有

社保小达人

2025-11-13 10:05:05

妇产科的八卦到底有多离谱？网友：上班就喜欢看这种帖子

妇产科的八卦到底有多离谱？网友：上班就喜欢看这种帖子

解读热点事件

2025-11-11 00:05:03

又被李嘉诚说中了！中国手握两套房以上的家庭，未来只有3种结局

又被李嘉诚说中了！中国手握两套房以上的家庭，未来只有3种结局

林子说事

2025-11-13 00:35:50

11月12日俄乌最新：俄罗斯的计划

11月12日俄乌最新：俄罗斯的计划

西楼饮月

2025-11-12 18:05:03

G7外长在加拿大开两天会

环球时报国际

2025-11-13 10:21:43

建国前夕，华野名将阮英平被三地痞乱棍打死，粟裕：血债血还

建国前夕，华野名将阮英平被三地痞乱棍打死，粟裕：血债血还

历史龙元阁

2025-11-13 10:35:05

是时候说出真相！抗美援朝有五个冷知识很少提及，超乎我们的想象

是时候说出真相！抗美援朝有五个冷知识很少提及，超乎我们的想象

阿光的技巧课堂

2025-11-11 19:56:12

价格“大跳水”的华为旗舰，16GB+512GB暴降2200元，拥有顶级影像

价格“大跳水”的华为旗舰，16GB+512GB暴降2200元，拥有顶级影像

小柱解说游戏

2025-11-13 10:37:49

雷军凌晨发文致谢，小米双11销售额降29亿，高端化赌局赢没赢？

雷军凌晨发文致谢，小米双11销售额降29亿，高端化赌局赢没赢？

小嵩

2025-11-12 22:18:42

撒狗粮！广东夺冠夜徐杰送女友金牌与她自拍留念拉女友参加大

撒狗粮！广东夺冠夜徐杰送女友金牌与她自拍留念拉女友参加大

越岭寻踪

2025-11-13 10:36:08

AI产业主平台领航智能+时代

13853文章数 66246关注度

往期回顾全部

科技要闻

深夜重磅！GPT-5.1发布，奥特曼大谈情商

头条要闻

号称3招追回欠款男子冒用律师身份"套路"多名农民工

头条要闻

号称3招追回欠款男子冒用律师身份"套路"多名农民工

体育要闻

消磨你上千小时的足球游戏，走过第20年

娱乐要闻

一场演唱会，戳穿岳云鹏圈中地位

财经要闻

源峰25亿赌局！汉堡王中国"卖身"求生

汽车要闻

具备高阶辅助驾驶功能欧拉5预售价10.98万起

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

艺术

房产

旅游

手机

家居

艺术要闻

黄君璧：仿古山水册

房产要闻

海垦城建·鹿城壹号品牌发布会暨美学示范区璀璨启幕

旅游要闻

这里藏着趵突泉源头？济南寨而头村的那些事

手机要闻

小米米家 iOS 端 App 获 11.0.200 版本升级

家居要闻

情感之所生活教会设计

© 1997-2025 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版