网易首页 > 网易号 > 正文 申请入驻

彻底改写Transformer!「能量驱动架构」横空出世,通用推理时代要来了?

0
分享至

新智元报道

编辑:海狸

【新智元导读】UIUC、斯坦福与哈佛联合提出全新「能量驱动Transformer(EBT)」架构,突破传统前馈推理方式,以能量最小化模拟人类System 2思维,预训练扩展性能较Transformer++最高提升35%。下一代AI基础架构新变革,来了!

在Transformer统治AI世界十余年之后,

Attention的时代正在退场,真正的思考刚刚开始——

由UIUC、斯坦福、哈佛等顶尖机构联合提出的Energy-Based Transformer(EBT)震撼登场。

它首次将Transformer架构引入能量建模(Energy-Based Models, EBM)框架,彻底打破「前馈即推理」的旧范式。

论文链接:https://arxiv.org/pdf/2507.02092

EBT既不是轻量化微调,也不是RNN的改进,而是一种彻底不同的推理机制:

模型不再一次性「说完答案」,而是像人类一样从模糊猜测出发,逐步优化推理路径。

EBT训练更高效,推理更精准,对OOD(Out of Distribution)数据更稳健,在训练效率、提升幅度等方面大幅超越前馈式Transformer(Transformer++):

并且,EBT在文本与图像等多模态任务中展现出惊人的扩展性能,有望实现无监督跨模态通用推理。

「一次生成」vs「动态优化」

传统Transformer是一种典型的「前馈预测器」,每次推理过程都是按照从输入prompt,到固定的前向传播路径,再到输出结果一次完成的。

无论问题简单还是复杂,模型都以固定的计算路径和步骤完成推理,无法因难度灵活调整。

每个token都只做一次决策,不进行「反悔」或者「修改」。

这就像一个学生答题时,只能「一遍写完不许改」。

在这种模式下,模型既不能「检查答案」,也无法「修正思路」,更谈不上「深入思考」。

而EBT彻底颠覆了这种机制。

EBT对每个预测都进行多轮优化:

  • 不直接输出token,从随机初始预测开始

  • 模型计算该预测与上下文的「能量值」(兼容性高对应能量低,兼容性差对应能量高)

  • 通过对能量的梯度下降,不断更新预测,逐步将其「调得更合适」

这个过程会持续多轮,直到能量收敛,也就是模型认为这个预测「足够合理」了。

这样EBT最后得到的每个token都是动态计算、多步修正的产物,像在能量地形图中「下山」一样逐步收敛到最优答案。

也就是说,模型的「思考」被建模成了一个小型优化任务,不是一遍完全输出答案,而是反复尝试—验证—更新—收敛。

这个「能量最小化」的过程就是EBT前所未有的System 2 Thinking——更慢,更准,更通用的类人深度思考能力。

EBT「三大跃迁」

EBT的思考过程赋予了它三项关键能力上的根本性突破。

态计算

传统Transformer模型是静态的:每个token、每个预测都使用固定的计算路径和深度,无论问题简单还是复杂,计算量一视同仁。

而EBT拥有动态计算资源分配能力,可以像人一样,遇到简单问题快速处理,遇到困难问题则投入更多思考。

换句话说,EBT可以动态决定要「多想几步」还是「快速收敛」。

不确定度

而且,EBT预测能量的设计决定了它可以在连续空间中表达不确定性。

Transformer虽然能在离散的token输出中使用softmax表示「概率分布」,但在图像、视频等连续 模态中就很难表达不确定性。

EBT预测上下文之间的能量建模,自然地通过能量高低表达了预测的「可信程度」。

这种能力让EBT 能在图像、 视频 等连续任务中识别哪些位置「值得多想」。

自我验证

在能量分数的加持下,EBT天生具备显式的自我验证能力。

每次预测,它都会计算衡量上下文匹配程度的「能量分数」。

这个分数不仅可以用来判断答案是否靠谱,而且可以生成多个候选答案,并挑出能量最低的答案作为最终结果。

这种机制彻底摆脱了对外部打分器或奖励函数的依赖,将「反思」环节引入了模型结构本身。

相比之下,传统架构在「思考能力」上几乎全面溃败。

无论是Feed Forward Transformer还是RNN,都缺乏动态计算分配能力、无法建模连续空间中的不确定性,更谈不上对预测结果进行验证。

就连在生成模型中备受追捧的Diffusion Transformer,也仅在“动态计算”这一项上有所突破,其余两项依然是空白。

相比之下,EBT是目前为止最接近「人类式思考流程」的方案。

越想越准!Transformer望尘莫及

EBT不仅在理论特性上惊艳四座,在实际实验中也表现惊人。

无论有多少数据、加多大批次,模型有多深,EBT都比经典Transformer++学得更快、更省、效果更稳。

具体而言,要达到相同的困惑度(Perplexity),EBT的下降速度快35.98%。也就是说,它只需大约2/3的训练语料,在「数据瓶颈」的情况下更具性价比。

在分布式大批次训练环境下,EBT训练收敛速度比Transformer++快28.46%,深度扩展效率提升5.29%,效率不掉队。

在OOD(Out of Distribution)数据上,EBT也展现出更强的稳健性。

EBT能通过「多轮推理」与「自我验证」大幅缓解泛化性能下降的问题。

相比之下,传统 Transformer++ 的表现几乎不随推理次数改变。

这意味着,哪怕EBT预训练指标比Transformer略差,一旦开始「思考」,它就能后来居上,「越想越准」。

这种「思维带来泛化」的机制,在当前所有主流大模型架构中都是独一无二的。

跨模态通吃:AGI更近一步

只要定义清楚「输入」和「候选预测」,EBT就能在无监督中思考和优化。

EBT的设计不依赖监督、不依赖额外奖励、不局限于文本或编程,天然适用于任意模态与任务。

对于文本,EBT 能自动学出不 同词的规律:简单词能量低,难词能量高,借此自然表达出语义上的不确定性。

在图像任务中,EBT告别Diffusion模型的上百步生成式推理,仅用1%的推理步数就能超越Diffusion Transformer(DiT)在图像去噪和分类上的表现。

视频帧的「不确定性」预测和注意力调整更是不在话下。

这种统一、灵活、高效的推理机制,很可能成为通往「通用智能」的关键。

毕竟,关于大模型的终极疑问始终存在:它们,真的会「思考」吗?

EBT,或许就是首批有资格回答这个问题的架构之一。

参考资料:

https://x.com/AlexiGlad/status/1942231878305714462

https://x.com/du_yilun/status/1942236593479102757

https://arxiv.org/pdf/2507.02092

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
太惊险!浙江2岁男孩和姐姐在水缸旁玩水,姐姐和妈妈短暂离开后,男孩一头栽进水缸差点窒息

太惊险!浙江2岁男孩和姐姐在水缸旁玩水,姐姐和妈妈短暂离开后,男孩一头栽进水缸差点窒息

大象新闻
2026-05-27 20:05:11
国乒迎来大换血!1 人或即将退役,无缘洛杉矶奥运会

国乒迎来大换血!1 人或即将退役,无缘洛杉矶奥运会

酷侃体坛
2026-05-27 09:22:15
巴基斯坦航天员选拔终于结束,我国只给了一个名额!

巴基斯坦航天员选拔终于结束,我国只给了一个名额!

故事终将光明磊落
2026-05-27 16:34:13
黄仁勋:AI时代孩子学什么专业没那么重要 真正要紧的是会不会用AI

黄仁勋:AI时代孩子学什么专业没那么重要 真正要紧的是会不会用AI

快科技
2026-05-26 22:36:05
今夜,芯片股大跌!美伊谈判,又反转?

今夜,芯片股大跌!美伊谈判,又反转?

中国基金报
2026-05-28 00:13:07
苏芒彻底翻车!代言的汽车遭到抵制,接受鲁豫采访的评论区也炸锅

苏芒彻底翻车!代言的汽车遭到抵制,接受鲁豫采访的评论区也炸锅

火山詩话
2026-05-26 11:15:20
14岁小七穿贝嫂的挂脖裙逛街,戴牙套笑容灿烂,进军美妆业受阻

14岁小七穿贝嫂的挂脖裙逛街,戴牙套笑容灿烂,进军美妆业受阻

译言
2026-05-27 09:28:14
真是太阳打西边出来了!

真是太阳打西边出来了!

回京历史梦
2026-05-23 16:27:08
山东一民企飞无人机催县农业局“快还钱”,当地回应:正协商解决

山东一民企飞无人机催县农业局“快还钱”,当地回应:正协商解决

上游新闻
2026-05-26 19:50:19
两性关系:不管你信不信,寿命长的男人,大多都有这6个好习惯

两性关系:不管你信不信,寿命长的男人,大多都有这6个好习惯

刘哥谈体育
2026-05-22 12:25:18
余承东称问界M9是地球上性能最强的SUV,理想高管回应:NB

余承东称问界M9是地球上性能最强的SUV,理想高管回应:NB

识礁Farsight
2026-05-27 19:54:02
弗洛伦蒂诺参选发言:计划打造皇马会员城;继续追查内格雷拉案

弗洛伦蒂诺参选发言:计划打造皇马会员城;继续追查内格雷拉案

懂球帝
2026-05-28 03:25:07
白俄罗斯蠢蠢欲动,乌克兰针锋相对,俄又一艘导弹护卫舰被击沉

白俄罗斯蠢蠢欲动,乌克兰针锋相对,俄又一艘导弹护卫舰被击沉

史政先锋
2026-05-27 17:56:12
反转了!那个戴“金耳环”救灾的女干部,真的不是作秀?

反转了!那个戴“金耳环”救灾的女干部,真的不是作秀?

李昕言温度空间
2026-05-25 20:35:48
老公不让我和男闺蜜单独去大理,我拉黑断联五天,回家后我傻眼了

老公不让我和男闺蜜单独去大理,我拉黑断联五天,回家后我傻眼了

萧竹轻语
2026-04-11 08:40:12
中国不买了,鲁比奥把委内瑞拉石油卖给印度,莫迪还得感谢中方

中国不买了,鲁比奥把委内瑞拉石油卖给印度,莫迪还得感谢中方

潮鹿逐梦
2026-05-28 00:53:14
月吞100万亿Token!AI中转站OpenRouter赚爆了

月吞100万亿Token!AI中转站OpenRouter赚爆了

新智元
2026-05-27 12:57:19
刘亦菲、彭冠英谈了?扒出多个同款,当年《玫瑰的故事》吻戏太真

刘亦菲、彭冠英谈了?扒出多个同款,当年《玫瑰的故事》吻戏太真

手工制作阿歼
2026-05-27 14:11:20
“金小刀”再出鞘 搅动台湾政坛风云

“金小刀”再出鞘 搅动台湾政坛风云

烽火瞭望者
2026-05-27 06:34:10
雷军称计划月底停用推荐码:使用我的推荐码的车主实在太多,我有点扛不住了;此前多次在微博附上自己的推荐码供车主锁单

雷军称计划月底停用推荐码:使用我的推荐码的车主实在太多,我有点扛不住了;此前多次在微博附上自己的推荐码供车主锁单

鲁中晨报
2026-05-25 21:22:20
2026-05-28 04:28:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15321文章数 66892关注度
往期回顾 全部

科技要闻

韬定律:全球在卷纳米数 华为换了一把尺子

头条要闻

特朗普:伊朗即使放弃高浓缩铀也无法获得解除制裁

头条要闻

特朗普:伊朗即使放弃高浓缩铀也无法获得解除制裁

体育要闻

这群老阿姨,是最硬核的马刺球迷

娱乐要闻

王鹤棣风波连累父亲炸串店遭差评?

财经要闻

中国半导体的阳谋

汽车要闻

限时补贴价9.28-10.98万 MG 4X正式上市

态度原创

本地
手机
数码
公开课
军事航空

本地新闻

用剪纸的方式,打开江苏扬州

手机要闻

鸿蒙系统大推送:6.1.0.125已来袭,API 24也转正了!

数码要闻

雷鸟创新双品齐发,GT 系列、V4 正式亮相

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

以军称已打死哈马斯新任军事领导人

无障碍浏览 进入关怀版