网易首页 > 网易号 > 正文 申请入驻

彻底改写Transformer!「能量驱动架构」横空出世,通用推理时代要来了?

0
分享至


新智元报道

编辑:海狸

【新智元导读】UIUC、斯坦福与哈佛联合提出全新「能量驱动Transformer(EBT)」架构,突破传统前馈推理方式,以能量最小化模拟人类System 2思维,预训练扩展性能较Transformer++最高提升35%。下一代AI基础架构新变革,来了!

在Transformer统治AI世界十余年之后,

Attention的时代正在退场,真正的思考刚刚开始——

由UIUC、斯坦福、哈佛等顶尖机构联合提出的Energy-Based Transformer(EBT)震撼登场。

它首次将Transformer架构引入能量建模(Energy-Based Models, EBM)框架,彻底打破「前馈即推理」的旧范式。


论文链接:https://arxiv.org/pdf/2507.02092

EBT既不是轻量化微调,也不是RNN的改进,而是一种彻底不同的推理机制:

模型不再一次性「说完答案」,而是像人类一样从模糊猜测出发,逐步优化推理路径。


EBT训练更高效,推理更精准,对OOD(Out of Distribution)数据更稳健,在训练效率、提升幅度等方面大幅超越前馈式Transformer(Transformer++):


并且,EBT在文本与图像等多模态任务中展现出惊人的扩展性能,有望实现无监督跨模态通用推理。

「一次生成」vs「动态优化」

传统Transformer是一种典型的「前馈预测器」,每次推理过程都是按照从输入prompt,到固定的前向传播路径,再到输出结果一次完成的。

无论问题简单还是复杂,模型都以固定的计算路径和步骤完成推理,无法因难度灵活调整。

每个token都只做一次决策,不进行「反悔」或者「修改」。

这就像一个学生答题时,只能「一遍写完不许改」。

在这种模式下,模型既不能「检查答案」,也无法「修正思路」,更谈不上「深入思考」。


而EBT彻底颠覆了这种机制。

EBT对每个预测都进行多轮优化:

  • 不直接输出token,从随机初始预测开始

  • 模型计算该预测与上下文的「能量值」(兼容性高对应能量低,兼容性差对应能量高)

  • 通过对能量的梯度下降,不断更新预测,逐步将其「调得更合适」

这个过程会持续多轮,直到能量收敛,也就是模型认为这个预测「足够合理」了。

这样EBT最后得到的每个token都是动态计算、多步修正的产物,像在能量地形图中「下山」一样逐步收敛到最优答案。

也就是说,模型的「思考」被建模成了一个小型优化任务,不是一遍完全输出答案,而是反复尝试—验证—更新—收敛。


这个「能量最小化」的过程就是EBT前所未有的System 2 Thinking——更慢,更准,更通用的类人深度思考能力。

EBT「三大跃迁」

EBT的思考过程赋予了它三项关键能力上的根本性突破。

态计算

传统Transformer模型是静态的:每个token、每个预测都使用固定的计算路径和深度,无论问题简单还是复杂,计算量一视同仁。

而EBT拥有动态计算资源分配能力,可以像人一样,遇到简单问题快速处理,遇到困难问题则投入更多思考。

换句话说,EBT可以动态决定要「多想几步」还是「快速收敛」。

不确定度

而且,EBT预测能量的设计决定了它可以在连续空间中表达不确定性。

Transformer虽然能在离散的token输出中使用softmax表示「概率分布」,但在图像、视频等连续 模态中就很难表达不确定性。

EBT预测上下文之间的能量建模,自然地通过能量高低表达了预测的「可信程度」。

这种能力让EBT 能在图像、 视频 等连续任务中识别哪些位置「值得多想」。


自我验证

在能量分数的加持下,EBT天生具备显式的自我验证能力。

每次预测,它都会计算衡量上下文匹配程度的「能量分数」。

这个分数不仅可以用来判断答案是否靠谱,而且可以生成多个候选答案,并挑出能量最低的答案作为最终结果。

这种机制彻底摆脱了对外部打分器或奖励函数的依赖,将「反思」环节引入了模型结构本身。

相比之下,传统架构在「思考能力」上几乎全面溃败。


无论是Feed Forward Transformer还是RNN,都缺乏动态计算分配能力、无法建模连续空间中的不确定性,更谈不上对预测结果进行验证。

就连在生成模型中备受追捧的Diffusion Transformer,也仅在“动态计算”这一项上有所突破,其余两项依然是空白。

相比之下,EBT是目前为止最接近「人类式思考流程」的方案。

越想越准!Transformer望尘莫及

EBT不仅在理论特性上惊艳四座,在实际实验中也表现惊人。

无论有多少数据、加多大批次,模型有多深,EBT都比经典Transformer++学得更快、更省、效果更稳。

具体而言,要达到相同的困惑度(Perplexity),EBT的下降速度快35.98%。也就是说,它只需大约2/3的训练语料,在「数据瓶颈」的情况下更具性价比。

在分布式大批次训练环境下,EBT训练收敛速度比Transformer++快28.46%,深度扩展效率提升5.29%,效率不掉队。


在OOD(Out of Distribution)数据上,EBT也展现出更强的稳健性。

EBT能通过「多轮推理」与「自我验证」大幅缓解泛化性能下降的问题。

相比之下,传统 Transformer++ 的表现几乎不随推理次数改变。


这意味着,哪怕EBT预训练指标比Transformer略差,一旦开始「思考」,它就能后来居上,「越想越准」。

这种「思维带来泛化」的机制,在当前所有主流大模型架构中都是独一无二的。

跨模态通吃:AGI更近一步

只要定义清楚「输入」和「候选预测」,EBT就能在无监督中思考和优化。

EBT的设计不依赖监督、不依赖额外奖励、不局限于文本或编程,天然适用于任意模态与任务。

对于文本,EBT 能自动学出不 同词的规律:简单词能量低,难词能量高,借此自然表达出语义上的不确定性。


在图像任务中,EBT告别Diffusion模型的上百步生成式推理,仅用1%的推理步数就能超越Diffusion Transformer(DiT)在图像去噪和分类上的表现。


视频帧的「不确定性」预测和注意力调整更是不在话下。


这种统一、灵活、高效的推理机制,很可能成为通往「通用智能」的关键。

毕竟,关于大模型的终极疑问始终存在:它们,真的会「思考」吗?

EBT,或许就是首批有资格回答这个问题的架构之一。

参考资料:

https://x.com/AlexiGlad/status/1942231878305714462

https://x.com/du_yilun/status/1942236593479102757

https://arxiv.org/pdf/2507.02092


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
西兰花保质期2年,西贝门店回应了!但鸡汤又被爆料?餐饮大佬集体声援西贝

西兰花保质期2年,西贝门店回应了!但鸡汤又被爆料?餐饮大佬集体声援西贝

新民晚报
2025-09-14 09:02:57
60岁张曼玉定居法国农村!戴LV眼镜钻鸡窝收鸡蛋,和农妇没啥区别

60岁张曼玉定居法国农村!戴LV眼镜钻鸡窝收鸡蛋,和农妇没啥区别

小兰聊历史
2025-09-12 18:05:30
短短一天,特朗普就像变了个人!看来柯克的死,对特朗普打击太大

短短一天,特朗普就像变了个人!看来柯克的死,对特朗普打击太大

青青子衿
2025-09-14 02:56:02
程青松关注列表被扒,曝全是肌肉男,颜值堪比于朦胧,私聊太污

程青松关注列表被扒,曝全是肌肉男,颜值堪比于朦胧,私聊太污

以茶带书
2025-09-13 12:19:28
国税总局原副局长许善达:五口之家月收入4000元就够…

国税总局原副局长许善达:五口之家月收入4000元就够…

霹雳炮
2025-09-13 22:20:56
女子在虹梅路地道摔死续:网友吵翻!上坡密集减速带再受质疑

女子在虹梅路地道摔死续:网友吵翻!上坡密集减速带再受质疑

上观新闻
2025-09-14 12:20:07
中美日三国平均寿命差距悬殊:日本84岁、美国79岁,中国令人意外

中美日三国平均寿命差距悬殊:日本84岁、美国79岁,中国令人意外

揽星河的笔记
2025-09-14 11:08:15
南昌摸头事件后续:通报已出 男子被拘留 好戏还在后头,悔不当初

南昌摸头事件后续:通报已出 男子被拘留 好戏还在后头,悔不当初

鋭娱之乐
2025-09-13 11:14:37
难怪一提到给农民涨养老金,就强烈反对,原来都是这些人从中使坏

难怪一提到给农民涨养老金,就强烈反对,原来都是这些人从中使坏

一针见娱
2025-09-13 23:25:04
金正男之子金韩松:父亲根本不涉政治,始终嘱我彻底忘却身世羁绊

金正男之子金韩松:父亲根本不涉政治,始终嘱我彻底忘却身世羁绊

李博世财经
2025-09-14 09:45:17
为何“贪官抓不尽,春风吹又生”,李向安:震慑不够,治标不治本

为何“贪官抓不尽,春风吹又生”,李向安:震慑不够,治标不治本

孙玉良
2025-09-13 13:45:06
中央巡视组进驻后,徐昊、管亚光被查

中央巡视组进驻后,徐昊、管亚光被查

鲁中晨报
2025-09-13 22:06:03
侯友宜不再隐藏!公开反对两岸统一,郑丽文被迫改口,王金平站队

侯友宜不再隐藏!公开反对两岸统一,郑丽文被迫改口,王金平站队

今日美食分享
2025-09-13 14:21:32
4-1赢下国乒内战!孙颖莎跻身澳门冠军赛决赛,PK王曼昱争冠

4-1赢下国乒内战!孙颖莎跻身澳门冠军赛决赛,PK王曼昱争冠

全景体育V
2025-09-14 14:03:19
人民日报:12岁前,请逼孩子养成这5个好习惯,他会感激你一辈子!(家长必读)

人民日报:12岁前,请逼孩子养成这5个好习惯,他会感激你一辈子!(家长必读)

掌门1对1
2025-09-12 12:38:33
1小时爆卖230亿!李书福杭州湾库里南,一夜间血洗BBA

1小时爆卖230亿!李书福杭州湾库里南,一夜间血洗BBA

象视汽车
2025-09-14 07:00:13
“几乎没人”!西贝客流断崖式减少,门店负责人:羊肉每年一次集采冷冻发往全国,我们不可能天天杀羊

“几乎没人”!西贝客流断崖式减少,门店负责人:羊肉每年一次集采冷冻发往全国,我们不可能天天杀羊

大风新闻
2025-09-14 10:53:30
8家银行被罚1.487亿元!多张罚单,集中公布……

8家银行被罚1.487亿元!多张罚单,集中公布……

大象新闻
2025-09-14 09:43:05
新中国第一代高级干部名单大全,收藏!

新中国第一代高级干部名单大全,收藏!

霹雳炮
2025-09-13 22:02:41
孙颖莎4-1迪亚兹晋级,可贵的不是进4强,而是赛后的高情商发言

孙颖莎4-1迪亚兹晋级,可贵的不是进4强,而是赛后的高情商发言

詹妹侃体育
2025-09-13 22:26:19
2025-09-14 15:27:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13443文章数 66149关注度
往期回顾 全部

科技要闻

L3级车型要来了!辅助驾驶迎重大利好

头条要闻

上海女子骑车过有14条减速带的地道摔死 工作人员回应

头条要闻

上海女子骑车过有14条减速带的地道摔死 工作人员回应

体育要闻

3次遭争议判罚!皇马向FIFA投诉西甲裁判

娱乐要闻

彪悍那英,大女人与旧妻子

财经要闻

西贝贾国龙,“错”得离谱

汽车要闻

混动狂潮 835马力V12 阿斯顿·马丁的最后浪漫

态度原创

手机
教育
艺术
游戏
军事航空

手机要闻

魅族 22 搭载无界超级天线架构,支持 mSmart 智选优网 SNS 技术

教育要闻

案例分享-十|精彩人生从报志愿开始设计

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

猎魂世界:下个角色到底该是啥系别呢?这两个牌子哪个会被翻中?

军事要闻

多国将承认巴勒斯坦国 支持"两国方案"

无障碍浏览 进入关怀版