网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

Meta打碎Transformer 8年铁律！改写AI最底层规则，模型首次冒出潜意识

2025-10-24 10:12:30　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：定慧

【新智元导读】AI最底层规则要被改写，当模型先打腹稿再开口，AI还只是一只概率鹦鹉吗？

Transformer可以说整个LLM的基石，但这个基石要松动了！

8年了！持续了8年的Transformer底层架构似乎要被Meta打破了。

Meta推出「自由Transformer」（Free Transformer）新模型在AI架构领域引发社交媒体热议。

首次打破自2017年以来所有GPT模型的核心规则：不再是逐token盲猜式生成，而是在生成前能「预先思考」。

论文地址：https://arxiv.org/pdf/2510.17558

研究者在解码器中引入了潜在随机变量Z，让模型在输出前进行内部采样与规划，相当于为Transformer增加了一层「潜意识」。

这一创新仅增加约3%的计算开销，却显著提升了模型在推理与结构化生成上的表现，在GSM8K、MMLU、HumanEval等测试中超越更大规模的模型。

Meta称，这可能是第一种「有内在意图」的Transformer。

用潜在随机变量打造机器「潜意识」

Meta在解码器中加入了潜在随机变量(Z)。

可以将其视为生成文本前的「潜意识层」，模型会采样内部选择来引导整个序列的风格或结构。

从技术上讲，这是通过内置在Transformer内部的条件变分自编码器(VAE)实现的。

Meta将其命名为Free Transformer。

不同Transformer架构如何处理名为Z的随机隐藏状态。

图中第一个展示的是标准Transformer，仅根据前序token预测下一个token。

第二个架构增加了随机状态Z，并在训练时使用额外的编码器网络来推断每个样本对应的隐藏状态。

第三种架构名为Free Transformer，简化了这一过程。它直接在模型中间层注入随机状态，而非使用独立的全编码器。在训练过程中，编码器仍被使用一次，以帮助模型学会如何选取良好的隐藏状态，但它仅与网络的一部分协同工作。

在推理过程中，编码器被跳过，随机状态Z被直接采样。

这种设计使模型能够早期做出全局决策，帮助它在没有太多额外计算的情况下产生更一致和稳定的输出。

因此，一半模块充当共享编码器，其余模块则基于该潜在上下文进行解码。

在常规设置中，若使用随机隐藏状态，每次生成文本时都必须同时使用编码器和解码器。

这会使成本翻倍。

自由变换器避免了这一点。

它在训练过程中学习共享的内部结构，之后便丢弃编码器。

在推理时，它直接采样隐藏状态并仅运行解码器。

与标准模型相比，这种设计仅增加约3-4%的FLOPs计算开销，大幅降低了计算负担。

它采用经典的VAE目标进行训练：

交叉熵损失+编码器分布 Q(Z|S)与先验 P(Z)之间的KL散度惩罚项。

Meta使用自由比特阈值(κ)来防止崩溃，仅在散度>κ时添加KL损失。

这使得Z能够编码有用结构（如主题、情感或模式位置）而不会过拟合。

采用KL散度惩罚结合自由比特方法，防止隐状态记忆整个序列。

该架构在堆叠层中部注入隐状态：将学习得到的向量添加到键值中，随后正常继续解码过程。

每个token对应的隐状态从65536种可能性中选取，由16个独立比特构建而成。

关键突破在于——它保留了条件变分自编码器的优势（有助于模型更好地规划），同时消除了通常使其不切实际的额外成本。

这样你就能获得一个更稳定、具有全局感知能力的Transformer，而成本几乎与普通Transformer相同。

它仅在训练期间增加约 3%的计算量就能实现这一点。

普通解码器仅依据已生成的标记来选择下一个标记，这导致它们较晚才能推测全局选择。

FreeTransformer先采样一个微小的随机状态，然后让每个标记都基于该状态生成。

训练时，通过条件变分自编码器将解码器与编码器配对，使模型学会生成有用的隐状态。

结果非常好！

在推理过程中跳过编码器，由均匀采样器选择状态，生成过程正常进行。

这为模型提供了早期的全局决策，减少了在出现小规模标记错误后的脆弱行为。

Meta训练了1.5B和8B的模型。

在GSM8K、HumanEval+和 MMLU等重推理基准测试中的表现显著提升。

1.5B模型模型增益：

HumanEval+得分提升 44%
MBPP测试提升 35%
GSM8K数学题集提升 30%

计算开销仅增加3-4%即实现上述效果。

而且模型保持稳定，没有出现训练崩溃或异常波动。

自由变换器（The FreeTransformer）在架构中增加了一个随机的「隐藏思维层」。

它不只是预测，而是先决策后预测，这可能标志着后自回归时代的开端。

一句话总结，一个微小的编码器添加了有益的偏差，使推理和编码更加可靠。

会思考的Transformer，不再只是「鹦鹉学舌」。

这可能是一个重要节点，Transformer的思维方式被重塑，从「预测下一个词」迈向「思考如何表达」。

潜在变量Z到底学到了什么？

以下是论文给出的测试例子。

合成序列具有固定长度，包含一个由随机字母重复8次构成、位于随机位置的「目标」，以及由感叹号组成的独立同分布噪声，还有一个提示目标字母的提示语。

每条样本以「字母+>」作为提示（如 K>）。
主体是一行固定长度的下划线 _，在随机位置嵌入 8 个相同的大写字母组成的「target」（如KKKKKKKK）。
另外以1/16的概率把任一字符替换成 !，形成独立同分布的噪声

下图则展示了Free Transformer 在该合成任务上、不同K时的生成行为与潜变量Z所承载的信息。

每个模型都给出两组方框：

蓝色方框：每条序列都独立采样一个Z。
绿色方框：整组序列共用同一个Z，便于看出Z是否「锁定」了某些全局属性。

随κ变大（信息从少到多）现象依次为：

κ=log(2)/64（≈1/64 bit）：几乎不从Z编码有用信息，表现像普通无潜变量的解码器；绿色与蓝色差异很小。
κ=log(2)/8（≈1/8 bit）：Z先学会只编码target的位置；绿色方框中target位置在多条样本里保持一致，但噪声 ! 仍随机。
κ=log(2)（1 bit）：Z进一步同时编码target位置与噪声模式；因此绿色方框的多条样本连 ! 的分布也很相似。
κ=8·log(2)（8 bits）：Z承载信息过多，几乎「把整条序列塞进 Z」——导致训练/生成退化（模型过度依赖 Z，输出反而不对）。

这张图用分组对比清楚地示范：允许更大的KL配额会让模型把更多「全局决策」搬到潜变量里；太少不够用，太多会塌陷。

FAIR实验室是真的搞研究

注意到，论文作者François Fleuret，来自Meta的FAIR实验室。

François Fleuret是一位机器学习领域的研究科学家与教育工作者。

他目前担任 Meta Fundamental AI Research（Meta FAIR）「核心学习与推理」（Core Learning & Reasoning）团队的研究科学家。

而众所周知的是，FAIR是Yann LeCun领导的。

今天一个重磅新闻就是，小扎的超级智能实验又裁员了600人。

Yann LeCun都逼的出来发声明了：

「我没有参与任何Llama项目，一直由其他团队负责，我主要是研究超越LLM的下一代人工智能。」

从这个自由Transformer来看，Yann LeCun所言不虚。

虽然他一直反对LLM技术本身，但是这些创新也是拓展AI的边界。

希望小扎能好好对待这位图灵奖大佬。

参考资料：

https://x.com/rryssf_/status/1980998684801401302

https://arxiv.org/abs/2510.17558

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

内蒙古草原名场面！狼偷不着羊，就跟藏獒贴贴，网友：前狼假寐，盖以诱敌

BRTV新闻 2026-02-19 07:15:56
145 跟贴 145
媒体：马克龙真魔怔了在印度还暗戳戳提中国

澎湃新闻 2026-02-18 22:58:24
1717 跟贴 1717

1月外国访日游客数4年来首次同比减少

界面新闻 2026-02-18 17:51:38
9140 跟贴 9140

匈牙利、斯洛伐克宣布暂停向乌克兰出口柴油

财联社 2026-02-18 23:58:05
2278 跟贴 2278
印度一大学拿中国机器狗冒充自研

环球时报 2026-02-18 16:09:05
2162 跟贴 2162

大年初三不拜年？这些老规矩，你可要注意！

大象新闻 2026-02-19 06:12:09
213 跟贴 213

“爸妈来后冰箱都变老了！”网友：原来全国都这样

都市快报橙柿互动 2026-02-18 00:22:49
1032 跟贴 1032
上海市人民政府关于同意《上海崇明江南造船（集团）有限责任公司“9·4”较大中毒和窒息事故调查报告》的批复

上海市人民政府网站 2026-02-19 09:36:00
0 跟贴 0

深圳花市现“反向拍卖”，蝴蝶兰从250元喊到120元成交，店家：最便宜的时候不要钱，但要靠抢

极目新闻 2026-02-18 18:29:21
211 跟贴 211
法国1万人的村庄10年自费办活动庆祝春节负责人发声

极目新闻 2026-02-19 11:18:51
220 跟贴 220
湖南平江小孩哥小孩姐去派出所拜年领1元红包，不少网友直呼“头一次见”，当地回应：特色年俗

江海晚报 2026-02-18 16:32:00
1544 跟贴 1544
单子爆满，提前一个月开始预约！一批00后大学生也上岗了，平均月薪约1.5万元

上观新闻 2026-02-19 08:30:09
16 跟贴 16
媒体：从防守向进攻转变日本海上自卫队加速推进转型

澎湃新闻 2026-02-19 14:25:23
3 跟贴 3
没能赢得一块金牌刘少昂：只要国家需要愿再战四年

澎湃新闻 2026-02-19 10:06:27
2 跟贴 2
英歌舞小女孩站C位，和英歌队员们一起路训

新华社 2026-02-18 17:52:45
145 跟贴 145
日韩股市集体高开日经225指数涨0.57%

证券时报 2026-02-19 08:31:03
453 跟贴 453
苹果官宣：苹果播客即将迎来重大升级

大象新闻 2026-02-17 17:03:08
209 跟贴 209
《自然》发表中国研究成果：修复大脑里一个“错字” 孤独症小鼠恢复了正常

上观新闻 2026-02-19 06:30:08
89 跟贴 89
礼来最新研究公布医药巨头角逐减重药新高地

第一财经资讯 2026-02-19 14:58:08
1 跟贴 1
中国1月Swift人民币在全球支付中占比3.13%

每日经济新闻 2026-02-19 09:12:45
3 跟贴 3
中国游客称因道路积雪被困俄罗斯“极光村” 超40小时，俄媒：滞留游客都已离开

上游新闻 2026-02-17 20:22:05
0 跟贴 0
评论区有人称一家四口亏了4000元

上观新闻 2026-02-19 13:01:26
0 跟贴 0
襄阳烟花店爆炸，是阴谋？

钧言堂 2026-02-19 15:48:59
0 跟贴 0

台海之战，解放军可能面临一个大麻烦：打不掉台军的指挥系统

台海之战，解放军可能面临一个大麻烦：打不掉台军的指挥系统

东极妙严

2026-02-16 16:54:42

卧槽，概率飙到第一，骑士稳了

体育新角度

2026-02-19 12:27:02

59岁王祖贤在加拿大过年！豪宅首曝光厨房狭小，和朋友一起包饺子

59岁王祖贤在加拿大过年！豪宅首曝光厨房狭小，和朋友一起包饺子

娱乐圈圈圆

2026-02-16 18:08:54

李健：不生孩子，不买房，不用微信，讨厌早睡早起，一天吃一顿饭

李健：不生孩子，不买房，不用微信，讨厌早睡早起，一天吃一顿饭

章眽八卦

2026-01-30 12:52:04

库班怒斥：禁止独行侠摆烂，真相太扎心

库班怒斥：禁止独行侠摆烂，真相太扎心

体育新角度

2026-02-19 14:10:37

2000万分手费烧光了？Coco回河南老家直播捞金，素颜出镜回应质疑

2000万分手费烧光了？Coco回河南老家直播捞金，素颜出镜回应质疑

东方不败然多多

2026-02-13 04:25:02

爆雷！悉尼→香港→肯尼亚跨国作弊黑产曝光：专坑中国留学生，赚数百万还反手勒索！

爆雷！悉尼→香港→肯尼亚跨国作弊黑产曝光：专坑中国留学生，赚数百万还反手勒索！

澳洲财经见闻

2026-02-18 04:16:45

汪峰带女友三亚过年，和森林北牵手逛街好浪漫！女方儿女很懂事

汪峰带女友三亚过年，和森林北牵手逛街好浪漫！女方儿女很懂事

陈意小可爱

2026-02-19 03:17:36

小朋友说过最离谱的话是啥？网友：哈哈哈，这个画面感也太强了点

小朋友说过最离谱的话是啥？网友：哈哈哈，这个画面感也太强了点

带你感受人间冷暖

2026-02-05 02:09:15

这8个科学院职责重大，级别有正部级/副战区级、副部级、正厅局级

这8个科学院职责重大，级别有正部级/副战区级、副部级、正厅局级

小圣杂谈原创

2026-02-18 15:11:51

中美博弈本质？英专家：中国触碰了西方300年来最大的“禁忌”

中美博弈本质？英专家：中国触碰了西方300年来最大的“禁忌”

琴音缭绕回

2026-02-14 12:07:27

天助曼城：2-2大冷门，英超第一遭英超倒数第一逼平，连续2轮不胜

天助曼城：2-2大冷门，英超第一遭英超倒数第一逼平，连续2轮不胜

侧身凌空斩

2026-02-19 06:00:01

抠抠嗖嗖省一年，架不住去长隆玩一次！

抠抠嗖嗖省一年，架不住去长隆玩一次！

闲搞机

2026-02-17 11:22:13

你见过哪些闷声发大财的人？网友：干这个买三套房子，两个门面

你见过哪些闷声发大财的人？网友：干这个买三套房子，两个门面

夜深爱杂谈

2026-02-01 18:57:04

华人女孩服役美国军舰，还用中文驱逐中国海军，最终结局令人无奈

华人女孩服役美国军舰，还用中文驱逐中国海军，最终结局令人无奈

谈史论天地

2026-02-19 15:15:40

去了趟拉斯维加斯，这辈子再不想去二回，到处是陷阱防不胜防！

去了趟拉斯维加斯，这辈子再不想去二回，到处是陷阱防不胜防！

天下霸奇

2026-01-29 09:07:49

原来没见过世面的样子都很一致!网友:以为柠檬水硬生生喝了半盆

原来没见过世面的样子都很一致!网友:以为柠檬水硬生生喝了半盆

另子维爱读史

2025-12-23 16:23:36

乌军战力增强，从2月9日起开始反攻，收复200平方公里，趋势向好

乌军战力增强，从2月9日起开始反攻，收复200平方公里，趋势向好

高博新视野

2026-02-17 13:47:05

14亿人都不会忘却！揭开核酸大王张核子的真面具：权力变现大公

14亿人都不会忘却！揭开核酸大王张核子的真面具：权力变现大公

大鱼简科

2026-02-07 09:52:29

炸锅！剧还没播，刘宇宁先把王子文吻上热搜，30cm身高差太绝

炸锅！剧还没播，刘宇宁先把王子文吻上热搜，30cm身高差太绝

喜欢历史的阿繁

2026-02-18 20:10:10

AI产业主平台领航智能+时代

14554文章数 66630关注度

往期回顾全部

科技要闻

怒烧45亿，腾讯字节阿里决战春节

头条要闻

日本挖到含稀土泥浆高市称"下一代、下下代都用不完"

头条要闻

日本挖到含稀土泥浆高市称"下一代、下下代都用不完"

体育要闻

首金！苏翊鸣唱国歌落泪自信比1呐喊

娱乐要闻

明星过年百态！黄晓明等现身三亚

财经要闻

面条火腿香菇酱！上市公司这些年请你吃

汽车要闻

量产甲醇插混吉利银河星耀6甲醇插混版申报图

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

亲子

家居

手机

教育

房产

亲子要闻

韩国近半产后女性深陷身心双重压力经济压力并非首位

家居要闻

本真栖居爱暖伴流年

手机要闻

三星Galaxy S26系列综合前瞻：2nm芯+隐私屏

教育要闻

马年伊始，请带上这10句话整装出发！

房产要闻

顶豪抢房潮席卷全国！中旅馥棠公馆项目395㎡大平层加推入市！

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版