网易首页 > 网易号 > 正文 申请入驻

Meta打碎Transformer 8年铁律!改写AI最底层规则,模型首次冒出潜意识

0
分享至


新智元报道

编辑:定慧

【新智元导读】AI最底层规则要被改写,当模型先打腹稿再开口,AI还只是一只概率鹦鹉吗?

Transformer可以说整个LLM的基石,但这个基石要松动了!

8年了!持续了8年的Transformer底层架构似乎要被Meta打破了。

Meta推出自由Transformer」(Free Transformer新模型在AI架构领域引发社交媒体热议。

首次打破自2017年以来所有GPT模型的核心规则:不再是逐token盲猜式生成,而是在生成前能「预先思考」


论文地址:https://arxiv.org/pdf/2510.17558

研究者在解码器中引入了潜在随机变量Z,让模型在输出前进行内部采样与规划,相当于为Transformer增加了一层「潜意识」

这一创新仅增加约3%的计算开销,却显著提升了模型在推理与结构化生成上的表现,在GSM8K、MMLU、HumanEval等测试中超越更大规模的模型。

Meta称,这可能是第一种「有内在意图」的Transformer。

用潜在随机变量打造机器「潜意识」

Meta在解码器中加入了潜在随机变量(Z)。

可以将其视为生成文本前的「潜意识层」,模型会采样内部选择来引导整个序列的风格或结构。

从技术上讲,这是通过内置在Transformer内部的条件变分自编码器(VAE)实现的。

Meta将其命名为Free Transformer。


不同Transformer架构如何处理名为Z的随机隐藏状态。

图中第一个展示的是标准Transformer,仅根据前序token预测下一个token。

第二个架构增加了随机状态Z,并在训练时使用额外的编码器网络来推断每个样本对应的隐藏状态。

第三种架构名为Free Transformer,简化了这一过程。它直接在模型中间层注入随机状态,而非使用独立的全编码器。在训练过程中,编码器仍被使用一次,以帮助模型学会如何选取良好的隐藏状态,但它仅与网络的一部分协同工作。

在推理过程中,编码器被跳过,随机状态Z被直接采样。

这种设计使模型能够早期做出全局决策,帮助它在没有太多额外计算的情况下产生更一致和稳定的输出。

因此,一半模块充当共享编码器,其余模块则基于该潜在上下文进行解码。

在常规设置中,若使用随机隐藏状态,每次生成文本时都必须同时使用编码器和解码器。

这会使成本翻倍。

自由变换器避免了这一点。

它在训练过程中学习共享的内部结构,之后便丢弃编码器。

在推理时,它直接采样隐藏状态并仅运行解码器。

与标准模型相比,这种设计仅增加约3-4%的FLOPs计算开销,大幅降低了计算负担。


它采用经典的VAE目标进行训练:

交叉熵损失+编码器分布 Q(Z|S)与先验 P(Z)之间的KL散度惩罚项。

Meta使用自由比特阈值(κ)来防止崩溃,仅在散度>κ时添加KL损失。

这使得Z能够编码有用结构(如主题、情感或模式位置)而不会过拟合。

采用KL散度惩罚结合自由比特方法,防止隐状态记忆整个序列。

该架构在堆叠层中部注入隐状态:将学习得到的向量添加到键值中,随后正常继续解码过程。

每个token对应的隐状态从65536种可能性中选取,由16个独立比特构建而成。

关键突破在于——它保留了条件变分自编码器的优势(有助于模型更好地规划),同时消除了通常使其不切实际的额外成本。

这样你就能获得一个更稳定、具有全局感知能力的Transformer,而成本几乎与普通Transformer相同。

它仅在训练期间增加约 3%的计算量就能实现这一点。

普通解码器仅依据已生成的标记来选择下一个标记,这导致它们较晚才能推测全局选择。

FreeTransformer先采样一个微小的随机状态,然后让每个标记都基于该状态生成。

训练时,通过条件变分自编码器将解码器与编码器配对,使模型学会生成有用的隐状态。

结果非常好!

在推理过程中跳过编码器,由均匀采样器选择状态,生成过程正常进行。

这为模型提供了早期的全局决策,减少了在出现小规模标记错误后的脆弱行为。

Meta训练了1.5B8B的模型。

在GSM8K、HumanEval+和 MMLU等重推理基准测试中的表现显著提升。

1.5B模型模型增益:

  • HumanEval+得分提升 44%

  • MBPP测试提升 35%

  • GSM8K数学题集提升 30%


计算开销仅增加3-4%即实现上述效果。

而且模型保持稳定,没有出现训练崩溃或异常波动。

自由变换器(The FreeTransformer)在架构中增加了一个随机的「隐藏思维层」。


它不只是预测,而是先决策后预测,这可能标志着后自回归时代的开端。

一句话总结,一个微小的编码器添加了有益的偏差,使推理和编码更加可靠。

会思考的Transformer,不再只是「鹦鹉学舌」。

这可能是一个重要节点,Transformer的思维方式被重塑,从「预测下一个词」迈向「思考如何表达」。

潜在变量Z到底学到了什么?

以下是论文给出的测试例子。

合成序列具有固定长度,包含一个由随机字母重复8次构成、位于随机位置的「目标」,以及由感叹号组成的独立同分布噪声,还有一个提示目标字母的提示语。

  • 每条样本以「字母+>」作为提示(如 K>)。

  • 主体是一行固定长度的下划线 _,在随机位置嵌入 8 个相同的大写字母组成的「target」(如KKKKKKKK)。

  • 另外以1/16的概率把任一字符替换成 !,形成独立同分布的噪声


下图则展示了Free Transformer 在该合成任务上、不同K时的生成行为与潜变量Z所承载的信息


每个模型都给出两组方框:

  • 蓝色方框:每条序列都独立采样一个Z。

  • 绿色方框:整组序列共用同一个Z,便于看出Z是否「锁定」了某些全局属性。

随κ变大(信息从少到多)现象依次为:

  1. κ=log(2)/64(≈1/64 bit):几乎不从Z编码有用信息,表现像普通无潜变量的解码器;绿色与蓝色差异很小。

  2. κ=log(2)/8(≈1/8 bit):Z先学会只编码target的位置;绿色方框中target位置在多条样本里保持一致,但噪声 ! 仍随机。

  3. κ=log(2)(1 bit):Z进一步同时编码target位置与噪声模式;因此绿色方框的多条样本连 ! 的分布也很相似。

  4. κ=8·log(2)(8 bits):Z承载信息过多,几乎「把整条序列塞进 Z」——导致训练/生成退化(模型过度依赖 Z,输出反而不对)。

这张图用分组对比清楚地示范:允许更大的KL配额会让模型把更多「全局决策」搬到潜变量里;太少不够用,太多会塌陷。

FAIR实验室是真的搞研究

注意到,论文作者François Fleuret,来自Meta的FAIR实验室。

François Fleuret是一位机器学习领域的研究科学家与教育工作者。


他目前担任 Meta Fundamental AI Research(Meta FAIR)「核心学习与推理」(Core Learning & Reasoning)团队的研究科学家。

而众所周知的是,FAIR是Yann LeCun领导的。

今天一个重磅新闻就是,小扎的超级智能实验又裁员了600人。

Yann LeCun都逼的出来发声明了:

「我没有参与任何Llama项目,一直由其他团队负责,我主要是研究超越LLM的下一代人工智能。」


从这个自由Transformer来看,Yann LeCun所言不虚。

虽然他一直反对LLM技术本身,但是这些创新也是拓展AI的边界。

希望小扎能好好对待这位图灵奖大佬。

参考资料:

https://x.com/rryssf_/status/1980998684801401302

https://arxiv.org/abs/2510.17558

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
台海之战,解放军可能面临一个大麻烦:打不掉台军的指挥系统

台海之战,解放军可能面临一个大麻烦:打不掉台军的指挥系统

东极妙严
2026-02-16 16:54:42
卧槽,概率飙到第一,骑士稳了

卧槽,概率飙到第一,骑士稳了

体育新角度
2026-02-19 12:27:02
59岁王祖贤在加拿大过年!豪宅首曝光厨房狭小,和朋友一起包饺子

59岁王祖贤在加拿大过年!豪宅首曝光厨房狭小,和朋友一起包饺子

娱乐圈圈圆
2026-02-16 18:08:54
李健:不生孩子,不买房,不用微信,讨厌早睡早起,一天吃一顿饭

李健:不生孩子,不买房,不用微信,讨厌早睡早起,一天吃一顿饭

章眽八卦
2026-01-30 12:52:04
库班怒斥:禁止独行侠摆烂,真相太扎心

库班怒斥:禁止独行侠摆烂,真相太扎心

体育新角度
2026-02-19 14:10:37
2000万分手费烧光了?Coco回河南老家直播捞金,素颜出镜回应质疑

2000万分手费烧光了?Coco回河南老家直播捞金,素颜出镜回应质疑

东方不败然多多
2026-02-13 04:25:02
爆雷!悉尼→香港→肯尼亚跨国作弊黑产曝光:专坑中国留学生,赚数百万还反手勒索!

爆雷!悉尼→香港→肯尼亚跨国作弊黑产曝光:专坑中国留学生,赚数百万还反手勒索!

澳洲财经见闻
2026-02-18 04:16:45
汪峰带女友三亚过年,和森林北牵手逛街好浪漫!女方儿女很懂事

汪峰带女友三亚过年,和森林北牵手逛街好浪漫!女方儿女很懂事

陈意小可爱
2026-02-19 03:17:36
小朋友说过最离谱的话是啥?网友:哈哈哈,这个画面感也太强了点

小朋友说过最离谱的话是啥?网友:哈哈哈,这个画面感也太强了点

带你感受人间冷暖
2026-02-05 02:09:15
这8个科学院职责重大,级别有正部级/副战区级、副部级、正厅局级

这8个科学院职责重大,级别有正部级/副战区级、副部级、正厅局级

小圣杂谈原创
2026-02-18 15:11:51
中美博弈本质?英专家:中国触碰了西方300年来最大的“禁忌”

中美博弈本质?英专家:中国触碰了西方300年来最大的“禁忌”

琴音缭绕回
2026-02-14 12:07:27
天助曼城:2-2大冷门,英超第一遭英超倒数第一逼平,连续2轮不胜

天助曼城:2-2大冷门,英超第一遭英超倒数第一逼平,连续2轮不胜

侧身凌空斩
2026-02-19 06:00:01
抠抠嗖嗖省一年,架不住去长隆玩一次!

抠抠嗖嗖省一年,架不住去长隆玩一次!

闲搞机
2026-02-17 11:22:13
你见过哪些闷声发大财的人?网友:干这个买三套房子,两个门面

你见过哪些闷声发大财的人?网友:干这个买三套房子,两个门面

夜深爱杂谈
2026-02-01 18:57:04
华人女孩服役美国军舰,还用中文驱逐中国海军,最终结局令人无奈

华人女孩服役美国军舰,还用中文驱逐中国海军,最终结局令人无奈

谈史论天地
2026-02-19 15:15:40
去了趟拉斯维加斯,这辈子再不想去二回,到处是陷阱防不胜防!

去了趟拉斯维加斯,这辈子再不想去二回,到处是陷阱防不胜防!

天下霸奇
2026-01-29 09:07:49
原来没见过世面的样子都很一致!网友:以为柠檬水 硬生生喝了半盆

原来没见过世面的样子都很一致!网友:以为柠檬水 硬生生喝了半盆

另子维爱读史
2025-12-23 16:23:36
乌军战力增强,从2月9日起开始反攻,收复200平方公里,趋势向好

乌军战力增强,从2月9日起开始反攻,收复200平方公里,趋势向好

高博新视野
2026-02-17 13:47:05
14亿人都不会忘却!揭开核酸大王张核子的真面具:权力变现大公

14亿人都不会忘却!揭开核酸大王张核子的真面具:权力变现大公

大鱼简科
2026-02-07 09:52:29
炸锅!剧还没播,刘宇宁先把王子文吻上热搜,30cm身高差太绝

炸锅!剧还没播,刘宇宁先把王子文吻上热搜,30cm身高差太绝

喜欢历史的阿繁
2026-02-18 20:10:10
2026-02-19 16:16:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14554文章数 66630关注度
往期回顾 全部

科技要闻

怒烧45亿,腾讯字节阿里决战春节

头条要闻

日本挖到含稀土泥浆 高市称"下一代、下下代都用不完"

头条要闻

日本挖到含稀土泥浆 高市称"下一代、下下代都用不完"

体育要闻

首金!苏翊鸣唱国歌落泪 自信比1呐喊

娱乐要闻

明星过年百态!黄晓明等现身三亚

财经要闻

面条火腿香菇酱!上市公司这些年请你吃

汽车要闻

量产甲醇插混 吉利银河星耀6甲醇插混版申报图

态度原创

亲子
家居
手机
教育
房产

亲子要闻

韩国近半产后女性深陷身心双重压力 经济压力并非首位

家居要闻

本真栖居 爱暖伴流年

手机要闻

三星Galaxy S26系列综合前瞻:2nm芯+隐私屏

教育要闻

马年伊始,请带上这10句话整装出发!

房产要闻

顶豪抢房潮席卷全国! 中旅馥棠公馆项目395㎡大平层加推入市!

无障碍浏览 进入关怀版