网易首页 > 网易号 > 正文 申请入驻

OpenAI把Transformer训练成「几乎全零」,黑箱首次被彻底揭开

0
分享至


来源:PaperWeekly

OpenAI 做了一件几乎没人敢尝试的事:把 Transformer 的权重在训练中直接压到近乎全零,强迫它用极少的连接完成所有计算。在这种极端约束下,模型内部真正承担推理的“计算电路”第一次以可分离、可验证、可操控的方式显形。

这大概是我们迄今最接近理解 Transformer 内部机制的一次时刻。

大模型时代里,Transformer 的黑箱感其实早已成为共识。无论是查看注意力头、分析激活分布,还是构造反事实示例,所有常用手段都会在 dense Transformer 的层间混叠里碰壁:上万条通道挤在同一空间,很难看出清晰的结构。

OpenAI 这篇 Weight-sparse Transformers Have Interpretable Circuits 选择了完全反向的路径,不是在 dense 模型上做事后解释,而是在训练的第一步就阻止模型变 dense

权重在训练全程保持接近全零,模型必须在极少的连接里完成任务。冗余路径被压到最小之后,那条真正用于推理的最短因果链——论文中的计算电路(circuit)便以清晰且可追踪的形式露出来。

意外之处在于:这些电路不仅能描述模型计算过程,还具备因果上的可验证性。你可以单独操作其中的节点、预测 dense Transformer 的错误模式,甚至让 dense 模型按照稀疏电路的方式发生响应。

某种程度上,这篇论文提出了一种新的可能性:Transformer 并非天生不可解释,它只是从未在可解释的训练方式下成长。


论文标题:

Weight-sparse transformers have interpretable circuits

论文链接:

https://cdn.openai.com/pdf/41df8f28-d4ef-43e9-aed2-823f9393e470/circuit-sparsity-paper.pdf


方法

如果说 dense Transformer 像一座道路四通八达的大城市,那么 OpenAI 的做法就是在训练伊始把绝大多数道路封掉,只留下少数主路。所有计算都不得不沿这几条通道进行,而真正负责任务的那条路径,也在这种约束下格外清晰。

整个方法可以概括为三步:训练阶段保持高度稀疏让电路结构自动显形再让它能解释 dense 模型

1.1 训练时强制稀疏:从源头上避免 dense

OpenAI 没有采用“先 dense 再剪枝”的老方法,而是直接规定:每个权重矩阵在任意训练时刻都只能保留固定数量的非零值。

于是每一层都在重复:

  • forward:正常计算

  • backward:正常更新

  • projection:只保留最大 k 个权重,其余全部归零

模型从头到尾都处在极端稀疏状态。这样带来三个直接效果:

  • 冗余连接无法形成

  • 功能很难混叠

  • 每个子任务都被迫集中到少数路径

训练框架在论文中被画成了一个非常清晰的流程图。


▲ 图1. 从稀疏训练到抽取最小计算电路的整体流程。模型在全程保持极端稀疏,通过节点剪枝得到完成任务所需的最小结构。

1.2 让模型自己暴露关键节点

为让最小电路显形,作者在 residual channel、attention 输入输出等位置加入 gate。模型训练过程中会自然把某些 gate 打开、另外一些保持关闭,从而告诉我们:完成这个任务,我只依赖这些路径。

gate 的形式写成:


细节不必深究,只需知道:最终被 gate 激活的节点,就是模型真正用到的因果单元。

在字符串闭合引号任务中,稀疏模型最终只留下 12 个节点和 9 条边(见下图),整个推理链像蓝图一样干净。


▲ 图2. 字符串闭合引号任务所抽取的计算电路

1.3 更复杂的推理:嵌套括号深度

嵌套括号比引号复杂得多,但稀疏模型给出的电路仍然规整。模型在看到[时写入一个“开括号特征”,再用单一注意力头把所有历史的这一特征聚集起来做平均。不同的平均值代表不同的嵌套深度,输出位置再根据深度决定生成]还是]]

dense 模型里,这类行为会分布在多个头和大量 residual 通道上,彼此覆盖,不容易分清。但在稀疏模型中,则是一条稳定的链路。


▲ 图3. 稀疏模型计算括号深度的电路示意

1.4 Bridge:让稀疏模型解释 dense Transformer

稀疏模型结构清晰,但 dense 模型才是我们在生产环境中真正关心的主体。Bridge 的目的就是把两者联系起来,让稀疏电路成为 dense 的“解释接口”。

它分两步:

  • 将 dense 每层的激活映射到稀疏模型(dense → sparse)

  • 再把稀疏激活映射回 dense(sparse → dense)

并用 NMSE loss 对齐:


对应结构在下图中给出:


▲ 图4. Bridge 使用线性映射对齐 sparse 与 dense 的中间激活,使得两者可以互相转换并保持混合路径的性能。


实验

电路抽取出来之后,一个核心问题紧随而来:这条路到底是不是模型真正依赖的?实验部分基本就是对这个问题的系统验证。

2.1电路规模的规律性

dense Transformer 抽出的最小电路大小变化非常大,在同一任务上可能忽大忽小,看不出规律。论文把 dense 与稀疏模型的规模放在同一张图里。dense 的点散得比较开,而稀疏模型的点集中得多,基本沿着一条稳定带状分布。


▲ 图5. 稀疏模型在所有任务上的最小电路规模显著更小,在相同损失下约比 dense 模型小 16 倍。

稀疏结构不仅减少参数,也让任务分工更稳定。

2.2模型越大,电路反而更小

随着稀疏模型从小规模逐步增大,性能会上升,但最小电路规模却在缩小。dense 模型通常是反方向:越大结构越发混杂。


▲ 图6. 更大的稀疏模型拥有更小的计算电路与更高性能

这组结果说明:可解释性与能力并非一定对立,有可能同时提升。

2.3 稀疏电路能推断 dense 模型的错误

在嵌套括号任务中,稀疏电路显示:模型用平均注意力聚合所有[。如果序列过长,平均值被稀释,深度信息容易丢失。于是稀疏电路推断:dense 模型在长序列上会把深度 2 当成深度 1。

OpenAI 构造长序列 adversarial 测试验证了这一点。dense 模型的错误率随长度上升,与稀疏电路的判断几乎一致。


▲ 图7. dense 模型在长序列上出现与稀疏电路预测一致的 context dilution 错误模式。

这是一个很典型的例子:结构化解释可以推断模型的失败。

2.4 电路可以影响 dense 模型

最后的实验展示了一个更强的结果:借助 Bridge,对齐后的稀疏电路可以直接影响 dense Transformer 的输出。

在区分'"的任务里,研究者调整稀疏模型中有关引号差异的通道激活,再映射回 dense,dense 模型的输出概率会随之平滑偏移。


▲ 图8. 通过 Bridge,对稀疏模型的可解释激活进行调整后,可连续影响 dense 模型的输出概率。

这说明电路不仅能解释 dense 行为,还能驱动 dense 行为。

结语

这篇论文展示了一种不同的可解释性思路:不是在 dense Transformer 上做事后分析,而是让模型在训练过程中自然长成可以被解释的结构。

在高度稀疏的权重约束下,Transformer 的功能不再扩散,而是集中在少量关键路径上。这些路径——计算电路——可以被提取、理解、验证,甚至用于操控 dense 模型的决策。

从整体实验来看,用稀疏训练获得的电路:

  • 有稳定的因果含义

  • 可以预测 dense 模型的行为

  • 也能反过来调整 dense 模型的输出

这为未来提供了一个新的方向:随着模型规模继续增长,我们也许可以同时追求结构化、可控、可验证的内部组织方式,而不只是盲目增加密度。

Transformer 或许第一次展示了自己内部结构的清晰轮廓。

阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828


未来知识库是“ 欧米伽 未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。 欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
他是水浒中最早看穿宋江的人,借探母之名离开,成结局最圆满的人

他是水浒中最早看穿宋江的人,借探母之名离开,成结局最圆满的人

如烟若梦
2025-11-11 16:43:55
山东队夺得全运会乒乓球女团冠军,孙颖莎收获两银,“人生总要留有遗憾”

山东队夺得全运会乒乓球女团冠军,孙颖莎收获两银,“人生总要留有遗憾”

上观新闻
2025-11-20 04:57:07
叫嚣要出兵台海后,高市早苗迎来外援,解放军一定要做好万全准备

叫嚣要出兵台海后,高市早苗迎来外援,解放军一定要做好万全准备

老黯谈娱
2025-11-20 03:15:48
部门裁员50人匿名互投,我投自己想拿钱走人,结果另外49票都是我

部门裁员50人匿名互投,我投自己想拿钱走人,结果另外49票都是我

二十一号故事铺
2025-11-17 18:00:09
韩星红毯眼前一黑!孙艺珍不仙了,玄彬像被牛舔了,宋慧乔不演了

韩星红毯眼前一黑!孙艺珍不仙了,玄彬像被牛舔了,宋慧乔不演了

可乐谈情感
2025-11-20 06:10:41
我们忘了汉语,但唯独不敢忘祖先是中国人,琉球亡国146年血泪史

我们忘了汉语,但唯独不敢忘祖先是中国人,琉球亡国146年血泪史

文史道
2025-11-19 13:02:02
特朗普举办白宫晚宴,特意留步拍马斯克肚子打招呼,并大夸赴宴的C罗:光是介绍你,我就觉得特别荣幸

特朗普举办白宫晚宴,特意留步拍马斯克肚子打招呼,并大夸赴宴的C罗:光是介绍你,我就觉得特别荣幸

极目新闻
2025-11-19 12:14:11
上位靠睡、赶走原配!刚拿金鸡奖影后的宋佳,私生活传闻有多离谱

上位靠睡、赶走原配!刚拿金鸡奖影后的宋佳,私生活传闻有多离谱

萧鑟科普解说
2025-11-18 10:02:39
终于有个日本将军,把窗户纸给捅破了:再打仗,日本可能就没了

终于有个日本将军,把窗户纸给捅破了:再打仗,日本可能就没了

李子橱
2025-11-06 21:30:03
台军老兵叮嘱儿子:如果两岸开战,一枪干掉让你冲锋的长官!

台军老兵叮嘱儿子:如果两岸开战,一枪干掉让你冲锋的长官!

浩渺青史
2025-11-17 16:56:51
小泉进次郎最新表态

小泉进次郎最新表态

环球时报新闻
2025-11-19 14:57:20
章泽天婚变传闻仅10天,31岁高调官宣喜讯,喜结良缘终成真

章泽天婚变传闻仅10天,31岁高调官宣喜讯,喜结良缘终成真

何嗀爱捕渔
2025-11-18 19:00:17
45金!41金!39金!19日凌晨全运会最新金牌榜:山东+江苏单日3金

45金!41金!39金!19日凌晨全运会最新金牌榜:山东+江苏单日3金

大秦壁虎白话体育
2025-11-19 09:41:19
福建一事业单位,改制更名!

福建一事业单位,改制更名!

海峡网
2025-11-19 21:38:35
顶流小生人设崩塌!私底下竟是圈内玩咖,手段惊人……

顶流小生人设崩塌!私底下竟是圈内玩咖,手段惊人……

毒舌八卦
2025-11-17 23:05:50
王清海教授:陈皮和它是绝配!常喝血脂降了,斑块没了,血管通了

王清海教授:陈皮和它是绝配!常喝血脂降了,斑块没了,血管通了

蜡笔小小子
2025-11-08 14:18:03
禁止所有中国外交官入境,不让两岸统一,这个国家比美国还要嚣张

禁止所有中国外交官入境,不让两岸统一,这个国家比美国还要嚣张

文史旺旺旺
2025-11-19 20:52:03
意外!U22国足已对汪士钦进行内部处罚,本人为此做出重要决定

意外!U22国足已对汪士钦进行内部处罚,本人为此做出重要决定

无意争春
2025-11-19 16:54:42
我国收回南海最大岛礁,面积8000平方公里,曾被美、菲合力抢夺

我国收回南海最大岛礁,面积8000平方公里,曾被美、菲合力抢夺

博览历史
2025-09-26 21:10:45
贵州广东高校大洗牌,名字改得让人摸不着头脑,背后全是地方算盘

贵州广东高校大洗牌,名字改得让人摸不着头脑,背后全是地方算盘

特特农村生活
2025-11-20 00:34:01
2025-11-20 06:51:00
人工智能学家 incentive-icons
人工智能学家
人工智能领域权威媒体
4331文章数 37340关注度
往期回顾 全部

科技要闻

一夜封神,Gemini 3让谷歌找回“碾压感”

头条要闻

日方要求解释为何未告知磋商后会有媒体拍摄 中方回应

头条要闻

日方要求解释为何未告知磋商后会有媒体拍摄 中方回应

体育要闻

世界杯最小参赛国诞生!15万人岛国的奇迹

娱乐要闻

史林子出轨对方前妻放锤!

财经要闻

重磅!中金公司拟收购东兴与信达证券

汽车要闻

此刻价格不重要 第5代帝豪本身就是价值

态度原创

本地
教育
家居
艺术
公开课

本地新闻

第十二届影展携手重庆来福士丨两江交汇,光影共生

教育要闻

高考选科时候这样做更靠谱!

家居要闻

水岸美学 书香人文生活

艺术要闻

周恩来夫妇珍贵合影集,太难得一见!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版