网易首页 > 网易号 > 正文 申请入驻

AI黑箱,这次能打开吗?OpenAI新方法:训练稀疏神经网络,让模型思维过程可追溯

0
分享至


神经网络是当今最强大AI系统的动力核心,但其内部工作原理依然难以捉摸。我们并非为这些模型编写一步一指令的明确代码,相反,它们通过调整数十亿个内部连接(即“权重”)来自我学习,直至掌握任务。我们设计了训练规则,却无法预知最终涌现出的具体行为,其结果是一个任何人都难以轻易解读的、稠密的连接网络。

现在,OpenAI提出了一种新方法,旨在通过训练模型以更简单、更可追溯的方式“思考”,从而更好地理解它们的工作原理

如何看待可解释性

随着AI系统能力日益增强,并在科学、教育和医疗等领域产生真实世界的影响,理解其工作方式变得至关重要。可解释性,指的是帮助我们理解模型为何产生特定输出的方法。

实现这一目标有多种途径。例如,推理模型被激励在通往最终答案的过程中解释其工作步骤,这种“思维链可解释性”利用这些解释来监控模型行为。这种方法已展现出直接的实用价值,例如当前模型的思维链似乎能有效揭示欺骗等令人担忧的行为。然而,完全依赖此特性是一种脆弱的策略,未来可能会失效。

另一方面,机制可解释性(mechanistic interpretability)——也正是OpenAI本次研究的焦点——旨在彻底逆向工程一个模型的计算过程。尽管它迄今为止的直接应用较少,但原则上,它可以为模型行为提供更完整的解释。通过在最细粒度的层面上解释模型行为,机制可解释性可以减少假设,给予我们更强的信心。但从底层细节到复杂行为解释的路径也因此更长、更艰难。

可解释性支持着几个关键目标,例如实现更好的监督,并为不安全或策略性失调行为提供早期预警。它也补充了OpenAI在其他安全方面的工作,如可扩展监督、对抗性训练和红队测试。

在这项工作中,OpenAI展示了我们通常可以采用某种训练方式,让模型变得更容易解释。他们将这项工作视为对稠密网络进行事后分析的一种有希望的补充。

这是一个比较大的赌注,从当前的工作到完全理解最强大模型的复杂行为,还有很长的路要走。尽管如此,研究发现,对于简单的行为,用这种新方法训练的稀疏模型包含了小型的、解耦的“电路”,这些电路既可被理解,也足以执行该行为。这表明,可能存在一条可行的路径,用以训练出我们能够理解其机制的大型系统。

一种新思路:学习稀疏模型

以往的机制可解释性工作,通常从一个已经训练好的、稠密且纠缠的网络入手,试图去解开它。在这些网络中,每个神经元都与成千上万个其他神经元相连,并且大多数神经元似乎执行着多种不同功能,这使得理解它们变得几乎不可能。

但如果我们换一种思路呢?如果我们训练一个“不纠缠”的神经网络——它拥有更多的神经元,但每个神经元只有几十个连接。那么,最终得到的网络或许会更简单、更容易理解。这就是OpenAI这项工作的核心研究思路

基于这一原则,OpenAI训练了一些语言模型,其架构与GPT-2等现有模型非常相似,但有一个微小改动:强制模型绝大多数权重为零。这限制了模型只能使用其神经元之间极少数的可能连接。研究人员认为,这个简单的改变能极大地解耦模型的内部计算

在传统的的稠密神经网络中,每一层的每个神经元都与下一层的所有神经元相连。而在稀疏模型中,每个神经元只与下一层的少数几个神经元连接。研究人员希望这能让神经元乃至整个网络变得更容易被理解


如何评估可解释性

为了衡量稀疏模型的计算在多大程度上是解耦的,研究人员考察了各种简单的模型行为,并检查是否能分离出负责每种行为的模型部分——他们称之为电路(circuits)

他们手工策划了一系列简单的算法任务。对于每项任务,他们将模型剪枝,找到能执行该任务的最小电路,并检查该电路的简洁程度。研究发现,通过训练更大、更稀疏的模型,可以得到能力越来越强、同时电路也越来越简单的模型。

下图是一张可解释性与模型能力的对比图中(左下角为更优),对于一个固定大小的稀疏模型,增加稀疏度(即设置更多权重为零)会降低模型能力,但提高可解释性。而扩大模型尺寸则会将这条能力-可解释性的边界向外推移。这表明,我们或许可以构建出既强大又可解释的大型模型


深入电路:一个具体案例

为了更具体地说明,可以看一个任务:一个在Python代码上训练的模型,需要用正确的引号来补全一个字符串。在Python中,'hello'必须以单引号结尾,而"hello"必须以双引号结尾。模型可以通过记住字符串开头的引号类型,并在末尾复现它来解决这个问题


研究发现,最易于解释的模型似乎包含了实现了这一确切算法的解耦电路。

这个预测字符串应以单引号还是双引号结尾的电路,仅使用了5个残差通道、第0层的2个MLP神经元、以及第10层的1个注意力查询-键通道和1个值通道。其工作流程如下:

1.模型在一个残差通道中编码单引号,在另一个通道中编码双引号

2.一个MLP层将此信息转换为一个检测任意引号的通道和另一个区分单双引号的通道

3.一个注意力操作会忽略中间的词元,找到之前的开引号,并将其类型复制到最终词元

4.模型预测出匹配的闭合引号

根据定义,上图所示的连接对于执行该任务是充分的——如果我们移除模型的其余部分,这个小电路仍然能工作。同时它们也是必要的——删除这几个连接会导致模型失败。

研究人员还研究了一些更复杂的行为,例如变量绑定。这些行为的电路更难被完全解释。即便如此,仍然可以获得相对简单的部分解释,这些解释对模型行为具有预测性。例如,在一个电路中,一个注意力操作在变量current被定义时,将变量名复制到set()词元中;后续另一个操作则将类型从set()词元复制到该变量的后续使用中,从而让模型推断出正确的下一个词元


这些稀疏模型比前沿模型小得多,其计算的很大一部分仍未被解释。

接下来,研究团队希望将这些技术扩展到更大的模型,并解释模型更多的行为。通过在有能力的稀疏模型中枚举出更复杂推理背后的电路基元,或许能发展出一种有助于更有针对性地研究前沿模型的理解

为了克服训练稀疏模型的低效问题,研究人员看到了两条前进的道路:

1.从现有的稠密模型中提取稀疏电路,而不是从头开始训练稀疏模型。因为稠密模型在部署上本质比稀疏模型更高效

2.开发更高效的可解释性训练技术,这可能更容易投入生产。

需要注意的是,目前的发现并不能保证这种方法会延伸到能力更强的系统上,但这些早期结果充满希望。最终目标是逐步扩大我们能够可靠解释的模型范围,并构建工具,使未来的系统更容易分析、调试和评估

参考:

https://openai.com/index/understanding-neural-networks-through-sparse-circuits/

paper:

https://cdn.openai.com/pdf/41df8f28-d4ef-43e9-aed2-823f9393e470/circuit-sparsity-paper.pdf

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
李晓旭宣布退役后,杨鸣与二老聚餐笑开花,并直呼一个时代结束!

李晓旭宣布退役后,杨鸣与二老聚餐笑开花,并直呼一个时代结束!

篮球资讯达人
2026-05-05 22:02:40
可乐被关注!医生发现:前列腺增生者喝可乐,不用多久或有5变化

可乐被关注!医生发现:前列腺增生者喝可乐,不用多久或有5变化

蜉蝣说
2026-05-05 18:36:14
再见火箭!再见申京!杜兰特1换2交易曝光,网友:白菜价

再见火箭!再见申京!杜兰特1换2交易曝光,网友:白菜价

舟望停云
2026-05-05 17:47:09
让阑尾炎患者转市医院,外科主任被医务科约谈!同行:连这都处理不了,当什么主任?62%的医生碰到过纠纷,超80%医生选择防御性医疗

让阑尾炎患者转市医院,外科主任被医务科约谈!同行:连这都处理不了,当什么主任?62%的医生碰到过纠纷,超80%医生选择防御性医疗

梅斯医学
2026-05-06 07:54:47
高速免费大改账:没了节假日全免,换3000公里随便跑,是赚是亏?

高速免费大改账:没了节假日全免,换3000公里随便跑,是赚是亏?

娱乐圈的笔娱君
2026-05-06 05:47:30
酒局持续4小时,从下厨招待到拿刀拼命,妻子到底经历了什么

酒局持续4小时,从下厨招待到拿刀拼命,妻子到底经历了什么

笑谈历史阿晡
2026-05-04 12:02:08
SGA12+3!雷霆61-53湖人,看数据:头号功臣是他!

SGA12+3!雷霆61-53湖人,看数据:头号功臣是他!

运筹帷幄的篮球
2026-05-06 09:57:45
塔帅:我决定不变阵时和替补球员说抱歉,他们给了我一个拥抱

塔帅:我决定不变阵时和替补球员说抱歉,他们给了我一个拥抱

懂球帝
2026-05-06 05:55:07
女子开辅助驾驶高速上化妆、吃东西、舞动,称“我觉得它比我开得好” 警方:罚款200元,记3分;网友:不要自我矮化

女子开辅助驾驶高速上化妆、吃东西、舞动,称“我觉得它比我开得好” 警方:罚款200元,记3分;网友:不要自我矮化

每日经济新闻
2026-05-06 00:11:45
8.84亿的美国工厂说关就关?曹德旺:美国不讲理,我就不陪玩了

8.84亿的美国工厂说关就关?曹德旺:美国不讲理,我就不陪玩了

小莜读史
2026-05-04 20:33:26
尴尬极了!母亲天天穿紧身裤,女儿吐槽:都快50岁了,穿给谁看呢

尴尬极了!母亲天天穿紧身裤,女儿吐槽:都快50岁了,穿给谁看呢

川渝视觉
2026-05-05 20:33:39
004航母五一加班,汽轮机安装完成,舰艏分段加速,总长近福特

004航母五一加班,汽轮机安装完成,舰艏分段加速,总长近福特

老头的传奇色彩
2026-05-06 06:15:05
休赛期第一笔签约!小牛完成重磅引援,终于填补空缺

休赛期第一笔签约!小牛完成重磅引援,终于填补空缺

德译洋洋
2026-05-06 10:01:27
离完婚我注销被婆婆拿走的工资卡,前夫立即来电怒吼:你把卡解开

离完婚我注销被婆婆拿走的工资卡,前夫立即来电怒吼:你把卡解开

云端小院
2026-05-06 07:00:39
50岁查理兹·塞隆自曝不婚原因:睡小鲜肉太爽了!

50岁查理兹·塞隆自曝不婚原因:睡小鲜肉太爽了!

阿废冷眼观察所
2026-05-05 14:57:32
曼联6000万铁腰连续三场被弃用,没挂牌以免贬值!卖一人摆脱亏损

曼联6000万铁腰连续三场被弃用,没挂牌以免贬值!卖一人摆脱亏损

罗米的曼联博客
2026-05-06 09:49:26
猪牛羊肉千万要少吃,再添铁证!柳叶刀子刊:红肉吃得狠,不仅乳腺癌风险猛增;糖尿病风险还升49%,且痴呆风险涨13%、认知衰退加速近一年

猪牛羊肉千万要少吃,再添铁证!柳叶刀子刊:红肉吃得狠,不仅乳腺癌风险猛增;糖尿病风险还升49%,且痴呆风险涨13%、认知衰退加速近一年

梅斯医学
2026-05-05 07:52:16
眼红啊!南宁一教师月薪14044元的截图引热议,网友:副高五级吧

眼红啊!南宁一教师月薪14044元的截图引热议,网友:副高五级吧

火山詩话
2026-05-06 07:43:22
好日子到头了!许家印背后的“保护伞”,终于被重罚了

好日子到头了!许家印背后的“保护伞”,终于被重罚了

毒sir财经
2026-05-05 22:36:26
吴彦祖妻子素颜真实模样曝光,完全没女人味,一眼看着像硬汉

吴彦祖妻子素颜真实模样曝光,完全没女人味,一眼看着像硬汉

调侃国际观点
2026-05-05 08:32:47
2026-05-06 10:32:49
AI寒武纪 incentive-icons
AI寒武纪
专注于人工智能,科技领域
1040文章数 396关注度
往期回顾 全部

科技要闻

告别废话文学与幻觉!GPT-5.5 Instant发布

头条要闻

牛弹琴:高市终于下跪了 中韩等亚洲人内心感到气愤

头条要闻

牛弹琴:高市终于下跪了 中韩等亚洲人内心感到气愤

体育要闻

全世界都等着看他笑话,他带国米拿下冠军

娱乐要闻

内娱真情谊!杨紫为谢娜演唱会送花篮

财经要闻

70亿,保时捷把布加迪卖了

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

教育
旅游
艺术
数码
公开课

教育要闻

文化内生驱动:特殊教育学校高质量发展的“12987”仁怀范式

旅游要闻

淮畔焕彩迎宾客 蚌埠“五一”文旅市场活力四射

艺术要闻

江青邓颖超等四位女性罕见合影,书法风格各异引关注!

数码要闻

苹果为AirPods Max 2耳机推送新固件,版本号8E258

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版