网易首页 > 网易号 > 正文 申请入驻

AI黑箱,这次能打开吗?OpenAI新方法:训练稀疏神经网络,让模型思维过程可追溯

0
分享至


神经网络是当今最强大AI系统的动力核心,但其内部工作原理依然难以捉摸。我们并非为这些模型编写一步一指令的明确代码,相反,它们通过调整数十亿个内部连接(即“权重”)来自我学习,直至掌握任务。我们设计了训练规则,却无法预知最终涌现出的具体行为,其结果是一个任何人都难以轻易解读的、稠密的连接网络。

现在,OpenAI提出了一种新方法,旨在通过训练模型以更简单、更可追溯的方式“思考”,从而更好地理解它们的工作原理

如何看待可解释性

随着AI系统能力日益增强,并在科学、教育和医疗等领域产生真实世界的影响,理解其工作方式变得至关重要。可解释性,指的是帮助我们理解模型为何产生特定输出的方法。

实现这一目标有多种途径。例如,推理模型被激励在通往最终答案的过程中解释其工作步骤,这种“思维链可解释性”利用这些解释来监控模型行为。这种方法已展现出直接的实用价值,例如当前模型的思维链似乎能有效揭示欺骗等令人担忧的行为。然而,完全依赖此特性是一种脆弱的策略,未来可能会失效。

另一方面,机制可解释性(mechanistic interpretability)——也正是OpenAI本次研究的焦点——旨在彻底逆向工程一个模型的计算过程。尽管它迄今为止的直接应用较少,但原则上,它可以为模型行为提供更完整的解释。通过在最细粒度的层面上解释模型行为,机制可解释性可以减少假设,给予我们更强的信心。但从底层细节到复杂行为解释的路径也因此更长、更艰难。

可解释性支持着几个关键目标,例如实现更好的监督,并为不安全或策略性失调行为提供早期预警。它也补充了OpenAI在其他安全方面的工作,如可扩展监督、对抗性训练和红队测试。

在这项工作中,OpenAI展示了我们通常可以采用某种训练方式,让模型变得更容易解释。他们将这项工作视为对稠密网络进行事后分析的一种有希望的补充。

这是一个比较大的赌注,从当前的工作到完全理解最强大模型的复杂行为,还有很长的路要走。尽管如此,研究发现,对于简单的行为,用这种新方法训练的稀疏模型包含了小型的、解耦的“电路”,这些电路既可被理解,也足以执行该行为。这表明,可能存在一条可行的路径,用以训练出我们能够理解其机制的大型系统。

一种新思路:学习稀疏模型

以往的机制可解释性工作,通常从一个已经训练好的、稠密且纠缠的网络入手,试图去解开它。在这些网络中,每个神经元都与成千上万个其他神经元相连,并且大多数神经元似乎执行着多种不同功能,这使得理解它们变得几乎不可能。

但如果我们换一种思路呢?如果我们训练一个“不纠缠”的神经网络——它拥有更多的神经元,但每个神经元只有几十个连接。那么,最终得到的网络或许会更简单、更容易理解。这就是OpenAI这项工作的核心研究思路

基于这一原则,OpenAI训练了一些语言模型,其架构与GPT-2等现有模型非常相似,但有一个微小改动:强制模型绝大多数权重为零。这限制了模型只能使用其神经元之间极少数的可能连接。研究人员认为,这个简单的改变能极大地解耦模型的内部计算

在传统的的稠密神经网络中,每一层的每个神经元都与下一层的所有神经元相连。而在稀疏模型中,每个神经元只与下一层的少数几个神经元连接。研究人员希望这能让神经元乃至整个网络变得更容易被理解


如何评估可解释性

为了衡量稀疏模型的计算在多大程度上是解耦的,研究人员考察了各种简单的模型行为,并检查是否能分离出负责每种行为的模型部分——他们称之为电路(circuits)

他们手工策划了一系列简单的算法任务。对于每项任务,他们将模型剪枝,找到能执行该任务的最小电路,并检查该电路的简洁程度。研究发现,通过训练更大、更稀疏的模型,可以得到能力越来越强、同时电路也越来越简单的模型。

下图是一张可解释性与模型能力的对比图中(左下角为更优),对于一个固定大小的稀疏模型,增加稀疏度(即设置更多权重为零)会降低模型能力,但提高可解释性。而扩大模型尺寸则会将这条能力-可解释性的边界向外推移。这表明,我们或许可以构建出既强大又可解释的大型模型


深入电路:一个具体案例

为了更具体地说明,可以看一个任务:一个在Python代码上训练的模型,需要用正确的引号来补全一个字符串。在Python中,'hello'必须以单引号结尾,而"hello"必须以双引号结尾。模型可以通过记住字符串开头的引号类型,并在末尾复现它来解决这个问题


研究发现,最易于解释的模型似乎包含了实现了这一确切算法的解耦电路。

这个预测字符串应以单引号还是双引号结尾的电路,仅使用了5个残差通道、第0层的2个MLP神经元、以及第10层的1个注意力查询-键通道和1个值通道。其工作流程如下:

1.模型在一个残差通道中编码单引号,在另一个通道中编码双引号

2.一个MLP层将此信息转换为一个检测任意引号的通道和另一个区分单双引号的通道

3.一个注意力操作会忽略中间的词元,找到之前的开引号,并将其类型复制到最终词元

4.模型预测出匹配的闭合引号

根据定义,上图所示的连接对于执行该任务是充分的——如果我们移除模型的其余部分,这个小电路仍然能工作。同时它们也是必要的——删除这几个连接会导致模型失败。

研究人员还研究了一些更复杂的行为,例如变量绑定。这些行为的电路更难被完全解释。即便如此,仍然可以获得相对简单的部分解释,这些解释对模型行为具有预测性。例如,在一个电路中,一个注意力操作在变量current被定义时,将变量名复制到set()词元中;后续另一个操作则将类型从set()词元复制到该变量的后续使用中,从而让模型推断出正确的下一个词元


这些稀疏模型比前沿模型小得多,其计算的很大一部分仍未被解释。

接下来,研究团队希望将这些技术扩展到更大的模型,并解释模型更多的行为。通过在有能力的稀疏模型中枚举出更复杂推理背后的电路基元,或许能发展出一种有助于更有针对性地研究前沿模型的理解

为了克服训练稀疏模型的低效问题,研究人员看到了两条前进的道路:

1.从现有的稠密模型中提取稀疏电路,而不是从头开始训练稀疏模型。因为稠密模型在部署上本质比稀疏模型更高效

2.开发更高效的可解释性训练技术,这可能更容易投入生产。

需要注意的是,目前的发现并不能保证这种方法会延伸到能力更强的系统上,但这些早期结果充满希望。最终目标是逐步扩大我们能够可靠解释的模型范围,并构建工具,使未来的系统更容易分析、调试和评估

参考:

https://openai.com/index/understanding-neural-networks-through-sparse-circuits/

paper:

https://cdn.openai.com/pdf/41df8f28-d4ef-43e9-aed2-823f9393e470/circuit-sparsity-paper.pdf

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
人去楼空,杉杉集团上海总部大楼流拍后降价4.5亿

人去楼空,杉杉集团上海总部大楼流拍后降价4.5亿

财视传播
2026-01-14 10:40:22
要逼华全额付款,不到24小时,美方收到中方通知,上亿元订单没了

要逼华全额付款,不到24小时,美方收到中方通知,上亿元订单没了

回京历史梦
2026-01-15 12:49:31
天呐!终于知道为什么有的人完全不会内耗了 ​​​

天呐!终于知道为什么有的人完全不会内耗了 ​​​

夜深爱杂谈
2026-01-06 20:24:39
北京发布超1.4万亿元重点工程项目清单

北京发布超1.4万亿元重点工程项目清单

新华社
2026-01-15 21:54:18
美通告全球,中方大抛美债,特朗普终于动手,八国央行向美宣战

美通告全球,中方大抛美债,特朗普终于动手,八国央行向美宣战

博览历史
2026-01-15 18:52:35
闫学晶事件迎来反转!林傲霏中戏毕业照曝光,中戏欺骗了所有考生

闫学晶事件迎来反转!林傲霏中戏毕业照曝光,中戏欺骗了所有考生

阿纂看事
2026-01-14 16:41:41
一夜3大消息!库明加申请交易,火箭旧将报销,快船重大利好

一夜3大消息!库明加申请交易,火箭旧将报销,快船重大利好

体坛小李
2026-01-16 07:34:58
开拓者伤病报告:阿夫迪亚确认缺阵,格兰特大概率出战

开拓者伤病报告:阿夫迪亚确认缺阵,格兰特大概率出战

懂球帝
2026-01-16 08:25:33
2025年入列054A型护卫舰:央视已公开曝光3艘,就等官宣519阜阳舰

2025年入列054A型护卫舰:央视已公开曝光3艘,就等官宣519阜阳舰

静儿家
2026-01-16 09:00:25
一家七口完美落袋31亿,卖掉公司后逃到美国,把麻烦留给17万股民

一家七口完美落袋31亿,卖掉公司后逃到美国,把麻烦留给17万股民

趣文说娱
2026-01-14 11:37:46
官宣!明年底前,北京全部中小学退出校外供餐!

官宣!明年底前,北京全部中小学退出校外供餐!

手工制作阿爱
2026-01-16 05:22:23
谁能拒绝白色厚丝袜的致命吸引力?

谁能拒绝白色厚丝袜的致命吸引力?

流水白莲花
2025-12-10 03:14:22
三人私闯庭院后续:正脸曝光社死,官方账号沦陷,大理文旅压力大

三人私闯庭院后续:正脸曝光社死,官方账号沦陷,大理文旅压力大

有范又有料
2026-01-14 20:07:45
吴亦凡13年牢坐满驱逐出境,李易峰海外开唱背巨债,结局早已注定

吴亦凡13年牢坐满驱逐出境,李易峰海外开唱背巨债,结局早已注定

观察鉴娱
2026-01-16 09:32:47
快碎掉了,公司恐将关停,解散式大裁员!

快碎掉了,公司恐将关停,解散式大裁员!

黯泉
2026-01-15 23:22:35
几乎全是假货!利润高达2400%,咋消费者还前赴后继争相购买?

几乎全是假货!利润高达2400%,咋消费者还前赴后继争相购买?

奇思妙想草叶君
2026-01-05 23:13:15
问题到底出在哪里?为什么那么多人不信官方说法…

问题到底出在哪里?为什么那么多人不信官方说法…

慧翔百科
2026-01-10 13:44:32
张雨绮穿吊带看着骨架有点大哦!这大体格谁看了不喜欢?

张雨绮穿吊带看着骨架有点大哦!这大体格谁看了不喜欢?

草莓解说体育
2025-12-21 00:52:27
特朗普抛出“弃台论”,岛内人马突然访美,郑丽文暗示统一倒计时

特朗普抛出“弃台论”,岛内人马突然访美,郑丽文暗示统一倒计时

博览历史
2026-01-14 22:17:01
泽连斯基回应特朗普:乌克兰绝非和平绊脚石,呼吁对俄施压

泽连斯基回应特朗普:乌克兰绝非和平绊脚石,呼吁对俄施压

起喜电影
2026-01-16 09:12:29
2026-01-16 10:31:00
AI寒武纪 incentive-icons
AI寒武纪
专注于人工智能,科技领域
1027文章数 393关注度
往期回顾 全部

科技要闻

被网友"催"着走,小米紧急"抄"了特斯拉

头条要闻

马克龙警告美国:侵犯格陵兰岛将引发"前所未有后果"

头条要闻

马克龙警告美国:侵犯格陵兰岛将引发"前所未有后果"

体育要闻

聂卫平:黑白棋盘上的凡人棋圣

娱乐要闻

92岁陶玉玲去世,冯远征曹可凡悼念

财经要闻

深圳有白银商家爆雷 维权群超350人

汽车要闻

吉利帝豪/缤越推冠军一口价 起售价4.88万

态度原创

亲子
数码
家居
本地
公开课

亲子要闻

这事整的真是锣鼓喧天!鞭炮齐鸣……

数码要闻

Keychron海外推出K3 Max全木版机械键盘=,119.99美元

家居要闻

自在自宅 个性自由

本地新闻

云游内蒙|黄沙与碧波撞色,乌海天生会“混搭”

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版