网易首页 > 网易号 > 正文 申请入驻

OpenAI新论文拆解语言模型内部机制:用「稀疏电路」解释模型行为

0
分享至

机器之心报道

编辑:杜伟

在如今的 AI 领域,大多数大语言模型在很大程度上仍以「黑箱」方式工作,即使是专业的研究者也难以完全理解它们的内部计算过程。因此,提升模型的透明度有助于分析和解释大语言模型产生幻觉、行为不稳定或在关键场景做出不可靠判断的潜在原因。

就在今天,OpenAI 发布了一项新研究,使用新方法来训练内部机制更易于解释的小型稀疏模型,其神经元之间的连接更少、更简单,从而观察它们的计算过程是否更容易被人理解。

与普通模型不同,OpenAI 发现可以从该稀疏模型中提取出简单、易于理解的部件来执行特定任务,例如在代码中正确结束字符串或跟踪变量类型。



下图为整体方法概览,首先训练权重稀疏的模型,然后针对精心挑选的一系列简单行为,将模型剪枝到仅保留完成该任务所需的节点子集。



论文一作 Leo Gao 表示,「通过隔离稀疏模型内部负责各种简单行为的微小电路,以前所未有的方式理解语言模型。」



接下来看实现细节。

如何看待可解释性?

随着 AI 系统变得越来越强大,并在科学、教育和医疗等领域的决策中产生实际影响,理解它们的工作原理至关重要。可解释性指的是帮助理解模型为何会产生某个输出的方法,实现这一点的方式有很多。

例如,推理模型在产生最终答案的过程中会被鼓励去解释自己的推理步骤。思维链(CoT)可解释性利用这些解释来监控模型行为。这种方式直接有用:当前推理模型的思维链能够提供与欺骗等令人担忧的行为相关的线索。然而,完全依赖这种特性是一种脆弱的策略,可能会随着时间的推移失效。

另一方面,本研究关注的机械可解释性试图完全逆向工程模型的计算过程。到目前为止,机械可解释性的直接效用较低,但原则上,它可以对模型行为提供更加完整的解释。通过尝试在最细粒度层面解释模型行为,机械可解释性可以减少假设,让我们拥有更多信心。但是,从低层次细节推导复杂行为的解释,是一条更长且更困难的道路。

可解释性支持多个关键目标,例如实现更好的监督、为不安全或策略不一致行为提供早期预警。可解释性也与其他安全方法相互补充,比如可扩展监督、对抗式训练和红队测试。

在这项研究中,OpenAI 展示了:有时我们能够以某些方式训练模型,使其更容易解释。这项工作是对稠密网络事后分析的一种有前景的补充。

这是一个雄心勃勃的探索方向;从本研究走向完全理解最强大模型的复杂行为仍有漫长的路要走。然而,对于简单行为,OpenAI 发现使用其方法训练的稀疏模型包含小型、解耦的电路,这些电路既可理解又足以执行对应行为。这表明:或许存在一条可行路径,可以训练更大的系统,并理解其内部机制。

一种新方法:学习稀疏模型

之前的机械可解释性研究往往从稠密、纠缠的网络入手,并试图解开它们。在这些网络中,每个神经元都与下一层的数千个神经元相连。大多数神经元很可能承担多种不同功能,使得模型几乎无法理解。

但如果从一开始就训练未纠缠的神经网络呢?这些网络拥有更多神经元,但每个神经元只与其他几十个神经元相连。或许这样产生的网络会更简单,也更容易理解。这正是本项研究的核心假设。

基于这一原则,OpenAI 训练了与 GPT-2 等现有语言模型结构非常相似的模型,只做了一个小修改:强制模型的大部分权重为零。这限制了模型只能使用极少数可能的神经元连接。这是一个简单的改变,但 OpenAI 认为,它能够显著解开模型内部的计算结构。

如下图所示,在普通稠密神经网络中,每个神经元都会连接到下一层的所有神经元。而在本文的稀疏模型中,每个神经元只连接到下一层的少数神经元。OpenAI 希望这会让神经元以及整个网络更容易理解。



评估可解释性

OpenAI 希望衡量稀疏模型的计算在多大程度上实现了解耦。他们考虑了一些简单的模型行为,并检查是否能隔离负责特定行为的模型部分 —— 称之为「电路」(circuit)。

具体地,OpenAI 人为策划了一套简单的算法任务。针对每项任务,他们将模型剪枝到执行该任务所需的最小电路,并检查该电路的简单性。结果发现,通过训练更大且更稀疏的模型,能够得到更强大且电路更简单的模型。

OpenAI 将不同模型的可解释性与能力绘制成图(如下所示)。对于固定大小的稀疏模型,提高稀疏度(设更多权重为零)会降低能力,但提升可解释性。而扩大模型规模则会扩展能力与可解释性之间的最优前沿,这表明有可能构建更强大且更可解释的更大模型。



为使其更具体,OpenAI 考虑了一个任务:模型在补全 Python 代码时必须选择正确的引号类型。

在 Python 中,‘hello’ 必须以单引号结尾,“hello” 必须以双引号结尾。模型可以通过记住字符串的起始引号类型,并在结尾复现它来完成任务。OpenAI 表示,其最可解释的模型似乎包含解耦的电路,恰好实现了这一算法。

下图展示了一个稀疏 Transformer 中的示例电路,用于预测字符串应该以单引号还是双引号结尾。该电路只使用了五个残差通道(垂直灰线)、第 0 层中的两个 MLP 神经元,以及第 10 层的一个注意力查询 - 键通道和一个值通道。模型:(1) 使用不同通道分别编码单引号和双引号;(2) 使用 MLP 层将其转换为能检测任意引号的通道,以及能区分单引号与双引号的通道;(3) 使用注意力操作忽略中间的 token,找到前一个引号,并将其类型复制到最终 token;(4) 预测匹配的结束引号。



在 OpenAI 的定义中,上述连接足以完成任务。如果移除模型的其他部分,这个小电路仍然有效。这些连接也是必要的,删除这几条边会导致模型无法完成任务。

OpenAI 还研究了一些更复杂的行为,例如下面展示的变量绑定行为,其电路更难完全解释。即便如此,OpenAI 仍能得到相对简单的部分解释,而且这些解释能够预测模型行为。下图为该电路的示例。

为了确定变量 current 的类型,一个注意力操作会在该变量被定义时将其名称复制到 set () token 上,而另一个后续的注意力操作则会将类型从 set () token 复制到变量后续的使用位置,使模型推断出正确的下一个 token。



未来走向

本项工作是迈向更易理解模型计算的第一步,未来仍有很长的路要走。本文的稀疏模型远小于前沿模型,而且它们的大部分计算仍未被解释。接下来,OpenAI 希望将这些技术扩展到更大的模型,并解释模型更多的行为。通过列举可解释的稀疏模型中更复杂推理的电路结构,或许能建立某种理解,从而更好地引导前沿模型的研究。

为了克服训练稀疏模型效率低的问题,OpenAI 看到两条前进道路:一是从现有的稠密模型中提取稀疏电路,而不是从零开始训练稀疏模型。稠密模型在部署方面本质上更高效。二是开发更高效的可解释性导向训练技术,可能更容易投入实际使用。

需要注意的是,OpenAI 的发现并不能保证这种方法能扩展到更强大的系统,但这些早期结果令人鼓舞。他们的目标是逐步扩大可以可靠解释的模型范围,并构建工具,使未来的系统更易于分析、调试和评估。

更多详细内容,可以参阅原论文:



  • 论文地址:https://cdn.openai.com/pdf/41df8f28-d4ef-43e9-aed2-823f9393e470/circuit-sparsity-paper.pdf

https://x.com/OpenAI/status/1989036214549414223

https://openai.com/index/understanding-neural-networks-through-sparse-circuits/

https://cdn.openai.com/pdf/41df8f28-d4ef-43e9-aed2-823f9393e470/circuit-sparsity-paper.pdf

https://x.com/rohanpaul_ai/status/1989074606775570839

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
6国外援候命,高市通知全球,对华打响第二枪,解放军被逼上硬菜

6国外援候命,高市通知全球,对华打响第二枪,解放军被逼上硬菜

军机Talk
2025-11-14 11:02:16
高市早苗拒不撤回!中方突然改口,刚发出最后通牒,日敢插手就打

高市早苗拒不撤回!中方突然改口,刚发出最后通牒,日敢插手就打

时时有聊
2025-11-14 09:31:40
贝克汉姆家陷僵局?大布提出和解条件:除非爸妈给老婆道歉!这...可能吗?

贝克汉姆家陷僵局?大布提出和解条件:除非爸妈给老婆道歉!这...可能吗?

英国那些事儿
2025-11-13 23:27:08
日本在准备打仗:一旦动武,日本数万部队将沉入东海?这不是预言

日本在准备打仗:一旦动武,日本数万部队将沉入东海?这不是预言

大国观察眼
2025-11-14 12:05:08
家长买“猪肉记号笔”标记新生婴儿,医院:现在基本不会抱错孩子,不推荐使用

家长买“猪肉记号笔”标记新生婴儿,医院:现在基本不会抱错孩子,不推荐使用

潇湘晨报
2025-11-14 09:15:24
从曾医生 17 分钟视频里,发现两个问题,两人现在也该反应过来了

从曾医生 17 分钟视频里,发现两个问题,两人现在也该反应过来了

诗意世界
2025-11-14 20:54:19
资金用完!全国多地已暂停汽车报废更新补贴

资金用完!全国多地已暂停汽车报废更新补贴

极目新闻
2025-11-12 22:48:27
武汉小象超市的“原切牛肉”是合成肉?厂家:是不同部位牛肉挤压后切片丨封面深镜

武汉小象超市的“原切牛肉”是合成肉?厂家:是不同部位牛肉挤压后切片丨封面深镜

封面新闻
2025-11-14 18:57:05
德国为沈伯洋打开大门后,中方宣布德财长访华,中德该好好谈谈了

德国为沈伯洋打开大门后,中方宣布德财长访华,中德该好好谈谈了

小陆搞笑日常
2025-11-15 00:14:39
杨兰兰最新消息!拒绝认罪,第四次庭审仍不现身

杨兰兰最新消息!拒绝认罪,第四次庭审仍不现身

霹雳炮
2025-11-14 19:22:49
商务部新闻发言人就荷经济大臣卡雷曼斯就安世半导体问题表态答记者问

商务部新闻发言人就荷经济大臣卡雷曼斯就安世半导体问题表态答记者问

界面新闻
2025-11-14 21:42:06
21独家|MEGA起火,理想问责14人

21独家|MEGA起火,理想问责14人

21世纪经济报道
2025-11-14 17:40:08
一旦开战中国必败?我国著名院士批主战派,要懂得甲午战争的惨败

一旦开战中国必败?我国著名院士批主战派,要懂得甲午战争的惨败

文史旺旺旺
2025-11-14 20:30:09
上海绿捷8人被逮捕,是因为遇见了一群“不明智”的家长

上海绿捷8人被逮捕,是因为遇见了一群“不明智”的家长

林中木白
2025-11-14 15:48:13
美国《外交家》:中国开始提出琉球群岛归属问题,日本的麻烦来了

美国《外交家》:中国开始提出琉球群岛归属问题,日本的麻烦来了

包明说
2025-11-13 15:06:04
重磅!中国航天首次“换船返回”展现硬实力,神二十飞船情况披露

重磅!中国航天首次“换船返回”展现硬实力,神二十飞船情况披露

派大星纪录片
2025-11-14 16:20:01
泪目!34岁刘诗雯6战全运金牌收官 满手肌贴导演0-2落后逆转超燃

泪目!34岁刘诗雯6战全运金牌收官 满手肌贴导演0-2落后逆转超燃

颜小白的篮球梦
2025-11-15 01:00:48
王中磊破产,携全家搬出庄园住进别墅,老婆愁眉苦脸被迫接受降级

王中磊破产,携全家搬出庄园住进别墅,老婆愁眉苦脸被迫接受降级

不写散文诗
2025-11-13 14:08:21
中国驻日本大使吴江浩就日本首相高市早苗涉华错误言行提出严正交涉和强烈抗议

中国驻日本大使吴江浩就日本首相高市早苗涉华错误言行提出严正交涉和强烈抗议

界面新闻
2025-11-14 21:05:38
该反思了,诈骗头目都外国抓获没收,老百姓取款都要被询问,为啥

该反思了,诈骗头目都外国抓获没收,老百姓取款都要被询问,为啥

你食不食油饼
2025-11-12 11:48:56
2025-11-15 01:23:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11720文章数 142505关注度
往期回顾 全部

科技要闻

京东“失去的五年”后,找到新增长了吗?

头条要闻

怀疑19.9元"原切牛肉卷"是合成肉消费者送检 多方回应

头条要闻

怀疑19.9元"原切牛肉卷"是合成肉消费者送检 多方回应

体育要闻

7-0狂胜!15万人口小岛离世界杯只差1分

娱乐要闻

王家卫让古二替秦雯写剧情主线?

财经要闻

财政部:加强逆周期和跨周期调节

汽车要闻

小鹏X9超级增程动态评测全网首发 高速实测车内65分贝

态度原创

游戏
手机
数码
本地
公开课

迟迟没有Switch2版!这三款任天堂第一方游戏太可惜

手机要闻

华为Mate80 Pro Max突然曝光:定制20GB大内存,双长焦也来了!

数码要闻

小米发布Xiaomi Miloco,探索大模型驱动全屋智能生活

本地新闻

云游安徽 | 江声浩荡阅千年,文脉相承看芜湖

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版