网易首页 > 网易号 > 正文 申请入驻

OpenAI新论文拆解语言模型内部机制:用「稀疏电路」解释模型行为

0
分享至

机器之心报道

编辑:杜伟

在如今的 AI 领域,大多数大语言模型在很大程度上仍以「黑箱」方式工作,即使是专业的研究者也难以完全理解它们的内部计算过程。因此,提升模型的透明度有助于分析和解释大语言模型产生幻觉、行为不稳定或在关键场景做出不可靠判断的潜在原因。

就在今天,OpenAI 发布了一项新研究,使用新方法来训练内部机制更易于解释的小型稀疏模型,其神经元之间的连接更少、更简单,从而观察它们的计算过程是否更容易被人理解。

与普通模型不同,OpenAI 发现可以从该稀疏模型中提取出简单、易于理解的部件来执行特定任务,例如在代码中正确结束字符串或跟踪变量类型。



下图为整体方法概览,首先训练权重稀疏的模型,然后针对精心挑选的一系列简单行为,将模型剪枝到仅保留完成该任务所需的节点子集。



论文一作 Leo Gao 表示,「通过隔离稀疏模型内部负责各种简单行为的微小电路,以前所未有的方式理解语言模型。」



接下来看实现细节。

如何看待可解释性?

随着 AI 系统变得越来越强大,并在科学、教育和医疗等领域的决策中产生实际影响,理解它们的工作原理至关重要。可解释性指的是帮助理解模型为何会产生某个输出的方法,实现这一点的方式有很多。

例如,推理模型在产生最终答案的过程中会被鼓励去解释自己的推理步骤。思维链(CoT)可解释性利用这些解释来监控模型行为。这种方式直接有用:当前推理模型的思维链能够提供与欺骗等令人担忧的行为相关的线索。然而,完全依赖这种特性是一种脆弱的策略,可能会随着时间的推移失效。

另一方面,本研究关注的机械可解释性试图完全逆向工程模型的计算过程。到目前为止,机械可解释性的直接效用较低,但原则上,它可以对模型行为提供更加完整的解释。通过尝试在最细粒度层面解释模型行为,机械可解释性可以减少假设,让我们拥有更多信心。但是,从低层次细节推导复杂行为的解释,是一条更长且更困难的道路。

可解释性支持多个关键目标,例如实现更好的监督、为不安全或策略不一致行为提供早期预警。可解释性也与其他安全方法相互补充,比如可扩展监督、对抗式训练和红队测试。

在这项研究中,OpenAI 展示了:有时我们能够以某些方式训练模型,使其更容易解释。这项工作是对稠密网络事后分析的一种有前景的补充。

这是一个雄心勃勃的探索方向;从本研究走向完全理解最强大模型的复杂行为仍有漫长的路要走。然而,对于简单行为,OpenAI 发现使用其方法训练的稀疏模型包含小型、解耦的电路,这些电路既可理解又足以执行对应行为。这表明:或许存在一条可行路径,可以训练更大的系统,并理解其内部机制。

一种新方法:学习稀疏模型

之前的机械可解释性研究往往从稠密、纠缠的网络入手,并试图解开它们。在这些网络中,每个神经元都与下一层的数千个神经元相连。大多数神经元很可能承担多种不同功能,使得模型几乎无法理解。

但如果从一开始就训练未纠缠的神经网络呢?这些网络拥有更多神经元,但每个神经元只与其他几十个神经元相连。或许这样产生的网络会更简单,也更容易理解。这正是本项研究的核心假设。

基于这一原则,OpenAI 训练了与 GPT-2 等现有语言模型结构非常相似的模型,只做了一个小修改:强制模型的大部分权重为零。这限制了模型只能使用极少数可能的神经元连接。这是一个简单的改变,但 OpenAI 认为,它能够显著解开模型内部的计算结构。

如下图所示,在普通稠密神经网络中,每个神经元都会连接到下一层的所有神经元。而在本文的稀疏模型中,每个神经元只连接到下一层的少数神经元。OpenAI 希望这会让神经元以及整个网络更容易理解。



评估可解释性

OpenAI 希望衡量稀疏模型的计算在多大程度上实现了解耦。他们考虑了一些简单的模型行为,并检查是否能隔离负责特定行为的模型部分 —— 称之为「电路」(circuit)。

具体地,OpenAI 人为策划了一套简单的算法任务。针对每项任务,他们将模型剪枝到执行该任务所需的最小电路,并检查该电路的简单性。结果发现,通过训练更大且更稀疏的模型,能够得到更强大且电路更简单的模型。

OpenAI 将不同模型的可解释性与能力绘制成图(如下所示)。对于固定大小的稀疏模型,提高稀疏度(设更多权重为零)会降低能力,但提升可解释性。而扩大模型规模则会扩展能力与可解释性之间的最优前沿,这表明有可能构建更强大且更可解释的更大模型。



为使其更具体,OpenAI 考虑了一个任务:模型在补全 Python 代码时必须选择正确的引号类型。

在 Python 中,‘hello’ 必须以单引号结尾,“hello” 必须以双引号结尾。模型可以通过记住字符串的起始引号类型,并在结尾复现它来完成任务。OpenAI 表示,其最可解释的模型似乎包含解耦的电路,恰好实现了这一算法。

下图展示了一个稀疏 Transformer 中的示例电路,用于预测字符串应该以单引号还是双引号结尾。该电路只使用了五个残差通道(垂直灰线)、第 0 层中的两个 MLP 神经元,以及第 10 层的一个注意力查询 - 键通道和一个值通道。模型:(1) 使用不同通道分别编码单引号和双引号;(2) 使用 MLP 层将其转换为能检测任意引号的通道,以及能区分单引号与双引号的通道;(3) 使用注意力操作忽略中间的 token,找到前一个引号,并将其类型复制到最终 token;(4) 预测匹配的结束引号。



在 OpenAI 的定义中,上述连接足以完成任务。如果移除模型的其他部分,这个小电路仍然有效。这些连接也是必要的,删除这几条边会导致模型无法完成任务。

OpenAI 还研究了一些更复杂的行为,例如下面展示的变量绑定行为,其电路更难完全解释。即便如此,OpenAI 仍能得到相对简单的部分解释,而且这些解释能够预测模型行为。下图为该电路的示例。

为了确定变量 current 的类型,一个注意力操作会在该变量被定义时将其名称复制到 set () token 上,而另一个后续的注意力操作则会将类型从 set () token 复制到变量后续的使用位置,使模型推断出正确的下一个 token。



未来走向

本项工作是迈向更易理解模型计算的第一步,未来仍有很长的路要走。本文的稀疏模型远小于前沿模型,而且它们的大部分计算仍未被解释。接下来,OpenAI 希望将这些技术扩展到更大的模型,并解释模型更多的行为。通过列举可解释的稀疏模型中更复杂推理的电路结构,或许能建立某种理解,从而更好地引导前沿模型的研究。

为了克服训练稀疏模型效率低的问题,OpenAI 看到两条前进道路:一是从现有的稠密模型中提取稀疏电路,而不是从零开始训练稀疏模型。稠密模型在部署方面本质上更高效。二是开发更高效的可解释性导向训练技术,可能更容易投入实际使用。

需要注意的是,OpenAI 的发现并不能保证这种方法能扩展到更强大的系统,但这些早期结果令人鼓舞。他们的目标是逐步扩大可以可靠解释的模型范围,并构建工具,使未来的系统更易于分析、调试和评估。

更多详细内容,可以参阅原论文:



  • 论文地址:https://cdn.openai.com/pdf/41df8f28-d4ef-43e9-aed2-823f9393e470/circuit-sparsity-paper.pdf

https://x.com/OpenAI/status/1989036214549414223

https://openai.com/index/understanding-neural-networks-through-sparse-circuits/

https://cdn.openai.com/pdf/41df8f28-d4ef-43e9-aed2-823f9393e470/circuit-sparsity-paper.pdf

https://x.com/rohanpaul_ai/status/1989074606775570839

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
台媒:高雄一渔港发现浮尸,台海军证实死者为一名现役海军士官

台媒:高雄一渔港发现浮尸,台海军证实死者为一名现役海军士官

环球网资讯
2026-01-14 17:49:18
美国已经犯下三个致命错误,败局已定了

美国已经犯下三个致命错误,败局已定了

农夫史记
2026-01-12 20:52:58
美国与中国大陆将协议两岸统一!

美国与中国大陆将协议两岸统一!

雪中风车
2026-01-13 20:33:50
CBA打完14轮,最值得入选国家队的5位球员!徐杰领衔,徐昕在列

CBA打完14轮,最值得入选国家队的5位球员!徐杰领衔,徐昕在列

多特体育说
2026-01-14 22:10:32
肥肠再次成为关注对象!研究发现:常吃肥肠,身体会收获3大好处

肥肠再次成为关注对象!研究发现:常吃肥肠,身体会收获3大好处

全球军事记
2025-12-29 21:28:37
影后辛芷蕾,这张照片摄影师得加鸡腿,抓拍的太到位了

影后辛芷蕾,这张照片摄影师得加鸡腿,抓拍的太到位了

徐帮阳
2025-12-23 18:33:38
00后业界顶流(楪可怜),极品巨乳小只马,童颜系天花板

00后业界顶流(楪可怜),极品巨乳小只马,童颜系天花板

碧波万览
2026-01-15 00:24:29
这就是公开辱华的后果!取消冠军头衔只是开始,职业生涯也全毁了

这就是公开辱华的后果!取消冠军头衔只是开始,职业生涯也全毁了

阿凫爱吐槽
2025-12-17 17:24:39
44岁阿娇与43岁阿sa同框,一个脸肿一个纯天然,骨相皮相差距明显

44岁阿娇与43岁阿sa同框,一个脸肿一个纯天然,骨相皮相差距明显

千言娱乐记
2026-01-13 21:51:16
朱亚文领衔,倪大红梅婷加盟,全是实力派,50集古装历史大剧来了

朱亚文领衔,倪大红梅婷加盟,全是实力派,50集古装历史大剧来了

林木体育解说
2026-01-13 16:03:46
伊朗一夜之间稳住局面,特朗普一怒之下,威胁对中国重启关税战?

伊朗一夜之间稳住局面,特朗普一怒之下,威胁对中国重启关税战?

小兰聊历史
2026-01-15 02:47:37
全了!各年龄段血压、血糖、血脂、尿酸对照表,果断收藏

全了!各年龄段血压、血糖、血脂、尿酸对照表,果断收藏

华人星光
2026-01-12 13:14:21
国产车企警惕!特斯拉FSD即将入华,技术代差恐进一步拉大

国产车企警惕!特斯拉FSD即将入华,技术代差恐进一步拉大

燕梳楼频道
2026-01-12 21:14:25
心理学中有个词叫:拆屋效应(拿捏一个人,最有效的方式,不是谈条件,也不是画大饼,而是利用「拆屋效应」)

心理学中有个词叫:拆屋效应(拿捏一个人,最有效的方式,不是谈条件,也不是画大饼,而是利用「拆屋效应」)

经济观察网
2025-12-04 09:25:48
演员王劲松过往言论突然上了热搜

演员王劲松过往言论突然上了热搜

映射生活的身影
2026-01-13 19:10:11
两岸喜讯!大陆没想到,没等正式收台,台当局先送来2份“大礼”

两岸喜讯!大陆没想到,没等正式收台,台当局先送来2份“大礼”

趣生活
2026-01-10 22:29:06
广东丨病人在医院点15元一份的餐食,到手的竟是网上8.9元的“拼好饭”?点餐要警惕!

广东丨病人在医院点15元一份的餐食,到手的竟是网上8.9元的“拼好饭”?点餐要警惕!

广东活动
2026-01-14 12:10:45
86年我放走一个越南女兵,33年后我刚出越南机场就被一排军车接走

86年我放走一个越南女兵,33年后我刚出越南机场就被一排军车接走

萧竹轻语
2025-12-05 17:38:25
2026春节档陆续有十部电影上映,周星驰两部,你期待哪几部?

2026春节档陆续有十部电影上映,周星驰两部,你期待哪几部?

小Q侃电影
2026-01-14 13:42:26
外媒:伊斯兰革命卫队航空航天部队司令称,德黑兰已做好“最高级别的准备”,以应对任何袭击

外媒:伊斯兰革命卫队航空航天部队司令称,德黑兰已做好“最高级别的准备”,以应对任何袭击

环球网资讯
2026-01-14 19:13:14
2026-01-15 04:19:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12117文章数 142536关注度
往期回顾 全部

科技要闻

携程因涉嫌垄断被市场监管总局调查

头条要闻

外媒揭美对伊朗动手方案:派特种部队对高层实施"斩首"

头条要闻

外媒揭美对伊朗动手方案:派特种部队对高层实施"斩首"

体育要闻

你是个好球员,我们就拿你交易吧

娱乐要闻

网红彭十六偷税被封杀 曾成功转型明星

财经要闻

携程被立案调查,最高或被罚超50亿

汽车要闻

曝Model Y或降到20万以内!

态度原创

本地
教育
时尚
房产
公开课

本地新闻

邵阳公益诉讼检察主题曲:《守望星》

教育要闻

年轻妈妈带男孩坐地铁,坐姿引发热议!网友:这才是真正的“炫富”!

最时髦的单品,难道不是背肌吗?

房产要闻

热销17亿后!天正·三亚湾壹号,被爆违建!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版