网易首页 > 网易号 > 正文 申请入驻

OpenAI新论文拆解语言模型内部机制:用「稀疏电路」解释模型行为

0
分享至

机器之心报道

编辑:杜伟

在如今的 AI 领域,大多数大语言模型在很大程度上仍以「黑箱」方式工作,即使是专业的研究者也难以完全理解它们的内部计算过程。因此,提升模型的透明度有助于分析和解释大语言模型产生幻觉、行为不稳定或在关键场景做出不可靠判断的潜在原因。

就在今天,OpenAI 发布了一项新研究,使用新方法来训练内部机制更易于解释的小型稀疏模型,其神经元之间的连接更少、更简单,从而观察它们的计算过程是否更容易被人理解。

与普通模型不同,OpenAI 发现可以从该稀疏模型中提取出简单、易于理解的部件来执行特定任务,例如在代码中正确结束字符串或跟踪变量类型。



下图为整体方法概览,首先训练权重稀疏的模型,然后针对精心挑选的一系列简单行为,将模型剪枝到仅保留完成该任务所需的节点子集。



论文一作 Leo Gao 表示,「通过隔离稀疏模型内部负责各种简单行为的微小电路,以前所未有的方式理解语言模型。」



接下来看实现细节。

如何看待可解释性?

随着 AI 系统变得越来越强大,并在科学、教育和医疗等领域的决策中产生实际影响,理解它们的工作原理至关重要。可解释性指的是帮助理解模型为何会产生某个输出的方法,实现这一点的方式有很多。

例如,推理模型在产生最终答案的过程中会被鼓励去解释自己的推理步骤。思维链(CoT)可解释性利用这些解释来监控模型行为。这种方式直接有用:当前推理模型的思维链能够提供与欺骗等令人担忧的行为相关的线索。然而,完全依赖这种特性是一种脆弱的策略,可能会随着时间的推移失效。

另一方面,本研究关注的机械可解释性试图完全逆向工程模型的计算过程。到目前为止,机械可解释性的直接效用较低,但原则上,它可以对模型行为提供更加完整的解释。通过尝试在最细粒度层面解释模型行为,机械可解释性可以减少假设,让我们拥有更多信心。但是,从低层次细节推导复杂行为的解释,是一条更长且更困难的道路。

可解释性支持多个关键目标,例如实现更好的监督、为不安全或策略不一致行为提供早期预警。可解释性也与其他安全方法相互补充,比如可扩展监督、对抗式训练和红队测试。

在这项研究中,OpenAI 展示了:有时我们能够以某些方式训练模型,使其更容易解释。这项工作是对稠密网络事后分析的一种有前景的补充。

这是一个雄心勃勃的探索方向;从本研究走向完全理解最强大模型的复杂行为仍有漫长的路要走。然而,对于简单行为,OpenAI 发现使用其方法训练的稀疏模型包含小型、解耦的电路,这些电路既可理解又足以执行对应行为。这表明:或许存在一条可行路径,可以训练更大的系统,并理解其内部机制。

一种新方法:学习稀疏模型

之前的机械可解释性研究往往从稠密、纠缠的网络入手,并试图解开它们。在这些网络中,每个神经元都与下一层的数千个神经元相连。大多数神经元很可能承担多种不同功能,使得模型几乎无法理解。

但如果从一开始就训练未纠缠的神经网络呢?这些网络拥有更多神经元,但每个神经元只与其他几十个神经元相连。或许这样产生的网络会更简单,也更容易理解。这正是本项研究的核心假设。

基于这一原则,OpenAI 训练了与 GPT-2 等现有语言模型结构非常相似的模型,只做了一个小修改:强制模型的大部分权重为零。这限制了模型只能使用极少数可能的神经元连接。这是一个简单的改变,但 OpenAI 认为,它能够显著解开模型内部的计算结构。

如下图所示,在普通稠密神经网络中,每个神经元都会连接到下一层的所有神经元。而在本文的稀疏模型中,每个神经元只连接到下一层的少数神经元。OpenAI 希望这会让神经元以及整个网络更容易理解。



评估可解释性

OpenAI 希望衡量稀疏模型的计算在多大程度上实现了解耦。他们考虑了一些简单的模型行为,并检查是否能隔离负责特定行为的模型部分 —— 称之为「电路」(circuit)。

具体地,OpenAI 人为策划了一套简单的算法任务。针对每项任务,他们将模型剪枝到执行该任务所需的最小电路,并检查该电路的简单性。结果发现,通过训练更大且更稀疏的模型,能够得到更强大且电路更简单的模型。

OpenAI 将不同模型的可解释性与能力绘制成图(如下所示)。对于固定大小的稀疏模型,提高稀疏度(设更多权重为零)会降低能力,但提升可解释性。而扩大模型规模则会扩展能力与可解释性之间的最优前沿,这表明有可能构建更强大且更可解释的更大模型。



为使其更具体,OpenAI 考虑了一个任务:模型在补全 Python 代码时必须选择正确的引号类型。

在 Python 中,‘hello’ 必须以单引号结尾,“hello” 必须以双引号结尾。模型可以通过记住字符串的起始引号类型,并在结尾复现它来完成任务。OpenAI 表示,其最可解释的模型似乎包含解耦的电路,恰好实现了这一算法。

下图展示了一个稀疏 Transformer 中的示例电路,用于预测字符串应该以单引号还是双引号结尾。该电路只使用了五个残差通道(垂直灰线)、第 0 层中的两个 MLP 神经元,以及第 10 层的一个注意力查询 - 键通道和一个值通道。模型:(1) 使用不同通道分别编码单引号和双引号;(2) 使用 MLP 层将其转换为能检测任意引号的通道,以及能区分单引号与双引号的通道;(3) 使用注意力操作忽略中间的 token,找到前一个引号,并将其类型复制到最终 token;(4) 预测匹配的结束引号。



在 OpenAI 的定义中,上述连接足以完成任务。如果移除模型的其他部分,这个小电路仍然有效。这些连接也是必要的,删除这几条边会导致模型无法完成任务。

OpenAI 还研究了一些更复杂的行为,例如下面展示的变量绑定行为,其电路更难完全解释。即便如此,OpenAI 仍能得到相对简单的部分解释,而且这些解释能够预测模型行为。下图为该电路的示例。

为了确定变量 current 的类型,一个注意力操作会在该变量被定义时将其名称复制到 set () token 上,而另一个后续的注意力操作则会将类型从 set () token 复制到变量后续的使用位置,使模型推断出正确的下一个 token。



未来走向

本项工作是迈向更易理解模型计算的第一步,未来仍有很长的路要走。本文的稀疏模型远小于前沿模型,而且它们的大部分计算仍未被解释。接下来,OpenAI 希望将这些技术扩展到更大的模型,并解释模型更多的行为。通过列举可解释的稀疏模型中更复杂推理的电路结构,或许能建立某种理解,从而更好地引导前沿模型的研究。

为了克服训练稀疏模型效率低的问题,OpenAI 看到两条前进道路:一是从现有的稠密模型中提取稀疏电路,而不是从零开始训练稀疏模型。稠密模型在部署方面本质上更高效。二是开发更高效的可解释性导向训练技术,可能更容易投入实际使用。

需要注意的是,OpenAI 的发现并不能保证这种方法能扩展到更强大的系统,但这些早期结果令人鼓舞。他们的目标是逐步扩大可以可靠解释的模型范围,并构建工具,使未来的系统更易于分析、调试和评估。

更多详细内容,可以参阅原论文:



  • 论文地址:https://cdn.openai.com/pdf/41df8f28-d4ef-43e9-aed2-823f9393e470/circuit-sparsity-paper.pdf

https://x.com/OpenAI/status/1989036214549414223

https://openai.com/index/understanding-neural-networks-through-sparse-circuits/

https://cdn.openai.com/pdf/41df8f28-d4ef-43e9-aed2-823f9393e470/circuit-sparsity-paper.pdf

https://x.com/rohanpaul_ai/status/1989074606775570839

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中企宣布回购光刻机,外媒称ASML专利权面临挑战

中企宣布回购光刻机,外媒称ASML专利权面临挑战

原来仙女不讲理
2025-11-13 13:21:00
郭台铭:如果有人敢来进攻台湾,我就派8万个机器人去和他们打

郭台铭:如果有人敢来进攻台湾,我就派8万个机器人去和他们打

文史旺旺旺
2025-09-05 18:30:03
侯勇也没想到,那个被自己抛弃12年的糟糠之妻,也开始走上坡路了

侯勇也没想到,那个被自己抛弃12年的糟糠之妻,也开始走上坡路了

往史过眼云烟
2025-11-14 21:43:27
七国集团拉上8个国家一起开会,不仅没请中国,还支持日本立场

七国集团拉上8个国家一起开会,不仅没请中国,还支持日本立场

坠入二次元的海洋
2025-11-14 11:00:13
岳云鹏没想到,自己的演唱会竟然让一个沉寂了20几年的歌手唱火了

岳云鹏没想到,自己的演唱会竟然让一个沉寂了20几年的歌手唱火了

乐悠悠娱乐
2025-11-13 16:23:06
黄磊给马頔准备了一个新婚红包,非常厚且大,打开一看居然不是钱

黄磊给马頔准备了一个新婚红包,非常厚且大,打开一看居然不是钱

乐悠悠娱乐
2025-11-14 15:40:05
央视对全红婵的称呼变了!两字之差看出差距,陈芋汐的话有人信了

央视对全红婵的称呼变了!两字之差看出差距,陈芋汐的话有人信了

泠泠说史
2025-11-12 17:24:02
大疆之后,深圳五个年轻人,又杀出一个“全球第一”!

大疆之后,深圳五个年轻人,又杀出一个“全球第一”!

史纪文谭
2025-11-12 11:24:53
央视力推都没用?《隐锋》遭恶评,这两位“戏混子”有很大责任!

央视力推都没用?《隐锋》遭恶评,这两位“戏混子”有很大责任!

沧海一书客
2025-11-13 18:29:54
上市8年造假8年,创始人套现20.2亿后离场,国资24亿投资全亏光

上市8年造假8年,创始人套现20.2亿后离场,国资24亿投资全亏光

文史旺旺旺
2025-11-13 21:42:28
中国共产党内蒙古自治区第十一届委员会第十次全体会议公报

中国共产党内蒙古自治区第十一届委员会第十次全体会议公报

北疆新闻
2025-11-14 20:05:05
神秘培训机构内男女学员赤裸上身集体狂舞,隐私成洗脑工具

神秘培训机构内男女学员赤裸上身集体狂舞,隐私成洗脑工具

诗意世界
2025-11-14 21:15:23
雷霆开局12胜1负!追平72胜公牛,但冲击70胜还有3个拦路虎!

雷霆开局12胜1负!追平72胜公牛,但冲击70胜还有3个拦路虎!

田先生篮球
2025-11-13 22:52:28
全运会乒乓球爆大冷,女单名将被淘汰,陈梦翻盘,球迷为一人惋惜

全运会乒乓球爆大冷,女单名将被淘汰,陈梦翻盘,球迷为一人惋惜

寒士之言本尊
2025-11-14 23:14:10
上港与大连英博比赛没开踢,就有望迎来两位久违强援,引发热议

上港与大连英博比赛没开踢,就有望迎来两位久违强援,引发热议

阿瀿武器装备
2025-11-13 21:02:10
人民币结算遭“封杀”!美元收割3万亿,中国380亿损失咋翻盘?

人民币结算遭“封杀”!美元收割3万亿,中国380亿损失咋翻盘?

阿伧说事
2025-11-14 10:17:18
郑丽文会见三国驻台代表,国民党副主席张荣恭访陆,侯友宜不装了

郑丽文会见三国驻台代表,国民党副主席张荣恭访陆,侯友宜不装了

南宫一二
2025-11-14 16:04:30
河南省委机要局原局长张世平接受审查调查

河南省委机要局原局长张世平接受审查调查

界面新闻
2025-11-14 16:02:40
砸70亿!新疆第一座超高层5星酒店已破100米大关!

砸70亿!新疆第一座超高层5星酒店已破100米大关!

GA环球建筑
2025-11-14 11:48:18
广东一20岁瘫痪小伙绑氢气球将自己升入百米高空,降落时剪断绳子摔落,残联回应:具体情况正了解中

广东一20岁瘫痪小伙绑氢气球将自己升入百米高空,降落时剪断绳子摔落,残联回应:具体情况正了解中

观威海
2025-11-13 10:26:06
2025-11-14 23:47:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11720文章数 142505关注度
往期回顾 全部

科技要闻

京东“失去的五年”后,找到新增长了吗?

头条要闻

贵州盘州花亿元建"世界最大人造月亮"项目 已停运5年

头条要闻

贵州盘州花亿元建"世界最大人造月亮"项目 已停运5年

体育要闻

7-0狂胜!15万人口小岛离世界杯只差1分

娱乐要闻

王家卫让古二替秦雯写剧情主线?

财经要闻

财政部:加强逆周期和跨周期调节

汽车要闻

小鹏X9超级增程动态评测全网首发 高速实测车内65分贝

态度原创

亲子
房产
健康
公开课
军事航空

亲子要闻

儿童健康展与童书展同步启幕 全产业链赋能孩子身心成长

房产要闻

共话产业变革下的投资新思维与新机遇|蓝湾财富论坛精华

金振口服液助力科学应对呼吸道疾病

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

国防部:日方若胆敢铤而走险必将碰得头破血流

无障碍浏览 进入关怀版