网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

OpenAI拆开AI「黑箱」，终于可以看懂GPT在想什么了

2025-11-14 22:09:58　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：元宇

【新智元导读】OpenAI的新论文介绍了他们在破解大模型「黑箱」上的一次重要突破，通过训练结构更简单、连接更稀疏的神经网络，为构建既强大又透明的模型提供全新方向。

破解大模型「黑箱」的钥匙找到了？

刚刚，在理解大模型复杂行为的道路上，OpenAI又迈出了关键一步。

他们从自己训练出来的稀疏模型里，发现存在结构小而清晰、既可理解又能完成任务的电路（这里的电路，指神经网络内部一组协同工作的特征与连接模式，是AI可解释性研究的一个术语）。

这意味着，如果真存在一种可行的方式来训练机制可解释的大型系统，它们将是破解大模型「黑箱」的钥匙。

麻省理工科技评论认为，OpenAI的新研究对于破解大模型「黑箱」意义重大：

构建一个更加透明的模型，将有助于揭示大模型的运作机制，帮助研究人员弄清模型为何会产生幻觉、为何会失控，以及我们应该在多大程度上信任它们来完成关键任务。

OpenAI在其官方博客和论文中介绍了他们的具体做法。

论文地址：https://cdn.openai.com/pdf/41df8f28-d4ef-43e9-aed2-823f9393e470/circuit-sparsity-paper.pdf

神经网络与大模型黑箱

神经网络难以理解，本质上与其结构方式、参数规模以及训练方式有关。

这些特性共同作用，造成了所谓的大模型「黑箱效应」——

我们知道它能工作，但很难精确解释它「为什么这样工作」。

由此，也带来了理解大模型工作机制，即大模型「可解释性」上的挑战。

尤其是随着大模型在科学、教育、医疗等领域的具体应用，「可解释性」问题也越来越重要。

实现大模型可解释性的方式有很多，比如通过链式思维（chain of thought）来解释大模型行为，以此来监控模型的行为。

但这种能力在未来也可能会失效。

因此，OpenAI在新研究中更关注机制可解释性（mechanistic interpretability），目标是彻底逆向工程化大模型的计算过程。

可解释性，可以帮助我们实现很多在模型安全、监督上的工作：

比如，让监督更有效，提前发现不安全或不对齐的行为等，也可以与可扩展监督、对抗训练、红队测试等其他安全工作相互补充。

虽然它的效果可能不如链式思维那样立竿见影，但在理论上，它可以更完整地解释模型的行为。

新方法

训练稀疏模型

以往关于机制可解释性的研究，好比把森林还原成一棵棵树木，一般是从密集、纠缠的神经网络出发，尝试把它们「解开」。

然而在这类网络中，一个神经元可能连着成千上万个其他神经元，大多数神经元还「身兼多职」，因此，想彻底搞清楚它们到底在干什么，几乎是不可能的。

但是，如果把一大片森林缩减成排列相对整齐的树木会怎样？

也就是训练的神经网络结构更清晰，神经元数量更多，但每个神经元只有几十个连接，这样得到的网络可能更简单，也更容易解释。

这就是OpenAI训练稀疏模型的核心想法。

基于这个原则，他们训练了一个结构与GPT-2等现有语言模型非常接近的模型，只做了一个小改动：让模型的大部分权重变成零。

这样模型就只能使用极少数连接。

OpenAI认为这个简单的改变，可以让模型内部的计算被大幅「解耦」。

上图展示的是神经网络内部连接结构的两种形式。

左边Dense（密集），显示的是普通的全连接神经网络，每个神经元都会连接到下一层的所有神经元。

右边Circuit Sparsity（稀疏电路），显示的是在稀疏模型里，每个神经元只会与下一层中的少数几个神经元相连。

稀疏模型可以让神经元本身，以及整个网络，都更容易被理解。

可解释性评估

如何衡量稀疏模型内部的计算「解耦」程度？

研究人员选取了一些简单的模型行为，检查能否找到模型中负责这些行为的部分——他们称之为电路，并整理出一套简单的算法任务。

对于每个任务，他们将模型剪枝到仍能完成任务的最小电路，并观察这个电路有多简单，结果发现：

训练更大但更稀疏的模型，往往能得到能力更强、但电路更简单的模型。

研究人员在不同模型上绘制了可解释性与模型能力之间的关系图，如上图。

对于固定规模的稀疏模型来说，提高稀疏度，即把更多权重设为零，这会降低模型能力，但会提升可解释性。

随着模型规模变大，这条前沿会整体外移，这说明我们可以构建既有能力又更可解释的更大模型。

举例来说：假设一个训练过Python代码的模型，需要用正确的引号类型补全字符串。

上图是一个稀疏Transformer中的示例电路，用来预测字符串最后应该用单引号还是双引号结尾。

该电路只使用了五个残差通道（竖直的灰色线）、第0层的两个MLP神经元，以及第10层中的一个注意力的query-key通道和一个value通道。

在一个残差通道中编码单引号，在另一个通道中编码双引号；
通过一个MLP层把它们转换为一个检测任意引号的通道，以及另一个用于区分单引号和双引号的通道；
通过注意力操作忽略中间的Token，找到前一个引号，并将它的类型复制给最后一个Token；
预测匹配的结束引号。

模型可以通过记住字符串开头的引号类型，并在结尾重现它来完成任务。

这些连接足以完成任务，这意味着把模型其他部分都删掉，这个小电路仍然能工作。

但同时，它们也是必要的，删掉这些连接模型就会失败。

在对于一些更复杂行为的研究中，完全解释这些行为的电路（比如变量绑定）会更困难，但仍然能得到相对简单、而且能预测模型行为的部分解释。

在OpenAI研究人员看来，这项工作是让模型计算更容易被理解的早期尝试，他们的稀疏模型比最前沿模型小很多，而且它们的大部分计算仍无法解释。

因为，未来还有很长的路要走。

下一步，OpenAI计划将这些技术扩展到更大的模型，并能解释更多模型行为。

在解决训练稀疏模型效率低下的问题上，OpenAI也指出了两条可能路线。

一条路线，是从现有的密集模型中提取稀疏电路，而不是从头训练稀疏模型。

另一条路线，是开发更高效的模型可解释性训练技术。

他们的目标，是逐步扩大能够可靠解释的模型范围，并构建工具，让未来的系统更容易分析、调试和评估。

这样，我们就会在追求更强大模型的同时，也让它们的解释机制更加透明，这对于清晰大模型与人类的能力边界十分重要。

作者简介

Leo Gao

据公开资料显示，Leo Gao是EleutherAI的联合创始成员之一，2021年起在OpenAI担任研究员，参与了大语言模型能力评估、奖励模型过优化、稀疏自动编码器等方向的研究。

他长期从事人工智能对齐、机器学习等工作，同时对软件开发、数学、语言学、经济学等领域也颇有兴趣。

通过参与EleutherAI和The Pile等开放项目，他在实践中推动了开放研究以及公开数据集和模型访问，并特别关注大模型规模扩展对能力与对齐带来的潜在风险。

参考资料：

https://www.technologyreview.com/2025/11/13/1127914/openais-new-llm-exposes-the-secrets-of-how-ai-really-works/%20

https://openai.com/index/understanding-neural-networks-through-sparse-circuits/

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

NeurIPS 2025 | DePass：通过单次前向传播分解实现统一特征归因

机器之心Pro 2025-12-01 14:17:39
0 跟贴 0
OpenAI头号叛徒，竟然是自学的AI?

量子位 2025-08-22 16:06:15
0 跟贴 0

Agent学会“预测同伴”，神经网络里涌现出了类社会位置细胞

DeepTech深科技 2026-01-29 11:20:03
0 跟贴 0

无需外部数据！AI自问自答实现推理能力进化

量子位 2025-08-08 15:51:21
0 跟贴 0
机器学习临床预测模型构建的一般流程

医咖会 2025-08-11 19:56:31
0 跟贴 0

谁在决定AI手机的未来：模型、系统，还是生态？

DeepTech深科技 2026-01-13 16:16:47
0 跟贴 0

Clawdbot接入10000+数据和工具后，7×24小时监听股票，杀疯了！

机器之心Pro 2026-01-30 10:19:54
0 跟贴 0
如何为LLM智能体编写工具？Anthropic官方教程来了

机器之心Pro 2025-09-12 21:50:08
0 跟贴 0

行业最大规模具身数据集！出自简智机器人GenRobot.AI

量子位 2026-01-05 17:11:41
0 跟贴 0
行业最大规模具身数据集：10Kh RealOmni-Open DataSet

量子位 2026-01-06 10:53:25
0 跟贴 0
大模型也会赌博上瘾！理智出走！

量子位 2025-11-03 07:06:08
0 跟贴 0
荒野求生（机器狗全自主版），2025ATEC挑战真实户外无遥操

量子位 2025-12-08 19:24:34
0 跟贴 0
未来医生摘得全球第一，临床安全有效性评估新基准

量子位 2025-11-19 11:14:03
0 跟贴 0
高通万卫星谈终端大模型优势：个性化与数据推理

量子位 2025-12-11 03:38:41
0 跟贴 0
陶哲轩：AI看似在推理，其实是在背答案

量子位 2026-01-05 09:20:21
0 跟贴 0
机器人管家Figure 03来了，承包一切家务！

量子位 2025-10-11 10:13:00
0 跟贴 0
五八智能四足机器人平台Q20A，适用于千行百业

量子位 2025-09-30 15:35:41
0 跟贴 0
波士顿机器狗练成“轻功”！连续七个后空翻

量子位 2025-09-07 01:03:18
0 跟贴 0
他们在1993年就提出了Scaling Law

量子位 2025-09-03 10:24:41
0 跟贴 0
孤独让大脑“生锈”！王福俤团队等Cell子刊：揭开社交隔离引发焦虑的新机制

生物世界 2026-01-28 12:23:47
0 跟贴 0
儿童补脑品牌推荐：十款优质产品，添加DHA和PS成分

印象重庆网 2026-01-27 10:26:14
0 跟贴 0
儿童补脑什么？十款精制工艺，磷脂酰丝氨酸PS神经酸DHA足量配比

前沿汽车 2026-01-26 20:48:54
0 跟贴 0
增强专注度？十款补脑品牌升级，神经酸+DHA+磷脂酰丝氨酸PS科学

前沿汽车 2026-01-26 18:43:05
0 跟贴 0
碟中谍里的军事术语

豪哥讲电影 2026-01-26 10:57:48
25 跟贴 25
航母就位特朗普狠话刷屏专家：美已错过最佳打击时间

红星新闻 2026-01-29 18:13:29
12370 跟贴 12370
钢筋基础模型制作教程，真的很好玩

科学大搜索 2026-01-28 21:36:25
1 跟贴 1
人不会无故大脑萎缩！医生提醒：大脑萎缩的人，多半有这些习惯

蜉蝣说 2026-01-29 15:15:16
18 跟贴 18
架构解耦是统一多模态模型所必须的吗？全新AIA损失：No

机器之心Pro 2025-12-02 14:25:38
0 跟贴 0
当千亿参数撞上5毫米芯片

钛媒体APP 2025-12-10 11:10:12
0 跟贴 0
吉利加速整合“AI+智驾”：印奇“双线”任职，阶跃星辰超50亿元融资落定

每日经济新闻 2026-01-30 11:40:07
0 跟贴 0
沈逸：斩杀线是美国现在的社会机制！无数枯骨铸就自由梦！

坤坤有道 2026-01-29 09:13:36
2 跟贴 2
大模型的下半场，属于拥有云+AI全栈引擎的玩家

量子位 2026-01-30 03:29:45
0 跟贴 0
年羹尧与邬思道的谋略交锋，一句灯下黑理论替雍正解围

若一说剧 2026-01-29 15:57:59
9 跟贴 9
【 AI Agent智能体精选课程】从设计模式到手撸agent框架实战，从智能体入门到SKILLS

卢菁老师 2026-01-27 09:12:35
0 跟贴 0
ThinkPad×奥比利：穿透工业“黑箱”，与思考者同行

钛媒体APP 2025-11-21 18:55:07
0 跟贴 0
性能真的不重要了吗？Jeff Dean给出反常答案

新智元 2025-12-28 17:20:51
0 跟贴 0
三巨头拟600亿联手注资OpenAI，科创人工智能ETF(589010)单边下行，思看科技涨停独撑

每日经济新闻 2026-01-30 10:35:20
0 跟贴 0
OpenAI据称拟年底冲刺IPO 与劲敌Anthropic上演上市“生死时速”

财联社 2026-01-30 10:32:12
0 跟贴 0
华为推出软工代码智能体SWE-Lego，解锁SFT训练极致性能

机器之心Pro 2026-01-13 14:54:45
0 跟贴 0
GPT-5编程成绩有猫腻！自删23道测试题，关键基准还是自己提的

量子位 2025-08-12 13:12:51
15 跟贴 15

风向变了，委代总统军权到手，美国立即归还油轮，马杜罗有救了？

风向变了，委代总统军权到手，美国立即归还油轮，马杜罗有救了？

老搽学科普

2026-01-30 10:30:45

人类对闲鱼的开发不足1%，一群神人把我笑发财了

人类对闲鱼的开发不足1%，一群神人把我笑发财了

另子维爱读史

2026-01-11 21:09:06

上海这一夜，50岁保剑锋秒了44岁张丹峰，才知内心强大的区别

上海这一夜，50岁保剑锋秒了44岁张丹峰，才知内心强大的区别

大铁猫娱乐

2026-01-28 16:30:03

什么？泽连斯基求见普京？

新民周刊

2026-01-29 09:08:55

朱高炽在位不足一年，为何能青史留名？他解决了三个天大的难题

朱高炽在位不足一年，为何能青史留名？他解决了三个天大的难题

千秋文化

2026-01-21 20:55:53

火箭104-86击败老鹰球员评价：杜兰特满分，5人及格，3人低迷

火箭104-86击败老鹰球员评价：杜兰特满分，5人及格，3人低迷

篮球资讯达人

2026-01-30 11:38:49

4个月13盒药触发红线！上海医保局出手，这笔糊涂账你算过吗？

4个月13盒药触发红线！上海医保局出手，这笔糊涂账你算过吗？

三农老历

2026-01-30 06:26:16

美媒：确认中国霹雳-17导弹真实存在，该导弹性能让美国十分担忧

美媒：确认中国霹雳-17导弹真实存在，该导弹性能让美国十分担忧

阿龙聊军事

2026-01-29 11:31:57

今晚开播！CCTV8又一年代大剧来袭，看完预告我想说：这剧要爆！

今晚开播！CCTV8又一年代大剧来袭，看完预告我想说：这剧要爆！

情感大头说说

2026-01-30 11:45:05

“花坛白骨案”，死者儿子从富二代到辍学、流浪、租房的落魄人生

“花坛白骨案”，死者儿子从富二代到辍学、流浪、租房的落魄人生

牛锅巴小钒

2026-01-30 06:44:28

站在中国领土上，英首相的一句话震动欧洲，美国直接对中国摊牌了

站在中国领土上，英首相的一句话震动欧洲，美国直接对中国摊牌了

墨兰史书

2026-01-30 00:00:03

长不长寿就看72岁，72岁若还能轻松完成这5件事，或可以活到90岁

长不长寿就看72岁，72岁若还能轻松完成这5件事，或可以活到90岁

我心纵横天地间

2026-01-29 15:19:53

特斯拉4680电池悄悄回归Model Y汽车

特斯拉4680电池悄悄回归Model Y汽车

IT之家

2026-01-29 07:54:09

1980 年张铚秀对越立功升任司令，徐帅却摇头不满，这是为何

1980 年张铚秀对越立功升任司令，徐帅却摇头不满，这是为何

唠叨说历史

2025-12-24 14:30:34

为啥城里的麻雀越来越少？而斑鸠却越来越多？两者之间有啥关系吗

为啥城里的麻雀越来越少？而斑鸠却越来越多？两者之间有啥关系吗

向航说

2026-01-24 00:45:03

珠海这天，陈晓骨瘦如柴，高圆圆红裙霸气，被李小冉眼镜造型惊艳

珠海这天，陈晓骨瘦如柴，高圆圆红裙霸气，被李小冉眼镜造型惊艳

银河史记

2026-01-29 19:03:05

库克称AirPods Pro 3太火了，苹果始料未及

库克称AirPods Pro 3太火了，苹果始料未及

IT之家

2026-01-30 08:42:09

短道速滑队出征冬奥前突发状况：主力选手被队友撞伤，正进行检查

短道速滑队出征冬奥前突发状况：主力选手被队友撞伤，正进行检查

米修体育

2026-01-30 00:19:30

出卖信任的刀，最终刺向了谁？汇丰银行为孟晚舟事件付出惊人代价

出卖信任的刀，最终刺向了谁？汇丰银行为孟晚舟事件付出惊人代价

来科点谱

2026-01-29 08:56:35

挣再多钱有什么用，61岁崔培军如今的现状，给所有企业家提了醒

挣再多钱有什么用，61岁崔培军如今的现状，给所有企业家提了醒

揽星河的笔记

2026-01-29 18:52:42

AI产业主平台领航智能+时代

14439文章数 66548关注度

往期回顾全部

科技要闻

单季狂赚3000亿；iPhone 17 全球卖疯了！

头条要闻

两名公民在本土死于联邦执法人员枪下特朗普"退缩"了

头条要闻

两名公民在本土死于联邦执法人员枪下特朗普"退缩"了

体育要闻

敢揍多尔特，此子必成大器？

娱乐要闻

金晨出事前曾灵魂发问未收到春晚邀请

财经要闻

血铅超标工人，挡在“劳动关系”门槛外

汽车要闻

全面科技化新款梅赛德斯-奔驰S级发布

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

游戏

时尚

本地

亲子

军事航空

《明日方舟：终末地》现神秘bug 角色变蓝变成阿凡达

“工装混搭风”今年爆火！全世界的时髦女人都在穿

本地新闻

云游中国｜拨开云雾，巫山每帧都是航拍大片

亲子要闻

四岁前孩子这些行为越管越耽误成长

军事要闻

中方被指支持俄生产武器外交部回应

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版