网易首页 > 网易号 > 正文 申请入驻

OpenAI拆开AI「黑箱」,终于可以看懂GPT在想什么了

0
分享至


新智元报道

编辑:元宇

【新智元导读】OpenAI的新论文介绍了他们在破解大模型「黑箱」上的一次重要突破,通过训练结构更简单、连接更稀疏的神经网络,为构建既强大又透明的模型提供全新方向。

破解大模型「黑箱」的钥匙找到了?

刚刚,在理解大模型复杂行为的道路上,OpenAI又迈出了关键一步。


他们从自己训练出来的稀疏模型里,发现存在结构小而清晰、既可理解又能完成任务的电路(这里的电路,指神经网络内部一组协同工作的特征与连接模式,是AI可解释性研究的一个术语)。

这意味着,如果真存在一种可行的方式来训练机制可解释的大型系统,它们将是破解大模型「黑箱」的钥匙。

麻省理工科技评论认为,OpenAI的新研究对于破解大模型「黑箱」意义重大:

构建一个更加透明的模型,将有助于揭示大模型的运作机制,帮助研究人员弄清模型为何会产生幻觉、为何会失控,以及我们应该在多大程度上信任它们来完成关键任务。

OpenAI在其官方博客和论文中介绍了他们的具体做法。



论文地址:https://cdn.openai.com/pdf/41df8f28-d4ef-43e9-aed2-823f9393e470/circuit-sparsity-paper.pdf

神经网络与大模型黑箱

神经网络难以理解,本质上与其结构方式、参数规模以及训练方式有关。

这些特性共同作用,造成了所谓的大模型「黑箱效应」——

我们知道它能工作,但很难精确解释它「为什么这样工作」。

由此,也带来了理解大模型工作机制,即大模型「可解释性」上的挑战。

尤其是随着大模型在科学、教育、医疗等领域的具体应用,「可解释性」问题也越来越重要。

实现大模型可解释性的方式有很多,比如通过链式思维(chain of thought)来解释大模型行为,以此来监控模型的行为。

但这种能力在未来也可能会失效。

因此,OpenAI在新研究中更关注机制可解释性(mechanistic interpretability),目标是彻底逆向工程化大模型的计算过程。

可解释性,可以帮助我们实现很多在模型安全、监督上的工作:

比如,让监督更有效,提前发现不安全或不对齐的行为等,也可以与可扩展监督、对抗训练、红队测试等其他安全工作相互补充。

虽然它的效果可能不如链式思维那样立竿见影,但在理论上,它可以更完整地解释模型的行为。

新方法

训练稀疏模型

以往关于机制可解释性的研究,好比把森林还原成一棵棵树木,一般是从密集、纠缠的神经网络出发,尝试把它们「解开」。

然而在这类网络中,一个神经元可能连着成千上万个其他神经元,大多数神经元还「身兼多职」,因此,想彻底搞清楚它们到底在干什么,几乎是不可能的。

但是,如果把一大片森林缩减成排列相对整齐的树木会怎样?

也就是训练的神经网络结构更清晰,神经元数量更多,但每个神经元只有几十个连接,这样得到的网络可能更简单,也更容易解释。

这就是OpenAI训练稀疏模型的核心想法。

基于这个原则,他们训练了一个结构与GPT-2等现有语言模型非常接近的模型,只做了一个小改动:让模型的大部分权重变成零。

这样模型就只能使用极少数连接。

OpenAI认为这个简单的改变,可以让模型内部的计算被大幅「解耦」。


上图展示的是神经网络内部连接结构的两种形式。

左边Dense(密集),显示的是普通的全连接神经网络,每个神经元都会连接到下一层的所有神经元。

右边Circuit Sparsity(稀疏电路),显示的是在稀疏模型里,每个神经元只会与下一层中的少数几个神经元相连。

稀疏模型可以让神经元本身,以及整个网络,都更容易被理解。

可解释性评估

如何衡量稀疏模型内部的计算「解耦」程度?

研究人员选取了一些简单的模型行为,检查能否找到模型中负责这些行为的部分——他们称之为电路,并整理出一套简单的算法任务。

对于每个任务,他们将模型剪枝到仍能完成任务的最小电路,并观察这个电路有多简单,结果发现:

训练更大但更稀疏的模型,往往能得到能力更强、但电路更简单的模型。


研究人员在不同模型上绘制了可解释性与模型能力之间的关系图,如上图。

对于固定规模的稀疏模型来说,提高稀疏度,即把更多权重设为零,这会降低模型能力,但会提升可解释性。

随着模型规模变大,这条前沿会整体外移,这说明我们可以构建既有能力又更可解释的更大模型。

举例来说:假设一个训练过Python代码的模型,需要用正确的引号类型补全字符串。


上图是一个稀疏Transformer中的示例电路,用来预测字符串最后应该用单引号还是双引号结尾。

该电路只使用了五个残差通道(竖直的灰色线)、第0层的两个MLP神经元,以及第10层中的一个注意力的query-key通道和一个value通道。

  • 在一个残差通道中编码单引号,在另一个通道中编码双引号;

  • 通过一个MLP层把它们转换为一个检测任意引号的通道,以及另一个用于区分单引号和双引号的通道;

  • 通过注意力操作忽略中间的Token,找到前一个引号,并将它的类型复制给最后一个Token;

  • 预测匹配的结束引号。

模型可以通过记住字符串开头的引号类型,并在结尾重现它来完成任务。

这些连接足以完成任务,这意味着把模型其他部分都删掉,这个小电路仍然能工作。

但同时,它们也是必要的,删掉这些连接模型就会失败。


在对于一些更复杂行为的研究中,完全解释这些行为的电路(比如变量绑定)会更困难,但仍然能得到相对简单、而且能预测模型行为的部分解释。

在OpenAI研究人员看来,这项工作是让模型计算更容易被理解的早期尝试,他们的稀疏模型比最前沿模型小很多,而且它们的大部分计算仍无法解释。

因为,未来还有很长的路要走。

下一步,OpenAI计划将这些技术扩展到更大的模型,并能解释更多模型行为。

在解决训练稀疏模型效率低下的问题上,OpenAI也指出了两条可能路线。

一条路线,是从现有的密集模型中提取稀疏电路,而不是从头训练稀疏模型。

另一条路线,是开发更高效的模型可解释性训练技术。

他们的目标,是逐步扩大能够可靠解释的模型范围,并构建工具,让未来的系统更容易分析、调试和评估。

这样,我们就会在追求更强大模型的同时,也让它们的解释机制更加透明,这对于清晰大模型与人类的能力边界十分重要。

作者简介

Leo Gao


据公开资料显示,Leo Gao是EleutherAI的联合创始成员之一,2021年起在OpenAI担任研究员,参与了大语言模型能力评估、奖励模型过优化、稀疏自动编码器等方向的研究。

他长期从事人工智能对齐、机器学习等工作,同时对软件开发、数学、语言学、经济学等领域也颇有兴趣。

通过参与EleutherAI和The Pile等开放项目,他在实践中推动了开放研究以及公开数据集和模型访问,并特别关注大模型规模扩展对能力与对齐带来的潜在风险。

参考资料:

https://www.technologyreview.com/2025/11/13/1127914/openais-new-llm-exposes-the-secrets-of-how-ai-really-works/%20

https://openai.com/index/understanding-neural-networks-through-sparse-circuits/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
实在是高!美学者:统一应尊重台湾人。高志凯:林肯尊重南方吗?

实在是高!美学者:统一应尊重台湾人。高志凯:林肯尊重南方吗?

李博世财经
2025-11-15 17:12:18
不准踏入中国市场一步?我国下达“逐客令”,三星彻底炸锅:恳请放过

不准踏入中国市场一步?我国下达“逐客令”,三星彻底炸锅:恳请放过

白梦日记
2025-11-15 20:11:28
一场全运百米预赛结束中国历史TOP10换俩人 李泽洋10秒08太炸裂!

一场全运百米预赛结束中国历史TOP10换俩人 李泽洋10秒08太炸裂!

劲爆体坛
2025-11-16 13:18:05
两个小药丸儿,一个助硬,一个延时长,在家门口的药店就能买到

两个小药丸儿,一个助硬,一个延时长,在家门口的药店就能买到

中医陈旺医生
2025-11-14 10:43:05
又暴雷!48小时卷走129亿,200万会员血本无归,“传销巨头”凉了

又暴雷!48小时卷走129亿,200万会员血本无归,“传销巨头”凉了

墨印斋
2025-11-11 16:31:34
人民日报专访,揭开32岁周深的真实处境,那英确实一个字都没说错

人民日报专访,揭开32岁周深的真实处境,那英确实一个字都没说错

八斗小先生
2025-11-01 08:46:54
美媒公开中国轰炸计划:日本若敢走错半步,将被万枚导弹轰炸成渣

美媒公开中国轰炸计划:日本若敢走错半步,将被万枚导弹轰炸成渣

标体
2025-11-14 19:47:19
小米粥再次被关注,内分泌医生:高血糖患者喝小米粥,有5大改善

小米粥再次被关注,内分泌医生:高血糖患者喝小米粥,有5大改善

朗威游戏说
2025-11-14 14:22:35
日本人扛不住了!高市早苗对央行下手,日元狂跌,丰田却多赚百亿

日本人扛不住了!高市早苗对央行下手,日元狂跌,丰田却多赚百亿

云上乌托邦
2025-11-15 15:03:50
全运会最新金牌榜!山东35金第一,广东缩小差距,江苏反超浙江

全运会最新金牌榜!山东35金第一,广东缩小差距,江苏反超浙江

老吴说体育
2025-11-16 10:57:27
比亚迪远程锁死印度电动大巴!看清印度宰客套路让其如意算盘落空

比亚迪远程锁死印度电动大巴!看清印度宰客套路让其如意算盘落空

诗意世界
2025-11-15 11:01:48
突发特讯!中国外交部提醒避免赴日,日方紧急表态,罕见措辞引爆国际舆论

突发特讯!中国外交部提醒避免赴日,日方紧急表态,罕见措辞引爆国际舆论

青风点评
2025-11-16 13:02:15
古二最新录音终极爆料,30万一集金牌编剧彻底塌了

古二最新录音终极爆料,30万一集金牌编剧彻底塌了

穿透
2025-11-15 22:36:49
有这5个特征,证明你的胰岛很健康,若满足3个,那就值得庆幸

有这5个特征,证明你的胰岛很健康,若满足3个,那就值得庆幸

普陀动物世界
2025-11-16 11:06:14
联盟第一!雷霆轻取黄蜂14战13胜领跑 亚历山大三节33+7

联盟第一!雷霆轻取黄蜂14战13胜领跑 亚历山大三节33+7

醉卧浮生
2025-11-16 10:09:35
招商局集团有限公司原副总经理李百安接受审查调查

招商局集团有限公司原副总经理李百安接受审查调查

界面新闻
2025-11-16 11:02:38
神奇教练!安东尼奥执教中国国字号以来:已连赢沙特伊朗韩国!

神奇教练!安东尼奥执教中国国字号以来:已连赢沙特伊朗韩国!

邱泽云
2025-11-16 14:59:42
高市一刻也等不了了!一架专机飞抵中国,这次派的高官,很有讲究

高市一刻也等不了了!一架专机飞抵中国,这次派的高官,很有讲究

寻墨阁
2025-11-12 21:14:07
我给市长开10年车辞职他避而不见,一周后省委书记送来份机密调令

我给市长开10年车辞职他避而不见,一周后省委书记送来份机密调令

秋风专栏
2025-10-09 11:43:10
雷军,怒了!刚刚连发多条微博

雷军,怒了!刚刚连发多条微博

每日经济新闻
2025-11-16 14:58:06
2025-11-16 16:36:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13881文章数 66249关注度
往期回顾 全部

科技要闻

谁在炒作全固态电池?

头条要闻

樊振东成马龙后第二位蝉联全运会乒乓球男单金牌球员

头条要闻

樊振东成马龙后第二位蝉联全运会乒乓球男单金牌球员

体育要闻

最佳新秀候选!2028美国男篮有他一个位置

娱乐要闻

宋佳二封,易烊千玺拿奖张艺谋乐开花

财经要闻

涉三宗罪 释永信被批准逮捕

汽车要闻

"冰彩沙"全配齐 红旗HS6 PHEV预售17.88万起

态度原创

本地
艺术
房产
手机
公开课

本地新闻

沈阳都市圈“冷资源”点燃“热联动” “组团”北上“圈粉”哈尔滨

艺术要闻

敦煌挖出“百亿级”草书,揭露纯正的晋唐笔法,郭沫若寻找了70多年!

房产要闻

首开狂卖6.68亿!海口这个顶级教育红盘,引爆海口楼市!

手机要闻

有用户反馈苹果iPhone 17 Pro Max用湿巾清洁后机身涂层被擦除

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版