网易首页 > 网易号 > 正文 申请入驻

OpenAI拆开AI「黑箱」,终于可以看懂GPT在想什么了

0
分享至

OpenAI的新论文介绍了他们在破解大模型「黑箱」上的一次重要突破,通过训练结构更简单、连接更稀疏的神经网络,为构建既强大又透明的模型提供全新方向。

———— / BEGIN / ————

破解大模型「黑箱」的钥匙找到了?

刚刚,在理解大模型复杂行为的道路上,OpenAI又迈出了关键一步。


他们从自己训练出来的稀疏模型里,发现存在结构小而清晰、既可理解又能完成任务的电路(这里的电路,指神经网络内部一组协同工作的特征与连接模式,是AI可解释性研究的一个术语)。

这意味着,如果真存在一种可行的方式来训练机制可解释的大型系统,它们将是破解大模型「黑箱」的钥匙。

麻省理工科技评论认为,OpenAI的新研究对于破解大模型「黑箱」意义重大:

构建一个更加透明的模型,将有助于揭示大模型的运作机制,帮助研究人员弄清模型为何会产生幻觉、为何会失控,以及我们应该在多大程度上信任它们来完成关键任务。

OpenAI在其官方博客和论文中介绍了他们的具体做法。



论文地址:

https://cdn.openai.com/pdf/41df8f28-d4ef-43e9-aed2-823f9393e470/circuit-sparsity-paper.pdf

神经网络与大模型黑箱

神经网络难以理解,本质上与其结构方式、参数规模以及训练方式有关。

这些特性共同作用,造成了所谓的大模型「黑箱效应」——

我们知道它能工作,但很难精确解释它「为什么这样工作」。

由此,也带来了理解大模型工作机制,即大模型「可解释性」上的挑战。

尤其是随着大模型在科学、教育、医疗等领域的具体应用,「可解释性」问题也越来越重要。

实现大模型可解释性的方式有很多,比如通过链式思维(chain of thought)来解释大模型行为,以此来监控模型的行为。

但这种能力在未来也可能会失效。

因此,OpenAI在新研究中更关注机制可解释性(mechanistic interpretability),目标是彻底逆向工程化大模型的计算过程。

可解释性,可以帮助我们实现很多在模型安全、监督上的工作:

比如,让监督更有效,提前发现不安全或不对齐的行为等,也可以与可扩展监督、对抗训练、红队测试等其他安全工作相互补充。

虽然它的效果可能不如链式思维那样立竿见影,但在理论上,它可以更完整地解释模型的行为。

新方法训练稀疏模型

以往关于机制可解释性的研究,好比把森林还原成一棵棵树木,一般是从密集、纠缠的神经网络出发,尝试把它们「解开」。

然而在这类网络中,一个神经元可能连着成千上万个其他神经元,大多数神经元还「身兼多职」,因此,想彻底搞清楚它们到底在干什么,几乎是不可能的。

但是,如果把一大片森林缩减成排列相对整齐的树木会怎样?

也就是训练的神经网络结构更清晰,神经元数量更多,但每个神经元只有几十个连接,这样得到的网络可能更简单,也更容易解释。

这就是OpenAI训练稀疏模型的核心想法。

基于这个原则,他们训练了一个结构与GPT-2等现有语言模型非常接近的模型,只做了一个小改动:让模型的大部分权重变成零。

这样模型就只能使用极少数连接。

OpenAI认为这个简单的改变,可以让模型内部的计算被大幅「解耦」。


上图展示的是神经网络内部连接结构的两种形式。

左边Dense(密集),显示的是普通的全连接神经网络,每个神经元都会连接到下一层的所有神经元。

右边Circuit Sparsity(稀疏电路),显示的是在稀疏模型里,每个神经元只会与下一层中的少数几个神经元相连。

稀疏模型可以让神经元本身,以及整个网络,都更容易被理解。

可解释性评估

如何衡量稀疏模型内部的计算「解耦」程度?

研究人员选取了一些简单的模型行为,检查能否找到模型中负责这些行为的部分——他们称之为电路,并整理出一套简单的算法任务。

对于每个任务,他们将模型剪枝到仍能完成任务的最小电路,并观察这个电路有多简单,结果发现:

训练更大但更稀疏的模型,往往能得到能力更强、但电路更简单的模型。


研究人员在不同模型上绘制了可解释性与模型能力之间的关系图,如上图。

对于固定规模的稀疏模型来说,提高稀疏度,即把更多权重设为零,这会降低模型能力,但会提升可解释性。

随着模型规模变大,这条前沿会整体外移,这说明我们可以构建既有能力又更可解释的更大模型。

举例来说:假设一个训练过Python代码的模型,需要用正确的引号类型补全字符串。


上图是一个稀疏Transformer中的示例电路,用来预测字符串最后应该用单引号还是双引号结尾。

该电路只使用了五个残差通道(竖直的灰色线)、第0层的两个MLP神经元,以及第10层中的一个注意力的query-key通道和一个value通道。

在一个残差通道中编码单引号,在另一个通道中编码双引号;

通过一个MLP层把它们转换为一个检测任意引号的通道,以及另一个用于区分单引号和双引号的通道;

通过注意力操作忽略中间的Token,找到前一个引号,并将它的类型复制给最后一个Token;

预测匹配的结束引号。

模型可以通过记住字符串开头的引号类型,并在结尾重现它来完成任务。

这些连接足以完成任务,这意味着把模型其他部分都删掉,这个小电路仍然能工作。

但同时,它们也是必要的,删掉这些连接模型就会失败。


在对于一些更复杂行为的研究中,完全解释这些行为的电路(比如变量绑定)会更困难,但仍然能得到相对简单、而且能预测模型行为的部分解释。

在OpenAI研究人员看来,这项工作是让模型计算更容易被理解的早期尝试,他们的稀疏模型比最前沿模型小很多,而且它们的大部分计算仍无法解释。

因为,未来还有很长的路要走。

下一步,OpenAI计划将这些技术扩展到更大的模型,并能解释更多模型行为。

在解决训练稀疏模型效率低下的问题上,OpenAI也指出了两条可能路线。

一条路线,是从现有的密集模型中提取稀疏电路,而不是从头训练稀疏模型。

另一条路线,是开发更高效的模型可解释性训练技术。

他们的目标,是逐步扩大能够可靠解释的模型范围,并构建工具,让未来的系统更容易分析、调试和评估。

这样,我们就会在追求更强大模型的同时,也让它们的解释机制更加透明,这对于清晰大模型与人类的能力边界十分重要。

本文来自公众号:新智元 作者:Leo Gao,EleutherAI的联合创始成员之一 编辑:元宇

想要第一时间了解行业动态、面试技巧、商业知识等等等?加入产品经理进化营,跟优秀的产品人一起交流成长!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国,为什么不能打第一枪?

中国,为什么不能打第一枪?

钧言堂
2025-11-15 21:29:43
唏嘘!匈牙利遭读秒绝杀 连续10届无缘世界杯 8500万巨星瘫坐痛哭

唏嘘!匈牙利遭读秒绝杀 连续10届无缘世界杯 8500万巨星瘫坐痛哭

我爱英超
2025-11-17 01:11:30
高市早苗真的慌了,想先稳住朝鲜,两次求见被拒!只换来6个字

高市早苗真的慌了,想先稳住朝鲜,两次求见被拒!只换来6个字

一个有灵魂的作者
2025-11-16 11:27:13
重大风险警告!日本全境或变战场,中方14艘巨舰下水,反制将开始

重大风险警告!日本全境或变战场,中方14艘巨舰下水,反制将开始

云鹏叙事
2025-11-16 15:18:51
80后已经有1100万人提前下车了。

80后已经有1100万人提前下车了。

爱吃糖的猫cat
2025-11-16 18:27:38
大连蛇岛上的蛇越来越凶猛,而且还在进化,为啥不把这个岛消灭?

大连蛇岛上的蛇越来越凶猛,而且还在进化,为啥不把这个岛消灭?

诗意世界
2025-11-15 20:26:32
鲁尼:和特朗普打高尔夫时周围全是狙击手,还有防核逃生装置

鲁尼:和特朗普打高尔夫时周围全是狙击手,还有防核逃生装置

懂球帝
2025-11-16 17:30:09
凉透了?保时捷销量暴跌42%、狂降40万没人买,网友:谁傻谁买

凉透了?保时捷销量暴跌42%、狂降40万没人买,网友:谁傻谁买

象视汽车
2025-11-16 07:00:05
新乡市人民检察院依法对释永信批准逮捕

新乡市人民检察院依法对释永信批准逮捕

界面新闻
2025-11-16 12:04:33
流感H3N2毒株严重可致呼吸衰竭,专家提醒:须在48小时内吃奥司他韦

流感H3N2毒株严重可致呼吸衰竭,专家提醒:须在48小时内吃奥司他韦

东方豪侠
2025-11-16 11:45:45
韩国政府宣布:中国排日本前面

韩国政府宣布:中国排日本前面

环球时报国际
2025-11-16 15:34:27
日本敢不敢先打

日本敢不敢先打

求实处
2025-11-16 00:27:27
突发!特斯拉供应链去中国化

突发!特斯拉供应链去中国化

WitDisplay
2025-11-16 00:46:05
中国大陆至日本航班量大幅下滑

中国大陆至日本航班量大幅下滑

极目新闻
2025-11-16 20:42:16
降息,突变!美联储,大消息!

降息,突变!美联储,大消息!

证券时报
2025-11-16 15:37:10
苏丹一地发生屠城,血迹太空可见

苏丹一地发生屠城,血迹太空可见

大风新闻
2025-11-16 16:06:05
他们放假了,连着共5天!迪士尼、九寨沟门票售罄,旅游从业者:流量大到出乎预料

他们放假了,连着共5天!迪士尼、九寨沟门票售罄,旅游从业者:流量大到出乎预料

每日经济新闻
2025-11-16 20:35:12
全运会乒乓球:大爆冷!奥运冠军马龙2:3输球无缘胜利,王楚钦3:0

全运会乒乓球:大爆冷!奥运冠军马龙2:3输球无缘胜利,王楚钦3:0

国乒二三事
2025-11-16 12:06:06
害怕了?!他们连忙甩锅

害怕了?!他们连忙甩锅

环球时报国际
2025-11-16 20:22:21
交管12123刚升级:违章当天秒提醒,4次免罚机会这么用才不亏

交管12123刚升级:违章当天秒提醒,4次免罚机会这么用才不亏

娱乐洞察点点
2025-11-16 11:16:51
2025-11-17 01:56:49
人人都是产品经理社区 incentive-icons
人人都是产品经理社区
想要成为大牛先从学做产品开始
64101文章数 311504关注度
往期回顾 全部

科技要闻

雷军,怒了!刚刚连发多条微博

头条要闻

中国公民需谨慎前往日本 四大原因披露

头条要闻

中国公民需谨慎前往日本 四大原因披露

体育要闻

最佳新秀候选!2028美国男篮有他一个位置

娱乐要闻

CEO爆料肖战《藏海传》狂赚几十亿!

财经要闻

房源暗中调价 央企举报广州国资房企

汽车要闻

"冰彩沙"全配齐 红旗HS6 PHEV预售17.88万起

态度原创

房产
时尚
家居
手机
旅游

房产要闻

首开狂卖6.68亿!海口这个顶级教育红盘,引爆海口楼市!

秋天怎么穿出时尚感?避开老气的着装方式,美得自然又大方

家居要闻

现代简逸 寻找生活的光

手机要闻

古尔曼:苹果iPhone正经历史上最大变革,iPhone 18/Pro分开发布

旅游要闻

浙江绍兴:一泓文脉润古城

无障碍浏览 进入关怀版