网易首页 > 网易号 > 正文 申请入驻

OpenAI拆开AI「黑箱」,终于可以看懂GPT在想什么了

0
分享至

OpenAI的新论文介绍了他们在破解大模型「黑箱」上的一次重要突破,通过训练结构更简单、连接更稀疏的神经网络,为构建既强大又透明的模型提供全新方向。

———— / BEGIN / ————

破解大模型「黑箱」的钥匙找到了?

刚刚,在理解大模型复杂行为的道路上,OpenAI又迈出了关键一步。


他们从自己训练出来的稀疏模型里,发现存在结构小而清晰、既可理解又能完成任务的电路(这里的电路,指神经网络内部一组协同工作的特征与连接模式,是AI可解释性研究的一个术语)。

这意味着,如果真存在一种可行的方式来训练机制可解释的大型系统,它们将是破解大模型「黑箱」的钥匙。

麻省理工科技评论认为,OpenAI的新研究对于破解大模型「黑箱」意义重大:

构建一个更加透明的模型,将有助于揭示大模型的运作机制,帮助研究人员弄清模型为何会产生幻觉、为何会失控,以及我们应该在多大程度上信任它们来完成关键任务。

OpenAI在其官方博客和论文中介绍了他们的具体做法。



论文地址:

https://cdn.openai.com/pdf/41df8f28-d4ef-43e9-aed2-823f9393e470/circuit-sparsity-paper.pdf

神经网络与大模型黑箱

神经网络难以理解,本质上与其结构方式、参数规模以及训练方式有关。

这些特性共同作用,造成了所谓的大模型「黑箱效应」——

我们知道它能工作,但很难精确解释它「为什么这样工作」。

由此,也带来了理解大模型工作机制,即大模型「可解释性」上的挑战。

尤其是随着大模型在科学、教育、医疗等领域的具体应用,「可解释性」问题也越来越重要。

实现大模型可解释性的方式有很多,比如通过链式思维(chain of thought)来解释大模型行为,以此来监控模型的行为。

但这种能力在未来也可能会失效。

因此,OpenAI在新研究中更关注机制可解释性(mechanistic interpretability),目标是彻底逆向工程化大模型的计算过程。

可解释性,可以帮助我们实现很多在模型安全、监督上的工作:

比如,让监督更有效,提前发现不安全或不对齐的行为等,也可以与可扩展监督、对抗训练、红队测试等其他安全工作相互补充。

虽然它的效果可能不如链式思维那样立竿见影,但在理论上,它可以更完整地解释模型的行为。

新方法训练稀疏模型

以往关于机制可解释性的研究,好比把森林还原成一棵棵树木,一般是从密集、纠缠的神经网络出发,尝试把它们「解开」。

然而在这类网络中,一个神经元可能连着成千上万个其他神经元,大多数神经元还「身兼多职」,因此,想彻底搞清楚它们到底在干什么,几乎是不可能的。

但是,如果把一大片森林缩减成排列相对整齐的树木会怎样?

也就是训练的神经网络结构更清晰,神经元数量更多,但每个神经元只有几十个连接,这样得到的网络可能更简单,也更容易解释。

这就是OpenAI训练稀疏模型的核心想法。

基于这个原则,他们训练了一个结构与GPT-2等现有语言模型非常接近的模型,只做了一个小改动:让模型的大部分权重变成零。

这样模型就只能使用极少数连接。

OpenAI认为这个简单的改变,可以让模型内部的计算被大幅「解耦」。


上图展示的是神经网络内部连接结构的两种形式。

左边Dense(密集),显示的是普通的全连接神经网络,每个神经元都会连接到下一层的所有神经元。

右边Circuit Sparsity(稀疏电路),显示的是在稀疏模型里,每个神经元只会与下一层中的少数几个神经元相连。

稀疏模型可以让神经元本身,以及整个网络,都更容易被理解。

可解释性评估

如何衡量稀疏模型内部的计算「解耦」程度?

研究人员选取了一些简单的模型行为,检查能否找到模型中负责这些行为的部分——他们称之为电路,并整理出一套简单的算法任务。

对于每个任务,他们将模型剪枝到仍能完成任务的最小电路,并观察这个电路有多简单,结果发现:

训练更大但更稀疏的模型,往往能得到能力更强、但电路更简单的模型。


研究人员在不同模型上绘制了可解释性与模型能力之间的关系图,如上图。

对于固定规模的稀疏模型来说,提高稀疏度,即把更多权重设为零,这会降低模型能力,但会提升可解释性。

随着模型规模变大,这条前沿会整体外移,这说明我们可以构建既有能力又更可解释的更大模型。

举例来说:假设一个训练过Python代码的模型,需要用正确的引号类型补全字符串。


上图是一个稀疏Transformer中的示例电路,用来预测字符串最后应该用单引号还是双引号结尾。

该电路只使用了五个残差通道(竖直的灰色线)、第0层的两个MLP神经元,以及第10层中的一个注意力的query-key通道和一个value通道。

在一个残差通道中编码单引号,在另一个通道中编码双引号;

通过一个MLP层把它们转换为一个检测任意引号的通道,以及另一个用于区分单引号和双引号的通道;

通过注意力操作忽略中间的Token,找到前一个引号,并将它的类型复制给最后一个Token;

预测匹配的结束引号。

模型可以通过记住字符串开头的引号类型,并在结尾重现它来完成任务。

这些连接足以完成任务,这意味着把模型其他部分都删掉,这个小电路仍然能工作。

但同时,它们也是必要的,删掉这些连接模型就会失败。


在对于一些更复杂行为的研究中,完全解释这些行为的电路(比如变量绑定)会更困难,但仍然能得到相对简单、而且能预测模型行为的部分解释。

在OpenAI研究人员看来,这项工作是让模型计算更容易被理解的早期尝试,他们的稀疏模型比最前沿模型小很多,而且它们的大部分计算仍无法解释。

因为,未来还有很长的路要走。

下一步,OpenAI计划将这些技术扩展到更大的模型,并能解释更多模型行为。

在解决训练稀疏模型效率低下的问题上,OpenAI也指出了两条可能路线。

一条路线,是从现有的密集模型中提取稀疏电路,而不是从头训练稀疏模型。

另一条路线,是开发更高效的模型可解释性训练技术。

他们的目标,是逐步扩大能够可靠解释的模型范围,并构建工具,让未来的系统更容易分析、调试和评估。

这样,我们就会在追求更强大模型的同时,也让它们的解释机制更加透明,这对于清晰大模型与人类的能力边界十分重要。

本文来自公众号:新智元 作者:Leo Gao,EleutherAI的联合创始成员之一 编辑:元宇

想要第一时间了解行业动态、面试技巧、商业知识等等等?加入产品经理进化营,跟优秀的产品人一起交流成长!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
朴彩英对自己的脚趾很自信

朴彩英对自己的脚趾很自信

喜欢历史的阿繁
2025-11-16 03:32:10
在养老院,我发现最受欺负的,不是没钱没势的老人,而是另外3种

在养老院,我发现最受欺负的,不是没钱没势的老人,而是另外3种

诗意世界
2025-11-15 21:41:58
日本男子中奖6亿日元,瞒着家人独自享乐,对外装穷致精神萎靡

日本男子中奖6亿日元,瞒着家人独自享乐,对外装穷致精神萎靡

极目新闻
2025-11-16 11:09:38
琉球之后下一个将是苏禄国复国!不然怎么告慰为反殖民牺牲的先辈

琉球之后下一个将是苏禄国复国!不然怎么告慰为反殖民牺牲的先辈

历史求所知
2025-11-16 19:55:17
陈泽仕妙传太舒服,依木兰疲于防守浪费天赋!锅不该让老崔自己背

陈泽仕妙传太舒服,依木兰疲于防守浪费天赋!锅不该让老崔自己背

刀锋体育
2025-11-16 22:10:10
“突然消失”的6种家电,曾经的白月光,现在免费给都没人要!

“突然消失”的6种家电,曾经的白月光,现在免费给都没人要!

家居设计师苏哥
2025-11-16 18:35:03
广东一女儿将母亲器官活活剜出,母亲临死前哀求:妈妈错了

广东一女儿将母亲器官活活剜出,母亲临死前哀求:妈妈错了

纸鸢奇谭
2024-10-13 19:29:37
释永信涉嫌 3 大罪被批捕,海外 30 亿传言要查清,最高可判无期

释永信涉嫌 3 大罪被批捕,海外 30 亿传言要查清,最高可判无期

第一娱记
2025-11-16 16:33:43
升糖最快的主食被揪出,是白米饭的8倍,专家:糖尿病人别吃了

升糖最快的主食被揪出,是白米饭的8倍,专家:糖尿病人别吃了

小舟谈历史
2025-10-13 09:19:21
谁在逼西安人交“温暖税”?5.8元一平的暖气费背后是场精妙的算计

谁在逼西安人交“温暖税”?5.8元一平的暖气费背后是场精妙的算计

贞观108坊
2025-11-16 17:41:52
富养自己的最好方式:运动第三,睡觉第二,第一很多人做不到

富养自己的最好方式:运动第三,睡觉第二,第一很多人做不到

蜉蝣说
2025-11-16 10:00:41
乌国防情报局奔袭6500公里,炸毁俄罗斯西伯利亚铁路导致运输中断

乌国防情报局奔袭6500公里,炸毁俄罗斯西伯利亚铁路导致运输中断

山河路口
2025-11-15 15:35:03
悲剧!山西狗咬人事件,尸检结果上郭某刚9处刀伤,无一处致命

悲剧!山西狗咬人事件,尸检结果上郭某刚9处刀伤,无一处致命

魔都姐姐杂谈
2025-11-14 15:40:05
就在今天凌晨,女篮韩旭、李梦、刘禹彤传来新消息,备受关注!

就在今天凌晨,女篮韩旭、李梦、刘禹彤传来新消息,备受关注!

许钇很机智
2025-11-17 01:33:24
退休人员好消息!工龄超30年的人,养老金调整中享受哪些福利?

退休人员好消息!工龄超30年的人,养老金调整中享受哪些福利?

甜柠聊史
2025-11-16 12:34:34
高市早苗彻底践踏“村山谈话”!31年前就有迹象

高市早苗彻底践踏“村山谈话”!31年前就有迹象

看看新闻Knews
2025-11-15 13:07:20
女单颁奖!王曼昱仰天怒吼,陈梦开心,孙颖莎郁闷,赛后三人暖心

女单颁奖!王曼昱仰天怒吼,陈梦开心,孙颖莎郁闷,赛后三人暖心

细话篮球
2025-11-16 23:49:58
从合同制护士到副院长:安徽一医院女副院长涉嫌严重违法被查

从合同制护士到副院长:安徽一医院女副院长涉嫌严重违法被查

护士网
2025-11-17 00:01:40
网红橙子姐姐去柬埔寨找男友失联,家属发声求助,最新进展曝光

网红橙子姐姐去柬埔寨找男友失联,家属发声求助,最新进展曝光

东方不败然多多
2025-11-17 01:56:51
痛心!27岁网红森淼肺癌去世,生前最后动态曝光,这些习惯害了她

痛心!27岁网红森淼肺癌去世,生前最后动态曝光,这些习惯害了她

喜欢历史的阿繁
2025-11-16 10:29:10
2025-11-17 05:03:00
运营派
运营派
互联网运营学习交流平台
1310文章数 27关注度
往期回顾 全部

科技要闻

雷军,怒了!刚刚连发多条微博

头条要闻

中国公民需谨慎前往日本 四大原因披露

头条要闻

中国公民需谨慎前往日本 四大原因披露

体育要闻

最佳新秀候选!2028美国男篮有他一个位置

娱乐要闻

CEO爆料肖战《藏海传》狂赚几十亿!

财经要闻

房源暗中调价 央企举报广州国资房企

汽车要闻

"冰彩沙"全配齐 红旗HS6 PHEV预售17.88万起

态度原创

房产
艺术
亲子
健康
公开课

房产要闻

首开狂卖6.68亿!海口这个顶级教育红盘,引爆海口楼市!

艺术要闻

这些获奖摄影作品,简直让人目不暇接!

亲子要闻

一分钟教你判断孩子的咳嗽代表什么

血液科专家揭秘白血病七大误区

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版