网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

OpenAI官宣开源Transformer Debugger！不用写代码，人人可以破解LLM黑箱

2024-03-12 14:17:59　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：编辑部

【新智元导读】刚刚，OpenAI超级对齐团队负责人官宣开源Transformer调试器。研究人员不用写代码，就能快速探索LLM的内部构造了！

AGI真的越来越近了！

为了确保人类不被AI杀死，在解密神经网络/Transfomer黑箱这一方面，OpenAI从未停下脚步。

去年5月，OpenAI团队发布了一个令人震惊的发现：GPT-4竟可以解释GPT-2的三十万神经元！

网友纷纷惊呼，智慧原来是这个样子。

而就在刚刚，OpenAI超级对齐团队负责人又正式官宣，要开源内部一直使用的大杀器——Transformer调试器（Transformer Debugger）。

简之，研究者可以用TDB工具分析Transformer的内部结构，从而对小模型的特定行为进行调查。

也就是说，有了这个TDB工具，未来它就可以帮我们剖析和分析AGI了！

Transformer调试器将稀疏自动编码器，与OpenAI开发的「自动可解释性」——即用大模型自动解释小模型，技术相结合。

链接：OpenAI炸裂新作：GPT-4破解GPT-2大脑！30万神经元全被看透

论文地址：https://openaipublic.blob.core.windows.net/neuron-explainer/paper/index.html#sec-intro

值得一提的是，研究人员不用写代码，就能快速探索LLM的内部构造。

比如，它可以回答「为什么模型会输出token A而不是token B」，「为什么注意力头H会关注token T」之类的问题。

因为TDB能支持神经元和注意力头，所以就可以让研究人员通过消融单个神经元来干预前向传递，并观察发生的具体变化。

不过根据Jan Leike的说法，这个工具现在还只是一个早期的版本，OpenAI放出来是希望更多的研究人员能够用上，并且在现有基础上进一步改进。

项目地址：https://github.com/openai/transformer-debugger

工作原理

要理解这个Transformer Debugger的工作原理，需要回顾OpenAI在2023年5月份放出的一份和对齐有关的研究。

TDB工具是基于此前发布的两项研究，不会发布论文

简单来说，OpenAI希望用参数更大能力更强的模型（GPT-4）去自动分析小模型（GPT-2）的行为，解释它的运行机制。

当时OpenAI研究的初步结果是，参数比较少的模型容易被理解，但是随着模型参数变大，层数增加，解释的效果会暴降。

当时OpenAI在研究中称，限于GPT-4本身设计就不是用来解释小模型行为的，所以整体上对于GPT-2的解释成果还很差。

未来需要开发出能够更好地解释模型行为的算法和工具。

而现在开源的Transformer Debugger，就是OpenAI在之后这一年的阶段性成果。

而这个「更好的工具」——Transformer Debugger，就是将「稀疏自动编码器」结合进这个「用大模型解释小模型」的技术线路中去。

然后再将之前OpenAI在可解释性研究中用GPT-4解释小模型的过程零代码化，从而大大降低了研究人员上手的门槛。

GPT-2 Small被看穿了

在GitHub项目主页，OpenAI团队成员通过视频介绍了最新Transformer调试器工具。

与Python调试器类似，TDB可以让你逐步查看语言模型输出、跟踪重要激活并分析上游激活。

进入TDB主页，首先是「提示」一栏输入——提示和感兴趣的token：

Mary and Johon went to the store, Johon gave a drink to....

那么接下来，就是做一个「下一词」的预测，需要输入目标token，以及干扰性的token。

最后提交后，便可以看到系统给出的预测下一词候选的对数。

下面的「节点表」是TDB的核心部分。这里的每一行都对应一个节点，也就是激活一个模型组件。

如果要了解对某个特定提示中非常重要的注意力头的功能，直接点击组件的名称。

然后TDB会打开「神经元浏览器」页面，顶部会显示之前的提示词。

这里能看到浅蓝色和粉色的token。每个对应颜色的token之下，从后续标记到这个token的注意力会让一个大范数向量（large norm vector）被写入后续token中。

在另外两个视频中，研究人员介绍了TDB的概念，以及其在理解回路中的应用。与此同时，他还演示了TDB如何定性地再现论文中的一个发现。

OpenAI自动可解释性研究

简单来说，OpenAI自动可解释性研究的思路是让GPT-4对神经元的行为进行自然语言解释，然后把这个过程应用到GPT-2中。

这何以成为可能？首先，我们需要「解剖」一下LLM。

像大脑一样，它们由「神经元」组成，它们会观察文本中的某些特定模式，这就会决定整个模型接下来要说什么。

比如，如果给出这么一个prompt，「哪些漫威超级英雄拥有最有用的超能力？」「漫威超级英雄神经元」可能就会增加模型命名漫威电影中特定超级英雄的概率。

OpenAI的工具就是利用这种设定，把模型分解为单独的部分。

第一步：使用GPT-4生成解释

首先，找一个GPT-2的神经元，并向GPT-4展示相关的文本序列和激活。

然后，让GPT-4根据这些行为，生成一个可能的解释。

比如，在下面的例子中GPT-4就认为，这个神经元与电影、人物和娱乐有关。

第二步：使用GPT-4进行模拟

接着，让GPT-4根据自己生成的解释，模拟以此激活的神经元会做什么。

第三步：对比打分

最后，将模拟神经元（GPT-4）的行为与实际神经元（GPT-2）的行为进行比较，看看GPT-4究竟猜得有多准。

还有局限

通过评分，OpenAI的研究者衡量了这项技术在神经网络的不同部分都是怎样的效果。对于较大的模型，这项技术的解释效果就不佳，可能是因为后面的层更难解释。

目前，绝大多数解释评分都很低，但研究者也发现，可以通过迭代解释、使用更大的模型、更改所解释模型的体系结构等方法，来提高分数。

现在，OpenAI正在开源「用GPT-4来解释GPT-2中全部307,200个神经元」结果的数据集和可视化工具，也通过OpenAI API公开了市面上现有模型的解释和评分的代码，并且呼吁学界开发出更好的技术，产生得分更高的解释。

此外，团队还发现，越大的模型，解释的一致率也越高。其中，GPT-4最接近人类，但依然有不小的差距。

以下是不同层神经元被激活的例子，可以看到，层数越高，就越抽象。

稀疏自动编码器设置

OpenAI使用的的稀疏自动编码器是一个在输入端具有偏置的模型，还包括一个用于编码器的具有偏置和ReLU的线性层，以及另一个用于解码器的线性层和偏置。

研究人员发现偏置项对自动编码器的性能非常重要，他们将输入和输出中应用的偏差联系起来，结果相当于从所有激活中减去固定偏差。

研究人员使用Adam优化器训练自动编码器，以使用MSE重建Transformer的MLP激活。使用MSE损耗可以避免多语义性的挑战，用损失加上L1惩罚项来鼓励稀疏性。

在训练自动编码器时，有几个原则非常重要。

首先是规模。在更多数据上训练自动编码器会使特征主观上“更清晰”且更具可解释性。所以OpenAI为自动编码器使用了80亿个训练点。

其次，在训练过程中，一些神经元会停止激活，即使在大量数据点上也是如此。

研究人员于是在训练期间「重采样」这些死神经元，允许模型代表给定的自动编码器隐藏层维度的更多特征，从而产生更好的结果。

判断指标

怎样判断自己的方法是否有效？在机器学习中可以简单地用loss作为标准，但在这里就不太容易找到类似的参考。

比如寻找一个基于信息的指标，这样可以在某种意义上说，最好的分解是最小化自动编码器和数据总信息的分解。

——但事实上，总信息通常与主观特征可解释性或激活稀疏性无关。

最终，研究人员使用了了几个附加指标的组合：

- 手动检查：特征是否看起来可以解释？ - 特征密度：实时特征数量和触发它们的token的百分比是一个非常有用的指导。 - 重建损失：衡量自动编码器重建MLP激活的程度。最终目标是解释MLP层的功能，因此MSE损耗应该很低。 - 玩具模型：使用一个已经非常了解的模型，可以清晰地评估自动编码器的性能。

不过研究人员也表示，希望从Transformer上训练的稀疏自动编码器中，为字典学习解决方案确定更好的指标。

参考资料：

https://twitter.com/janleike/status/1767347608065106387?s=20

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

打开神经网络的黑盒：分解神经元特征，让复杂模型变得简洁、可解释

钛媒体APP 2023-11-01 10:17:16
0 跟贴 0
全世界机器人共用一个大脑，谷歌DeepMind已经完成了第一步

机器之心Pro 2024-01-25 15:59:20
279 跟贴 279

图灵诺奖得主等大佬齐聚海淀！清华版Sora震撼首发，硬核AI盛会破算力黑洞

新智元 2024-04-27 21:52:59
0 跟贴 0

奥特曼：GPT5性能远超GPT4，OpenAI不怕copy

华尔街见闻官方 2024-04-26 11:13:10
12 跟贴 12
从零手搓MoE大模型，大神级教程来了

量子位 2024-01-29 16:04:35
0 跟贴 0

字节“开盒”OpenAI所有大模型，揭秘GPT-3到GPT-4进化路径

量子位 2023-11-04 13:47:32
0 跟贴 0

可以互相交谈的人工智能来了

钛媒体APP 2024-04-14 16:22:14
0 跟贴 0
GPT-4 更强的标志，原来藏在了 logo 里

爱范儿 2024-02-20 17:25:29
0 跟贴 0

基于Transformer的通用世界模型成功挑战视频生成

量子位 2024-01-28 12:34:24
0 跟贴 0
Mamba架构第一次做大！混合Transformer，打败Transformer

量子位 2024-03-29 15:47:47
0 跟贴 0
“离谱的AI扩图”火了！张张那叫一个出其不意

量子位 2023-12-05 13:17:05
343 跟贴 343
Deepfake假CFO骗走公司1.8个亿，员工：视频会议每个人都很真实啊

量子位 2024-02-11 13:35:56
217 跟贴 217
普通人终于能感觉到大模型有啥用了

虎嗅APP 2023-11-02 19:01:48
0 跟贴 0
20%的杨幂+80%的泰勒长什么样？全新风格化AI来了，可兼容SD

量子位 2024-01-18 15:38:06
0 跟贴 0
「还是谷歌好」，离职创业一年，我才发现训练大模型有这么多坑

机器之心Pro 2024-03-07 15:09:59
0 跟贴 0
论文 Figure 不堪入目，句子啰嗦读不通……这几个在线科研工具可以免费用了

生物学霸 2024-03-15 15:02:25
0 跟贴 0
麦当劳退款原因写“顾客是傻x”续：已与顾客达成谅解

央广网 2024-04-27 11:50:07
38131 跟贴 38131
比LoRA还快50%！一张3090超越全参调优，UIUC联合LMFlow提出LISA

机器之心Pro 2024-04-01 15:29:05
18 跟贴 18
布林肯二度访华，望不虚此行！他能带回什么？

新民晚报 2024-04-27 09:45:19
2257 跟贴 2257
从模仿到理解，计算模型可能真的是大脑的归宿

钛媒体APP 2023-12-14 18:14:09
2 跟贴 2
曾经卖7000元的顶配商务本，现在成了闲鱼上最火的洋垃圾

雷科技 2023-12-20 17:03:55
669 跟贴 669
多地彩票店"刮刮乐"售空福彩、体彩：供不应求

财联社 2024-04-27 08:22:09
29775 跟贴 29775
外媒爆料：美军竟然在偷偷使用北斗导航原来中国已大幅超越GPS

军评陈光文 2024-04-27 09:49:56
6810 跟贴 6810
中国国药疫苗之父杨晓明被罢免全国人大代表职务

花非花008 2024-04-27 12:34:20
11120 跟贴 11120
男子持木棒连续猛砸老汉头部围观者大喊"好了"阻止

奇闻吉 2024-04-27 19:10:25
1823 跟贴 1823
再这么搞下去，失业的人只会越来越多！政府该做些什么？

鹏飞深文 2024-04-27 13:40:46
9498 跟贴 9498
华为带头做分级，车展之后，25万元以下智能驾驶将降级？

路咖汽车 2024-04-25 15:58:46
9 跟贴 9
独行侠2-1快船卡椒仅16分威少1分&被驱逐东契奇22+10

网易体育 2024-04-27 10:49:06
3667 跟贴 3667
28岁华人Meta软件工程师辞去37万美元工作，理由竟是

新智元 2023-11-05 12:49:48
209 跟贴 209
北大校友研制仿血管电子支架，开辟脑机接口电子器件设计新方向，或可治疗创伤性神经元损伤

DeepTech深科技 2023-12-02 13:23:37
0 跟贴 0
上海一处新楼盘民宿扎堆业主：陌生人24小时频繁进出

上观新闻 2024-04-27 11:41:56
4803 跟贴 4803
记者实测苹果手机输入"发现石油"会自动定位:安卓也是

南方都市报 2024-04-25 08:08:16
8293 跟贴 8293
网易号平台每日辟谣公告（四月二十七日第一则）

网易号官方平台 2024-04-27 11:54:00
3574 跟贴 3574
弹药供应到位乌军两架战机齐出猛轰俄军阵地

火炼树 2024-04-27 17:53:27
5410 跟贴 5410
蝉联倒数第1！吴艳妮苏州站轰13秒15 名次排第8 赛前豪言遭打脸

林小湜体育频道 2024-04-27 20:11:23
1147 跟贴 1147
时隔18年广东最大水库新丰江水库开闸泄洪

新京报 2024-04-27 16:52:09
2340 跟贴 2340
曝石家庄对环卫工以灰尘重量为考核标准，1平米灰坐不超5g有奖励

可达鸭面面观 2024-04-26 22:45:47
4781 跟贴 4781
“花满庭”（郴州四合院）建成图片

新民居四合院 2024-04-27 09:34:58
2 跟贴 2
电动自行车车载充电器拟被禁！雅迪、爱玛、九号、小鸟回应了

南方都市报 2024-04-27 21:20:15
865 跟贴 865
咒术回战258话：炸裂！宿傩再次开启领域，虎杖悠仁惨遭断腿！

二次元那些事 2024-04-25 20:47:24
6 跟贴 6

季后赛生涯首次！威少拉倒东契奇+拳击华盛顿吃两T 携悍将被驱逐

季后赛生涯首次！威少拉倒东契奇+拳击华盛顿吃两T 携悍将被驱逐

醉卧浮生

2024-04-27 10:39:40

富士康彻底没戏！比亚迪拿走华为小米的订单，郭台铭：这很不公平

富士康彻底没戏！比亚迪拿走华为小米的订单，郭台铭：这很不公平

侃故事的阿蚌

2024-04-27 11:57:29

台湾即将迎来回归，也许，就在2025！

台湾即将迎来回归，也许，就在2025！

星辰故事屋

2024-04-26 19:33:31

没想到老年人的瓜这么多！网友的评论太炸裂，我小脑都萎缩了

没想到老年人的瓜这么多！网友的评论太炸裂，我小脑都萎缩了

夢婷

2024-01-05 12:09:08

中介经纪人“套路”业主降价卖房，正在广州蔓延？

中介经纪人“套路”业主降价卖房，正在广州蔓延？

中国房地产报官方号

2024-04-26 09:55:00

安徽最新反腐：吴长飞、李家玉被查！

安徽最新反腐：吴长飞、李家玉被查！

凤凰网安徽

2024-04-27 17:03:29

台湾女生的性感，从不会藏起来！露腰、露胯、露内裤，时髦又养眼

台湾女生的性感，从不会藏起来！露腰、露胯、露内裤，时髦又养眼

潮人志Fashion

2024-04-24 18:30:12

退役后变美的四位运动员:郭跃越来越有女人味，陈若琳二次发育

退役后变美的四位运动员:郭跃越来越有女人味，陈若琳二次发育

凤幻洋

2024-04-16 12:03:51

59岁“李莫愁”与梁小龙聚会！颜值崩塌认不出，与李若彤似两代人

59岁“李莫愁”与梁小龙聚会！颜值崩塌认不出，与李若彤似两代人

裕丰娱间说

2024-04-27 09:42:58

高考重大改革！“985”、“211”时代终结，“101计划”时代全面到来！

高考重大改革！“985”、“211”时代终结，“101计划”时代全面到来！

创作者_1494406553502

2024-04-26 15:20:11

广州增城区突下“拳头大”冰雹，亲历者：五十年都没见过这么大的

广州增城区突下“拳头大”冰雹，亲历者：五十年都没见过这么大的

潇湘晨报

2024-04-27 19:19:11

商务部等发布《汽车以旧换新补贴实施细则》汽车之家成为重点合作企业

商务部等发布《汽车以旧换新补贴实施细则》汽车之家成为重点合作企业

中新经纬

2024-04-26 20:35:12

陕西检察长陈平疑案：死前喊冤，被枪毙后家属不能收尸，直接火化

陕西检察长陈平疑案：死前喊冤，被枪毙后家属不能收尸，直接火化

午夜故事会

2024-04-15 18:31:39

刘德华对赌失败欠巨款？近照满头白发断崖式衰老，全国巡演狂捞金

刘德华对赌失败欠巨款？近照满头白发断崖式衰老，全国巡演狂捞金

开心蕾蕾

2024-04-26 09:59:43

俄罗斯成了冤大头：比利时向乌克兰转让F-16战机，转让费由俄支付

俄罗斯成了冤大头：比利时向乌克兰转让F-16战机，转让费由俄支付

飞狼

2024-04-27 21:14:59

美远程导弹系统秘密运抵乌克兰，可覆盖克里米亚等地军事目标

美远程导弹系统秘密运抵乌克兰，可覆盖克里米亚等地军事目标

澎湃新闻

2024-04-25 12:38:27

退款、下架！百万粉丝主播账号被封

退款、下架！百万粉丝主播账号被封

中国经营报

2024-04-25 14:26:48

五一将至，提醒中老年：少吃西红柿和桃子，多吃这3样，舒服过夏

五一将至，提醒中老年：少吃西红柿和桃子，多吃这3样，舒服过夏

今日养生之道

2024-04-27 16:56:42

真相大白！9岁恶霸家长放话：教育局有人，先拿20万再说！

真相大白！9岁恶霸家长放话：教育局有人，先拿20万再说！

杏坛金语

2024-04-27 15:08:12

当年在罗马尼亚有个著名的笑话，你要是走的话，我们就不用走了！

当年在罗马尼亚有个著名的笑话，你要是走的话，我们就不用走了！

翻开历史和现实

2024-04-26 13:48:06

AI产业主平台领航智能+时代

10964文章数 65460关注度

往期回顾全部

科技要闻

特斯拉这款车型刚上市几天，就上调价格

头条要闻

租车开网约车遭遇车损"套路":有人扣完押金还要倒补

头条要闻

租车开网约车遭遇车损"套路":有人扣完押金还要倒补

体育要闻

切尔西扳回一球！加拉格尔抢断，马杜埃凯破门

娱乐要闻

金靖回应不官宣恋情结婚的原因

财经要闻

北京房价回到2016年

汽车要闻

5月上市/智能化丰富海狮 07EV正式到店

态度原创

本地

房产

旅游

数码

公开课

本地新闻

蛋友碰碰会空降西安！5.1山海境等你！

房产要闻

海南最新房价出炉，三亚跌价最猛！

旅游要闻

散装河北，冀北、冀东、冀中、冀南如何划分？

数码要闻

小米米家电热水器 P1 开售：60L 双胆速热，首发价 1999 元

公开课

睡前进食会让你发胖吗？

© 1997-2024 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 广告服务 | 不良信息举报 Complaint Center | 廉正举报

无障碍浏览进入关怀版