网易首页 > 网易号 > 正文 申请入驻

重磅!OpenAI打开大模型思考黑盒,用AI解释AI的时代来了

0
分享至

本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。

OpenAI硬核研究:用GPT-4打开GPT-2“大脑”。

作者|程茜

编辑|云鹏

智东西5月10日报道,今天,OpenAI官方博客发布新的研究进展,研究人员正在使用GPT-4来自动解释GPT-2的行为。

当下大型语言模型正在扎堆发布,但对于它背后的思考过程我们知之甚少。而今天,OpenAI正在打开大型语言模型的思考“黑盒”,让AI被自己解释!

这一技术的具体实现方式是,研究人员先给定GPT-2一个主题,并让其生成文本序列,再用GPT-4解释GPT-2生成的内容,再通过GPT-4模拟GPT-2的下一步操作,最后将GPT-4模拟生成的和GPT-2实际生成的内容进行对比评分。

目前,OpenAI已经通过GPT-4对GPT-2中307200个神经元进行了书面解释,从结果来看,绝大多数的解释评分并不高,超过1000个神经元的解释得分高于0.8,不过研发人员称,这一结果意味着基于GPT-4,他们已经解释了神经元的大部分激活行为。

虽然目前从结果来看,OpenAI通过GPT-4解释GPT-2的效果并不完美,但这一阶段性的成果给AI可解释性研究提供了思路,这一方法会随着AI的发展而不断精进。

此外,OpenAI正在开源其307200个神经元的书面解释的数据集和可视化工具,以及使用OpenAI API上公开可用的模型进行解释和评分的代码。

论文地址:

https://openaipublic.blob.core.windows.net/neuron-explainer/paper/index.html

神经元查看器:

https://openaipublic.blob.core.windows.net/neuron-explainer/neuron-viewer/index.html

GitHub开源地址:

https://github.com/openai/automated-interpretability

01.

解释、模拟、评分

三步“看透”GPT-2的思考过程

OpenAI解释神经元的过程使用了三种算法,分别是能显示神经元对文本摘录响应的解释器模型Explain、使用模拟器模型Simulate根据生成文本解释模拟神经元激活、Score算法对模拟激活内容与真实激活内容的匹配程度进行评分。

在测试过程中,研究人员使用GPT-2预训练模型作为被解释的模型,使用GPT-4作为解释器和模拟器模型。

研究人员选择不同的文档来生成解释和模拟,这一方法包括在每个神经元上运行下面3个步骤:

首先,先给定GPT-2一个主题去生成文本,然后使用GPT-4来生成对GPT-2生成文本序列的行为解释。

如,当GPT-2生成“漫威漫画(Marvel comics vibes)”相关内容时,GPT-4生成的解释是其文本中有“对电影、角色和娱乐的引用”。给定主题是“明喻(similes)”时,GPT-4生成的解释是“比较和类比,常用‘like(类似)’这个词”。

▲测试案例:上图主题是“漫威漫画(Marvel comics vibes)”、下图主题是“明喻(similes)

第二步,使用GPT-4模拟神经元的行为。这一步骤想要回答的问题是,假设GPT-4的解释准确而全面地解释了神经元的行为,那么该神经元将如何针对特定序列中的每个标记激活。

刚开始,研究人员使用了“一次一个(one at a time)”方法,提供给GPT-4的提示由一些小样本和预测单个神经元激活的单样本示例组成,但这种方法速度较慢。随后,研究人员使用少量示例并行化了所有标记的概率预测,使得激活值变为文本序列中随机位置的实际值,他们将这种方法称为“一次全部(all at once)”。

经验证,这种研究方法在预测人类偏好方面,与速度较慢的“一次一个”方法效果类似。

第三步,将GPT-4模拟的内容与GPT-2真实生成的内容进行对比,根据其匹配程度进行评分。

研究人员采用的主要评分方法是相关性评分,如果模拟神经元的行为与真实神经元相同,则得分为1。如果模拟神经元的行为是随机的,当解释与神经元行为无关得分将趋向于0。

不过,基于模拟的评分实际上并不能反映人类对解释的准确评估。因此他们收集了人类对GPT-4生成解释质量的评估,并与模拟生成的评分结果相比较。

结果表明,人类往往更喜欢得分较高的解释而不是得分较低的解释,随着得分差距的扩大,这种现象的发展趋势也会更加明显。

02.

开源数据集,业界加速AI可解释性研究

从整体评分结果来看,OpenAI测验生成的绝大部分解释得分都较低。不过同时,研究人员也发现了一些GPT-4不理解的有趣神经元。

如“dollars”的意思,第一层理解为“与货币和金钱有关的词”;第二层为“‘buck(美元)’一词或包含‘buck(美元)’的实例”;第29层为“提及‘美国’及相关术语”。

因此,研究人员希望随着解释的改进,能够快速理解这些大型语言模型生成的有趣内容。研发人员认为,他们可以使用机器学习技术来进一步提高GPT-4解释的能力。

以下几种方法可以帮助提高评分结果:

1、迭代解释(Iterating on explanations)。研发人员通过要求GPT-4提出可能的相反案例,然后根据它们的激活结果修改解释来提高分数。

2、使用更大的语言模型来给出解释(Using larger models to give explanations)。随着解释器模型能力的提高,平均分数也会上升。然而,即使是GPT-4这样参数规模的大型语言模型也给出了比人类更差的解释,这表明还有改进的余地。

3、更改已解释模型的架构(Changing the architecture of the explained model)。具有不同激活函数的训练模型提高了解释分数。

因此基于上述考虑,OpenAI开源了数据集,他们希望研究界能够开发新技术来生成更高分的解释,并开发更好的工具来解释GPT-2。

03.

用GPT-4解释GPT-2仍有四大局限

目前,OpenAI用于解释GPT-2的方法还有很多局限性:

研究人员希望GPT-4生成的解释是简短的自然语言,但神经元可能具有非常复杂的行为,无法被简洁清晰的叙述出来。例如,神经元可以代表许多不同的概念,或者可以代表人类不理解或无法用语言表达的单一概念。

他们希望最终自动找到并解释实现复杂行为的整个神经回路,使得神经元和注意力中枢协同工作。OpenAI当前的方法仅将神经元行为解释为原始文本输入的函数,而没有说明其接下来产生的影响。例如,当神经元激活的位置是一个句号,这可以指向后面的英文单词应该大写开头等。

这一评分系统解释了神经元的行为,但没有试图解释产生这种行为的机制。由于这一方法更多描述的是测试文本上的相关性,因此模拟过程中获得高分的解释,对于测试外的文本解释效果可能也很差。

最后,用GPT-4来解释GPT-2的整个过程是计算密集型

不过,OpenAI的研究人员仍对这一方法的推广感到兴奋。最终,他们希望使用大型语言模型来生成、测试和迭代完全通用的预测。

04.

结语:让大模型的黑盒变透明

大型语言模型在内容生成、理解上的强大能力我们已经有目共睹,但其内部的工作原理我们知之甚少,也很难从大型语言模型的最后输出结果中检测到它们的“思考过程”是有偏见的或者是错误的。

尽管从结果看,OpenAI的研究方法还有很大的进步空间,但这一技术路线也为AI的可解释性研究提供了思路。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
亚运选拔赛吴艳妮预赛13秒12总排名第一,远远甩开天才少女张可依

亚运选拔赛吴艳妮预赛13秒12总排名第一,远远甩开天才少女张可依

杨华评论
2026-06-26 10:23:49
47岁廖碧儿近况曝光!一直坚持不婚不育,如今被传新恋情很幸福

47岁廖碧儿近况曝光!一直坚持不婚不育,如今被传新恋情很幸福

代军哥哥谈娱乐
2026-06-25 12:06:40
曼城1.16亿英镑签安德森达协议!拜仁5500万签布朗达协议!

曼城1.16亿英镑签安德森达协议!拜仁5500万签布朗达协议!

足球侦探
2026-06-26 12:40:21
梁朝伟和汤唯在《色戒》里“假戏真做”?网友爆出截图:一目了然

梁朝伟和汤唯在《色戒》里“假戏真做”?网友爆出截图:一目了然

姜糖先生
2025-06-08 19:31:00
1.7秒不犹豫!湖人真要拿詹姆斯换阿伦?詹皇一句话回应亮了

1.7秒不犹豫!湖人真要拿詹姆斯换阿伦?詹皇一句话回应亮了

林子说事
2026-06-25 19:09:18
三星与LG将于越南生产iPhone 18 Pro OLED模块 供应量或超8000万片

三星与LG将于越南生产iPhone 18 Pro OLED模块 供应量或超8000万片

CNMO科技
2026-06-25 17:55:18
高考数学150分后,他最让人服气的不是满分

高考数学150分后,他最让人服气的不是满分

朗威谈星座
2026-06-26 08:05:58
“内娱第一窝囊废”,彻底人设崩塌

“内娱第一窝囊废”,彻底人设崩塌

金错刀
2026-06-23 14:26:23
16岁女生举报江西财大男学生:被PUA控制,强迫性关系,细节披露

16岁女生举报江西财大男学生:被PUA控制,强迫性关系,细节披露

李晚书
2026-06-25 19:08:55
母亲和情夫一起10年,父亲默不作声纵容,却在他50岁生日那天反击

母亲和情夫一起10年,父亲默不作声纵容,却在他50岁生日那天反击

白云故事
2025-04-24 10:35:08
逆市走红!“老登股”净利预增超23倍,股价一度涨停

逆市走红!“老登股”净利预增超23倍,股价一度涨停

21世纪经济报道
2026-06-26 11:16:05
女星苗金凤病逝!她3岁丧父,离过两次婚,人生就像电视剧

女星苗金凤病逝!她3岁丧父,离过两次婚,人生就像电视剧

名人家事情事
2026-06-26 12:42:17
对华断供光刻胶,国产能否扛旗

对华断供光刻胶,国产能否扛旗

电脑报少年派
2026-06-25 17:23:46
书面道歉+发布会解释!金玟哉辩解与洪明甫冲突:一切都是我的错

书面道歉+发布会解释!金玟哉辩解与洪明甫冲突:一切都是我的错

新杀猪的秀才
2026-06-26 11:14:06
妻子出轨后,我带娃远走小县城过日子,10年后见她在翻垃圾桶

妻子出轨后,我带娃远走小县城过日子,10年后见她在翻垃圾桶

千秋文化
2026-05-30 20:13:35
某鱼惊现“天价笔”:800元一支的中性笔,藏着多少肮脏暗语?

某鱼惊现“天价笔”:800元一支的中性笔,藏着多少肮脏暗语?

番外行
2026-02-26 19:53:05
iPhone 18 Pro 量产,9499 元?

iPhone 18 Pro 量产,9499 元?

果粉俱乐部
2026-06-26 13:15:03
这场3-0,让世界杯F组更乱了!日本输赢都会错?但难受的不止这点

这场3-0,让世界杯F组更乱了!日本输赢都会错?但难受的不止这点

潋滟晴方DAY
2026-06-26 13:34:08
蒋纬国问戴季陶“谁是我的生父”,戴反问他:你觉得你和谁更像?

蒋纬国问戴季陶“谁是我的生父”,戴反问他:你觉得你和谁更像?

史看人生
2026-06-25 22:50:03
曼联世界杯头牌!库尼亚穿巴西9号大罗认可,卡里克或学安帅战术

曼联世界杯头牌!库尼亚穿巴西9号大罗认可,卡里克或学安帅战术

罗米的曼联博客
2026-06-26 11:49:35
2026-06-26 14:16:49
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
12131文章数 117112关注度
往期回顾 全部

科技要闻

美国政府要求OpenAI分批发布GPT-5.6

头条要闻

13岁男孩失踪5天救援人员失去信心 妈妈坚持下找到了

头条要闻

13岁男孩失踪5天救援人员失去信心 妈妈坚持下找到了

体育要闻

奥尔莫:是时候为西班牙争夺第二颗星了

娱乐要闻

刘嘉玲想放弃梁朝伟,没有自理能力

财经要闻

悬在科技头上的达摩克利斯之剑

汽车要闻

老板们的新座驾!65万元起,尊界V800/V680开启预订

态度原创

亲子
手机
时尚
数码
教育

亲子要闻

优奈两天没见阿姨,彼此想的不得了!一见面开心坏了

手机要闻

苹果Xcode 26.6正式版发布,新增谷歌Gemini编程助手支持

《铁拳教育》为老师写的红果短剧

数码要闻

大学生游戏本必看!8k-1.2w价位段RTX 5060首选,宿舍神器实测

教育要闻

中国科学技术大学扩招,2026年安徽招生计划212名,今年多少分可以上科大?官方解答来了,速看(编辑...

无障碍浏览 进入关怀版