网易首页 > 网易号 > 正文 申请入驻

OpenAI又Open了下:可解释性新研究,作者来自Ilya超级对齐团队

0
分享至

鱼羊 发自 凹非寺
量子位 | 公众号 QbitAI

刚小步快跑了一波GPT 5.1,主打让大模型说人话,OpenAI又在可解释性上做文章了。

真的是paper的那种。



论文公开了OpenAI内部一种训练小模型的新方法,能让模型的内部机制更容易被人类理解,即更具可解释性。

OpenAI自己是这样介绍的:

  • ChatGPT背后的语言模型具有复杂且时长令人惊讶的结构,我们尚未完全了解它们是如何工作的。
    这种方法有助于我们缩小其中的差距。



简单来说,在这项研究中,OpenAI研究员们的核心思路是:训练神经元连接少、但神经元数量多的稀疏模型,让神经网络变得简单,也更容易理解。

如果你对模型可解释性感兴趣,这篇论文值得一读。

而对于OpenAI的难得open,还有不少网友关心:那么新的小模型系列要来了吗?



通过稀疏模型理解神经网络

来看具体研究内容。

OpenAI研究员们认为,推理模型通过思维链展现出的可解释性在短期内非常有价值,能让我们捕捉到模型的“欺骗”等行为。但完全依赖这一特性显然不太可靠,随着时间的推移,这种策略也可能会失效。

想要更本质地理解模型机制,还是需要对模型的计算过程进行完全逆向工程。

问题在于,从复杂密集网络入手,难度非常大:每个神经元都与其他数千个神经元相连,不同的神经元又执行着许多不同的功能,这让理解它们看上去几乎不可能。

那么,能否训练一个拥有很多神经元,但每个神经元只有几十个连接的模型,来帮助人们理解模型机制呢

基于这一核心思路,OpenAI的研究人员训练了一个小模型:采用的还是现代语言模型的基础架构(类似GPT-2),只做了一个小小的改动——

强制将模型的大部分权重设为0



评估可解释性

有了这个稀疏模型,下一步,研究人员的目标是,找出模型在每一项任务中的“回路(circuit)”。



所谓“回路”,是指模型能精准完成特定任务的最小计算单元。

论文将其定义为一个由节点(nodes)和边(edges)组成的图。

回路的规模可以通过节点和边的数量来衡量,论文将回路的边数几何平均值作为解释性的量化指标。

为了评估模型的可解释性,研究人员设计了一系列简单的算法任务,对于每个任务,都将模型精简到能够完成任务的“最小回路”。

举个例子:

  • 任务:在Python中,’hello’必须以单引号结尾,”hello”必须以双引号结尾。模型可以通过记住字符串开头使用的引号类型,预测字符串结尾应使用单引号还是双引号,在结尾处自动补全字符串。

得到的回路长这样:



可以看到,该回路仅使用5个残差通道、第0层的两个MLP神经元,以及第10层的一个注意力查询键通道和一个值通道。

流程是:(1)将单引号编码到一个残差通道中,将双引号编码到另一个残差通道中;(2)使用MLP层将编码结果转换为两个通道:一个用于检测任意引号,另一个用于区分单引号和双引号;(3)使用注意力机制忽略中间的token,找到前一个引号,并将其类型复制到最后一个token;(4)预测匹配的结尾引号。

论文还研究了一些更复杂的行为,比如变量绑定等。这些行为的回路更难完全解释,但仍可以得出相对简单的部分解释,以预测模型的行为。



他们还发现:通过训练更大、更稀疏的模型,可以生成功能越来越强大、回路却越来越简单的模型

这表明,这一方法有可能扩展到理解更复杂的行为。



不过,研究人员也强调,这项工作仍处于早期:稀疏模型比前沿模型小得多,并且即使是稀疏模型,计算过程也仍有很多“黑盒”的部分。

另外,目前稀疏模型的训练效率比较低。他们认为有两种途径来解决:

一是从现有的密集模型中提取稀疏回路,而不是从头开始训练稀疏模型。

二是开发更高效的模型训练技术,以提高模型的可解释性。

“跨界”研究团队

作者一共有6位。

通讯作者为Leo Gao,研究方向是AGI对齐,曾参与过GPT-Neo、GPT-4的研究。论文被引数3.5w+,h-index为19。

他曾是Ilya超级对齐团队成员。在Ilya领导OpenAI超级对齐团队期间,两人合作发表了一系列论文和技术博客。



Achyuta Rajaram,还在MIT学物理,是OpenAI实习生。可解释性研究之外,兴趣是解谜游戏、下棋和撸猫。

Jacob Coxon,毕业于剑桥大学三一学院,2023年加入OpenAI。在2016年和2017年,他分别获得了两届IMO的银牌和铜牌。

Soham V. Govande,来自斯坦福,正在攻读计算机科学AI方向学士学位和系统方向硕士学位。加入OpenAI之前,还曾在英伟达实习。

Bowen Baker,OpenAI多智能体团队研究科学家,2017年就加入了OpenAI,曾参与OpenAI o1的研发。

Dan Mossing,本科毕业于普林斯顿大学物理专业,后于加州大学伯克利分校取得生物物理学博士学位。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
曼联新赛季客场球衣曝光:蓝色回归,致敬球队历史

曼联新赛季客场球衣曝光:蓝色回归,致敬球队历史

懂球帝
2026-01-26 10:58:29
真懂王:25年,美国关税收入翻了4倍,贸易逆差减少16%

真懂王:25年,美国关税收入翻了4倍,贸易逆差减少16%

子业一说财经
2026-01-26 11:28:45
周二你需要知道的隔夜全球要闻:黄金、白银高位跳水;芝加哥出现“负电价”奇观;中国稳坐新兴市场吸金榜榜首

周二你需要知道的隔夜全球要闻:黄金、白银高位跳水;芝加哥出现“负电价”奇观;中国稳坐新兴市场吸金榜榜首

财联社
2026-01-27 06:32:03
3男3女出租屋性交易:价格曝光,被抓画面流出,事发全过程披露

3男3女出租屋性交易:价格曝光,被抓画面流出,事发全过程披露

博士观察
2026-01-25 21:18:06
比火三轮还卷!成都网约车司机生存困局大起底!

比火三轮还卷!成都网约车司机生存困局大起底!

成都向上UP
2026-01-26 15:54:11
一年流出视频294部的小宝到底探过多少朵花?

一年流出视频294部的小宝到底探过多少朵花?

挪威森林
2026-01-25 17:18:42
马斯克猛然醒悟:美国还在死磕芯片,中国却早已换了赛道!

马斯克猛然醒悟:美国还在死磕芯片,中国却早已换了赛道!

何苗爱生活
2026-01-26 20:48:33
房产证写谁的名字无意义,1月以后都已不重要?这4条才是分房关键

房产证写谁的名字无意义,1月以后都已不重要?这4条才是分房关键

复转这些年
2026-01-24 23:58:08
退脏衣女记者全网社死!坏到骨子里知情人曝更多,果然不是第一次

退脏衣女记者全网社死!坏到骨子里知情人曝更多,果然不是第一次

阿纂看事
2026-01-26 10:20:53
图片报:多特不打算立刻引援,他们对切尔西的召回决定很愤怒

图片报:多特不打算立刻引援,他们对切尔西的召回决定很愤怒

懂球帝
2026-01-26 20:20:53
央视紧急预警2026!3种高端菜是毒坑,孩子绝对不能吃

央视紧急预警2026!3种高端菜是毒坑,孩子绝对不能吃

辉哥说动漫
2026-01-26 12:26:01
买 CPU 送 PS5?实测英特尔第三代 Ultra ,核显强得不像话

买 CPU 送 PS5?实测英特尔第三代 Ultra ,核显强得不像话

爱范儿
2026-01-26 22:08:20
外媒:多架巴空军战略运输机现身成都,歼-35已经开始交货?

外媒:多架巴空军战略运输机现身成都,歼-35已经开始交货?

头条爆料007
2026-01-26 19:43:57
古特雷斯下课,秘书长候选人诞生,对华态度坚决,中方看破美心思

古特雷斯下课,秘书长候选人诞生,对华态度坚决,中方看破美心思

阿策聊实事
2026-01-27 06:43:29
没有“灵魂”的AI音乐:血洗音乐平台,让明星失业焦虑

没有“灵魂”的AI音乐:血洗音乐平台,让明星失业焦虑

星海情报局
2026-01-26 11:11:18
记者:樱桃2450万欧买断希门尼斯,米兰拿500万+剩余50%转会费

记者:樱桃2450万欧买断希门尼斯,米兰拿500万+剩余50%转会费

懂球帝
2026-01-27 03:23:26
清华大学教授痛批:现在中国大多数人都沦为半人,半人时代横行

清华大学教授痛批:现在中国大多数人都沦为半人,半人时代横行

谈史论天地
2026-01-26 13:40:03
原来富二代家里都是做这些行业的!网友:几乎都在灰色产业游走

原来富二代家里都是做这些行业的!网友:几乎都在灰色产业游走

另子维爱读史
2026-01-26 18:34:27
深夜利好!央行放大招,明天的市场稳了!

深夜利好!央行放大招,明天的市场稳了!

风风顺
2026-01-27 06:30:51
攀登101 ,是一种全新的电影

攀登101 ,是一种全新的电影

虹膜
2026-01-26 11:41:10
2026-01-27 08:16:49
量子位 incentive-icons
量子位
追踪人工智能动态
12065文章数 176365关注度
往期回顾 全部

科技要闻

理想开始关店“过冬”,否认“百家”规模

头条要闻

上海一女子嫌风水不好 屡次掰歪小区两块反光镜

头条要闻

上海一女子嫌风水不好 屡次掰歪小区两块反光镜

体育要闻

叛逆的大公子,要砸了贝克汉姆这块招牌

娱乐要闻

张雨绮被抵制成功!辽视春晚已将她除名

财经要闻

从美式斩杀线看中国社会的制度韧性构建

汽车要闻

宾利第四台Batur敞篷版发布 解锁四项定制创新

态度原创

教育
本地
亲子
房产
军事航空

教育要闻

舟山嵊泗县取消

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

亲子要闻

网友:这阶段属于纯阳之体

房产要闻

突发!三亚官宣,调整安居房政策!

军事要闻

委代总统称遭美威胁:马杜罗已死

无障碍浏览 进入关怀版