网易首页 > 网易号 > 正文 申请入驻

OpenAI又Open了下:可解释性新研究,作者来自Ilya超级对齐团队

0
分享至

鱼羊 发自 凹非寺
量子位 | 公众号 QbitAI

刚小步快跑了一波GPT 5.1,主打让大模型说人话,OpenAI又在可解释性上做文章了。

真的是paper的那种。



论文公开了OpenAI内部一种训练小模型的新方法,能让模型的内部机制更容易被人类理解,即更具可解释性。

OpenAI自己是这样介绍的:

  • ChatGPT背后的语言模型具有复杂且时长令人惊讶的结构,我们尚未完全了解它们是如何工作的。
    这种方法有助于我们缩小其中的差距。



简单来说,在这项研究中,OpenAI研究员们的核心思路是:训练神经元连接少、但神经元数量多的稀疏模型,让神经网络变得简单,也更容易理解。

如果你对模型可解释性感兴趣,这篇论文值得一读。

而对于OpenAI的难得open,还有不少网友关心:那么新的小模型系列要来了吗?



通过稀疏模型理解神经网络

来看具体研究内容。

OpenAI研究员们认为,推理模型通过思维链展现出的可解释性在短期内非常有价值,能让我们捕捉到模型的“欺骗”等行为。但完全依赖这一特性显然不太可靠,随着时间的推移,这种策略也可能会失效。

想要更本质地理解模型机制,还是需要对模型的计算过程进行完全逆向工程。

问题在于,从复杂密集网络入手,难度非常大:每个神经元都与其他数千个神经元相连,不同的神经元又执行着许多不同的功能,这让理解它们看上去几乎不可能。

那么,能否训练一个拥有很多神经元,但每个神经元只有几十个连接的模型,来帮助人们理解模型机制呢

基于这一核心思路,OpenAI的研究人员训练了一个小模型:采用的还是现代语言模型的基础架构(类似GPT-2),只做了一个小小的改动——

强制将模型的大部分权重设为0



评估可解释性

有了这个稀疏模型,下一步,研究人员的目标是,找出模型在每一项任务中的“回路(circuit)”。



所谓“回路”,是指模型能精准完成特定任务的最小计算单元。

论文将其定义为一个由节点(nodes)和边(edges)组成的图。

回路的规模可以通过节点和边的数量来衡量,论文将回路的边数几何平均值作为解释性的量化指标。

为了评估模型的可解释性,研究人员设计了一系列简单的算法任务,对于每个任务,都将模型精简到能够完成任务的“最小回路”。

举个例子:

  • 任务:在Python中,’hello’必须以单引号结尾,”hello”必须以双引号结尾。模型可以通过记住字符串开头使用的引号类型,预测字符串结尾应使用单引号还是双引号,在结尾处自动补全字符串。

得到的回路长这样:



可以看到,该回路仅使用5个残差通道、第0层的两个MLP神经元,以及第10层的一个注意力查询键通道和一个值通道。

流程是:(1)将单引号编码到一个残差通道中,将双引号编码到另一个残差通道中;(2)使用MLP层将编码结果转换为两个通道:一个用于检测任意引号,另一个用于区分单引号和双引号;(3)使用注意力机制忽略中间的token,找到前一个引号,并将其类型复制到最后一个token;(4)预测匹配的结尾引号。

论文还研究了一些更复杂的行为,比如变量绑定等。这些行为的回路更难完全解释,但仍可以得出相对简单的部分解释,以预测模型的行为。



他们还发现:通过训练更大、更稀疏的模型,可以生成功能越来越强大、回路却越来越简单的模型

这表明,这一方法有可能扩展到理解更复杂的行为。



不过,研究人员也强调,这项工作仍处于早期:稀疏模型比前沿模型小得多,并且即使是稀疏模型,计算过程也仍有很多“黑盒”的部分。

另外,目前稀疏模型的训练效率比较低。他们认为有两种途径来解决:

一是从现有的密集模型中提取稀疏回路,而不是从头开始训练稀疏模型。

二是开发更高效的模型训练技术,以提高模型的可解释性。

“跨界”研究团队

作者一共有6位。

通讯作者为Leo Gao,研究方向是AGI对齐,曾参与过GPT-Neo、GPT-4的研究。论文被引数3.5w+,h-index为19。

他曾是Ilya超级对齐团队成员。在Ilya领导OpenAI超级对齐团队期间,两人合作发表了一系列论文和技术博客。



Achyuta Rajaram,还在MIT学物理,是OpenAI实习生。可解释性研究之外,兴趣是解谜游戏、下棋和撸猫。

Jacob Coxon,毕业于剑桥大学三一学院,2023年加入OpenAI。在2016年和2017年,他分别获得了两届IMO的银牌和铜牌。

Soham V. Govande,来自斯坦福,正在攻读计算机科学AI方向学士学位和系统方向硕士学位。加入OpenAI之前,还曾在英伟达实习。

Bowen Baker,OpenAI多智能体团队研究科学家,2017年就加入了OpenAI,曾参与OpenAI o1的研发。

Dan Mossing,本科毕业于普林斯顿大学物理专业,后于加州大学伯克利分校取得生物物理学博士学位。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中央委员孙绍骋落马!中纪委新年首月已打下7“虎”

中央委员孙绍骋落马!中纪委新年首月已打下7“虎”

上观新闻
2026-01-30 12:09:11
赛季报销!杨瀚森惨遭重创,开拓者强力中锋不打了!

赛季报销!杨瀚森惨遭重创,开拓者强力中锋不打了!

绯雨儿
2026-01-30 15:55:15
商业航天牛股,一字涨停!最新公告:可能被终止上市

商业航天牛股,一字涨停!最新公告:可能被终止上市

每日经济新闻
2026-01-28 21:40:06
隗福临同志逝世

隗福临同志逝世

新京报政事儿
2026-01-30 21:07:09
西部排名又乱了:太阳创NBA奇迹,快船收大礼,4队排名互换

西部排名又乱了:太阳创NBA奇迹,快船收大礼,4队排名互换

篮球大视野
2026-01-30 16:16:39
汕头一娱乐场所被责令关闭!法人被终身禁止!

汕头一娱乐场所被责令关闭!法人被终身禁止!

ilove汕头
2026-01-30 20:38:09
手握重兵,权倾朝野的话事人,为何在政变时坐以待毙、不做反抗?

手握重兵,权倾朝野的话事人,为何在政变时坐以待毙、不做反抗?

历史按察使司
2026-01-30 08:31:52
黄仁勋:未获大陆新订单,台湾40%芯片产能转美国系误读!

黄仁勋:未获大陆新订单,台湾40%芯片产能转美国系误读!

芯智讯
2026-01-30 09:46:34
突发,全线大跌!

突发,全线大跌!

魏家东
2026-01-30 13:20:50
火爆冲突3人被驱逐!同曦狂胜送四川21连败 郭昊文祝铭震均20分

火爆冲突3人被驱逐!同曦狂胜送四川21连败 郭昊文祝铭震均20分

醉卧浮生
2026-01-30 21:31:28
1月30日俄乌最新:100年来的新纪录

1月30日俄乌最新:100年来的新纪录

西楼饮月
2026-01-30 16:07:27
美国第一次做出了妥协,悄悄归还了油轮,马杜罗彻底失去军方拥护

美国第一次做出了妥协,悄悄归还了油轮,马杜罗彻底失去军方拥护

文雅笔墨
2026-01-30 02:58:25
中国冷眼旁观就是不出手,越南高铁开始病急乱投医

中国冷眼旁观就是不出手,越南高铁开始病急乱投医

古事寻踪记
2026-01-30 07:05:56
伊朗、中国和俄罗斯将举行联合海上演习

伊朗、中国和俄罗斯将举行联合海上演习

桂系007
2026-01-30 03:56:40
全球只有5位领导人被永久保留遗体,他们都是谁

全球只有5位领导人被永久保留遗体,他们都是谁

扶苏聊历史
2026-01-29 16:13:42
一个疯狂的时代,结束了

一个疯狂的时代,结束了

大嘴説
2026-01-29 23:15:14
父亲工龄48年,退休金每月才880元,我找去社保局,工作人员却愣了:他15年前就是高级工程师,特殊津贴每月16480

父亲工龄48年,退休金每月才880元,我找去社保局,工作人员却愣了:他15年前就是高级工程师,特殊津贴每月16480

起飞做故事
2026-01-28 18:56:29
女子被困缅甸新园区近一年半,每天工作18小时,完不成任务就挨打,“身体和精神都快到极限了”

女子被困缅甸新园区近一年半,每天工作18小时,完不成任务就挨打,“身体和精神都快到极限了”

扬子晚报
2026-01-30 15:05:51
明明长得一模一样,为啥一个叫牡蛎,另一个叫生蚝?

明明长得一模一样,为啥一个叫牡蛎,另一个叫生蚝?

半解智士
2026-01-30 17:14:17
章泽天也没想到,临近年关,刘强东竟会以这种方式,实现口碑暴涨

章泽天也没想到,临近年关,刘强东竟会以这种方式,实现口碑暴涨

查尔菲的笔记
2026-01-28 19:09:34
2026-01-30 21:44:49
量子位 incentive-icons
量子位
追踪人工智能动态
12087文章数 176368关注度
往期回顾 全部

科技要闻

意念控制机器人不是科幻 1-2年就落地

头条要闻

一先进芯片制造工程师回国 曾在美芯片设计公司挑大梁

头条要闻

一先进芯片制造工程师回国 曾在美芯片设计公司挑大梁

体育要闻

“假赌黑”的子弹,还要再飞一会儿吗?

娱乐要闻

警方通报金晨交通事故,否认网传骗保

财经要闻

金银闪崩,是调整还是趋势反转的开始?

汽车要闻

合资品牌首搭800V/5C快充 东风日产NX8将于3、4月上市

态度原创

时尚
家居
本地
数码
亲子

买10件退9件?到底怎么买红衣服才能不踩雷

家居要闻

蓝调空舍 自由与个性

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

数码要闻

399元起 达尔优推出A68铝壳防水磁轴键盘:IP68级防水

亲子要闻

怪不得人对自己实际年龄无感!网友:有娃后是真大人了

无障碍浏览 进入关怀版