网易首页 > 网易号 > 正文 申请入驻

OpenAI又Open了一下:发布可解释性新研究,作者来自Ilya超级对齐团队

0
分享至


来源:量子位 | 公众号 QbitAI

鱼羊 发自 凹非寺

刚小步快跑了一波GPT 5.1,主打让大模型说人话,OpenAI又在可解释性上做文章了。

真的是paper的那种。


论文公开了OpenAI内部一种训练小模型的新方法,能让模型的内部机制更容易被人类理解,即更具可解释性。

OpenAI自己是这样介绍的:

ChatGPT背后的语言模型具有复杂且时长令人惊讶的结构,我们尚未完全了解它们是如何工作的。 这种方法有助于我们缩小其中的差距。


简单来说,在这项研究中,OpenAI研究员们的核心思路是:训练神经元连接少、但神经元数量多的稀疏模型,让神经网络变得简单,也更容易理解。

如果你对模型可解释性感兴趣,这篇论文值得一读。

而对于OpenAI的难得open,还有不少网友关心:那么新的小模型系列要来了吗?


通过稀疏模型理解神经网络

来看具体研究内容。

OpenAI研究员们认为,推理模型通过思维链展现出的可解释性在短期内非常有价值,能让我们捕捉到模型的“欺骗”等行为。但完全依赖这一特性显然不太可靠,随着时间的推移,这种策略也可能会失效。

想要更本质地理解模型机制,还是需要对模型的计算过程进行完全逆向工程。

问题在于,从复杂密集网络入手,难度非常大:每个神经元都与其他数千个神经元相连,不同的神经元又执行着许多不同的功能,这让理解它们看上去几乎不可能。

那么,能否训练一个拥有很多神经元,但每个神经元只有几十个连接的模型,来帮助人们理解模型机制呢

基于这一核心思路,OpenAI的研究人员训练了一个小模型:采用的还是现代语言模型的基础架构(类似GPT-2),只做了一个小小的改动——

强制将模型的大部分权重设为0


评估可解释性

有了这个稀疏模型,下一步,研究人员的目标是,找出模型在每一项任务中的“回路(circuit)”。


所谓“回路”,是指模型能精准完成特定任务的最小计算单元。

论文将其定义为一个由节点(nodes)和边(edges)组成的图。

回路的规模可以通过节点和边的数量来衡量,论文将回路的边数几何平均值作为解释性的量化指标。

为了评估模型的可解释性,研究人员设计了一系列简单的算法任务,对于每个任务,都将模型精简到能够完成任务的“最小回路”。

举个例子:

任务:在Python中,’hello’必须以单引号结尾,”hello”必须以双引号结尾。模型可以通过记住字符串开头使用的引号类型,预测字符串结尾应使用单引号还是双引号,在结尾处自动补全字符串。

得到的回路长这样:


可以看到,该回路仅使用5个残差通道、第0层的两个MLP神经元,以及第10层的一个注意力查询键通道和一个值通道。

流程是:(1)将单引号编码到一个残差通道中,将双引号编码到另一个残差通道中;(2)使用MLP层将编码结果转换为两个通道:一个用于检测任意引号,另一个用于区分单引号和双引号;(3)使用注意力机制忽略中间的token,找到前一个引号,并将其类型复制到最后一个token;(4)预测匹配的结尾引号。

论文还研究了一些更复杂的行为,比如变量绑定等。这些行为的回路更难完全解释,但仍可以得出相对简单的部分解释,以预测模型的行为。


他们还发现:通过训练更大、更稀疏的模型,可以生成功能越来越强大、回路却越来越简单的模型

这表明,这一方法有可能扩展到理解更复杂的行为。


不过,研究人员也强调,这项工作仍处于早期:稀疏模型比前沿模型小得多,并且即使是稀疏模型,计算过程也仍有很多“黑盒”的部分。

另外,目前稀疏模型的训练效率比较低。他们认为有两种途径来解决:

一是从现有的密集模型中提取稀疏回路,而不是从头开始训练稀疏模型。

二是开发更高效的模型训练技术,以提高模型的可解释性。

“跨界”研究团队

作者一共有6位。

通讯作者为Leo Gao,研究方向是AGI对齐,曾参与过GPT-Neo、GPT-4的研究。论文被引数3.5w+,h-index为19。

他曾是Ilya超级对齐团队成员。在Ilya领导OpenAI超级对齐团队期间,两人合作发表了一系列论文和技术博客。


Achyuta Rajaram,还在MIT学物理,是OpenAI实习生。可解释性研究之外,兴趣是解谜游戏、下棋和撸猫。

Jacob Coxon,毕业于剑桥大学三一学院,2023年加入OpenAI。在2016年和2017年,他分别获得了两届IMO的银牌和铜牌。

Soham V. Govande,来自斯坦福,正在攻读计算机科学AI方向学士学位和系统方向硕士学位。加入OpenAI之前,还曾在英伟达实习。

Bowen Baker,OpenAI多智能体团队研究科学家,2017年就加入了OpenAI,曾参与OpenAI o1的研发。

Dan Mossing,本科毕业于普林斯顿大学物理专业,后于加州大学伯克利分校取得生物物理学博士学位。


阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828


未来知识库是“ 欧米伽 未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。 欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
广东一佳人好漂亮, 身高169cm,体重50kg 美的让人移不开

广东一佳人好漂亮, 身高169cm,体重50kg 美的让人移不开

手工制作阿歼
2025-11-18 12:30:34
大年初一,小姑子提议全家去吃海底捞,我立马响应:可以啊,AA制

大年初一,小姑子提议全家去吃海底捞,我立马响应:可以啊,AA制

马蹄烫嘴说美食
2025-11-17 09:13:43
一个禁卫军小头目,凭什么六年就当上了天下兵马大元帅?

一个禁卫军小头目,凭什么六年就当上了天下兵马大元帅?

地理史观
2025-11-04 17:05:31
神舟二十二号发射禁航发布!神22飞天倒计时,中国空间站已变轨!

神舟二十二号发射禁航发布!神22飞天倒计时,中国空间站已变轨!

火星一号
2025-11-17 22:30:23
全运会乒乓球:男团4强席位出炉!王楚钦3:0全国冠军,拿下两连胜

全运会乒乓球:男团4强席位出炉!王楚钦3:0全国冠军,拿下两连胜

国乒二三事
2025-11-18 11:50:40
掘金爆冷惜败!约基奇36+18+13难救主,武神立功,穆雷34+4犯大错

掘金爆冷惜败!约基奇36+18+13难救主,武神立功,穆雷34+4犯大错

鱼崖大话篮球
2025-11-18 12:33:44
日本樱花妹与黑人男子在餐厅厕所“大战”15分钟!店长暴怒:请去旁边的酒店!

日本樱花妹与黑人男子在餐厅厕所“大战”15分钟!店长暴怒:请去旁边的酒店!

东京新青年
2025-11-17 19:00:44
雷士照明创始人吴长江:一晚输5亿,赌掉300亿公司,送自己进大牢

雷士照明创始人吴长江:一晚输5亿,赌掉300亿公司,送自己进大牢

霹雳炮
2025-11-17 23:20:46
电影《鬼灭之刃》20号下映信息不实,其第三段的密钥已发布,秘钥时间到21日23:59

电影《鬼灭之刃》20号下映信息不实,其第三段的密钥已发布,秘钥时间到21日23:59

极目新闻
2025-11-18 09:56:24
新一代宝马X5曝光,外观大变样,增程版、氢动力版都要来?

新一代宝马X5曝光,外观大变样,增程版、氢动力版都要来?

车品
2025-11-17 17:45:38
豪夺五冠一亚!中国体操又一15岁天才少女崛起:美如精灵改写历史

豪夺五冠一亚!中国体操又一15岁天才少女崛起:美如精灵改写历史

李喜林篮球绝杀
2025-11-18 11:11:58
葡萄牙穷到什么程度?我住了8个月,有些尴尬的现实得说出来

葡萄牙穷到什么程度?我住了8个月,有些尴尬的现实得说出来

诗意世界
2025-11-06 10:27:22
拥有杜兰特,是一种奢侈

拥有杜兰特,是一种奢侈

只关于篮球
2025-11-18 13:27:03
继续啃老!38岁于汉超不退役,赛季9球上海申花就指望他进球了

继续啃老!38岁于汉超不退役,赛季9球上海申花就指望他进球了

蒂蒂茱家
2025-11-18 12:26:10
出大事了,俄罗斯发起斩首行动,乌军官被杀,泽连斯基紧急出国

出大事了,俄罗斯发起斩首行动,乌军官被杀,泽连斯基紧急出国

扬子的故事屋
2025-11-18 12:25:12
86年立功被提拔,师长介绍他女儿给我,谁知刚见面就扇了我一巴掌

86年立功被提拔,师长介绍他女儿给我,谁知刚见面就扇了我一巴掌

卡西莫多的故事
2025-10-29 10:39:30
新华时评|在台湾问题上生事,就是给自己找事

新华时评|在台湾问题上生事,就是给自己找事

新华社
2025-11-17 23:07:16
福建女篮官方:前中国女篮国手卞兰新赛季担任球队主帅

福建女篮官方:前中国女篮国手卞兰新赛季担任球队主帅

懂球帝
2025-11-18 12:41:06
全运会:北京男团广东男团晋级四强,王楚钦独得2分

全运会:北京男团广东男团晋级四强,王楚钦独得2分

荒野老五
2025-11-18 12:51:16
樊振东握拳怒吼!连胜123号种子太强悍 梁靖崑拖入抢五后被打崩

樊振东握拳怒吼!连胜123号种子太强悍 梁靖崑拖入抢五后被打崩

颜小白的篮球梦
2025-11-18 11:48:48
2025-11-18 13:40:49
人工智能学家 incentive-icons
人工智能学家
人工智能领域权威媒体
4327文章数 37340关注度
往期回顾 全部

科技要闻

马斯克破防了!贝索斯62亿美金入局"实体AI"

头条要闻

小伙和31岁女网友发生关系 婚礼上发现女方父母是演员

头条要闻

小伙和31岁女网友发生关系 婚礼上发现女方父母是演员

体育要闻

直到退役那天,“海湾梅西”也没去欧洲踢球

娱乐要闻

曝喻恩泰离婚2年前转移走300箱茅台?

财经要闻

青云租陷兑付危机 集资与放贷的双面生意

汽车要闻

更加豪华 更加全地形 极石ADAMAS

态度原创

时尚
教育
游戏
本地
军事航空

听说冷帽是“美女检验神器”?

教育要闻

超市打折背后的秘密:方程求进价很轻松!

舅舅党爆料:Switch2版《GTA6》正在开发 但不会同步发售!

本地新闻

这档古早综艺,怎么就成了年轻人的哆啦A梦?

军事要闻

韩国提议举行朝韩军事会谈

无障碍浏览 进入关怀版