网易首页 > 网易号 > 正文 申请入驻

OpenAI又Open了下:可解释性新研究,作者来自Ilya超级对齐团队

0
分享至

来源:市场资讯

(来源:量子位)

刚小步快跑了一波GPT 5.1,主打让大模型说人话,OpenAI又在可解释性上做文章了。

真的是paper的那种。


论文公开了OpenAI内部一种训练小模型的新方法,能让模型的内部机制更容易被人类理解,即更具可解释性。

OpenAI自己是这样介绍的:


简单来说,在这项研究中,OpenAI研究员们的核心思路是:训练神经元连接少、但神经元数量多的稀疏模型,让神经网络变得简单,也更容易理解。

如果你对模型可解释性感兴趣,这篇论文值得一读。

而对于OpenAI的难得open,还有不少网友关心:那么新的小模型系列要来了吗?


通过稀疏模型理解神经网络

来看具体研究内容。

OpenAI研究员们认为,推理模型通过思维链展现出的可解释性在短期内非常有价值,能让我们捕捉到模型的“欺骗”等行为。但完全依赖这一特性显然不太可靠,随着时间的推移,这种策略也可能会失效。

想要更本质地理解模型机制,还是需要对模型的计算过程进行完全逆向工程。

问题在于,从复杂密集网络入手,难度非常大:每个神经元都与其他数千个神经元相连,不同的神经元又执行着许多不同的功能,这让理解它们看上去几乎不可能。

那么,能否训练一个拥有很多神经元,但每个神经元只有几十个连接的模型,来帮助人们理解模型机制呢?

基于这一核心思路,OpenAI的研究人员训练了一个小模型:采用的还是现代语言模型的基础架构(类似GPT-2),只做了一个小小的改动——

强制将模型的大部分权重设为0。


评估可解释性

有了这个稀疏模型,下一步,研究人员的目标是,找出模型在每一项任务中的“回路(circuit)”。


所谓“回路”,是指模型能精准完成特定任务的最小计算单元。

论文将其定义为一个由节点(nodes)和边(edges)组成的图。

回路的规模可以通过节点和边的数量来衡量,论文将回路的边数几何平均值作为解释性的量化指标。

为了评估模型的可解释性,研究人员设计了一系列简单的算法任务,对于每个任务,都将模型精简到能够完成任务的“最小回路”。

举个例子:

得到的回路长这样:


可以看到,该回路仅使用5个残差通道、第0层的两个MLP神经元,以及第10层的一个注意力查询键通道和一个值通道。

流程是:(1)将单引号编码到一个残差通道中,将双引号编码到另一个残差通道中;(2)使用MLP层将编码结果转换为两个通道:一个用于检测任意引号,另一个用于区分单引号和双引号;(3)使用注意力机制忽略中间的token,找到前一个引号,并将其类型复制到最后一个token;(4)预测匹配的结尾引号。

论文还研究了一些更复杂的行为,比如变量绑定等。这些行为的回路更难完全解释,但仍可以得出相对简单的部分解释,以预测模型的行为。


他们还发现:通过训练更大、更稀疏的模型,可以生成功能越来越强大、回路却越来越简单的模型。

这表明,这一方法有可能扩展到理解更复杂的行为。


不过,研究人员也强调,这项工作仍处于早期:稀疏模型比前沿模型小得多,并且即使是稀疏模型,计算过程也仍有很多“黑盒”的部分。

另外,目前稀疏模型的训练效率比较低。他们认为有两种途径来解决:

一是从现有的密集模型中提取稀疏回路,而不是从头开始训练稀疏模型。

二是开发更高效的模型训练技术,以提高模型的可解释性。

“跨界”研究团队

作者一共有6位。

通讯作者为Leo Gao,研究方向是AGI对齐,曾参与过GPT-Neo、GPT-4的研究。论文被引数3.5w+,h-index为19。

他曾是Ilya超级对齐团队成员。在Ilya领导OpenAI超级对齐团队期间,两人合作发表了一系列论文和技术博客。


Achyuta Rajaram,还在MIT学物理,是OpenAI实习生。可解释性研究之外,兴趣是解谜游戏、下棋和撸猫。

Jacob Coxon,毕业于剑桥大学三一学院,2023年加入OpenAI。在2016年和2017年,他分别获得了两届IMO的银牌和铜牌。

Soham V. Govande,来自斯坦福,正在攻读计算机科学AI方向学士学位和系统方向硕士学位。加入OpenAI之前,还曾在英伟达实习。

Bowen Baker,OpenAI多智能体团队研究科学家,2017年就加入了OpenAI,曾参与OpenAI o1的研发。

Dan Mossing,本科毕业于普林斯顿大学物理专业,后于加州大学伯克利分校取得生物物理学博士学位。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
12岁小学生在家服药身亡,遗书称:太累,太累,不会写英文单词

12岁小学生在家服药身亡,遗书称:太累,太累,不会写英文单词

恪守原则和底线
2025-11-17 20:12:15
鸡肋家电横行,这7种收割中产,连“穷鬼”也不放过,全是智商税

鸡肋家电横行,这7种收割中产,连“穷鬼”也不放过,全是智商税

室内设计师有料儿
2025-11-14 21:32:02
62岁刘德华晒三餐:三十年如一日地吃几乎同样的食物!

62岁刘德华晒三餐:三十年如一日地吃几乎同样的食物!

诗意世界
2025-11-16 18:03:56
蒋介石私生活有多混乱?贴身秘书晚年才敢说破,宋美龄的做法绝了

蒋介石私生活有多混乱?贴身秘书晚年才敢说破,宋美龄的做法绝了

百态人间
2025-11-17 16:43:41
中国地铁,开始“断供”了!多地地铁申报被拒,债务风险亮红灯

中国地铁,开始“断供”了!多地地铁申报被拒,债务风险亮红灯

青梅侃史啊
2025-11-15 19:43:15
狗主上门被反杀后续:索赔百万、对警方放狠话,邻居曝光郭家不堪

狗主上门被反杀后续:索赔百万、对警方放狠话,邻居曝光郭家不堪

吭哧有力
2025-11-15 18:42:28
上世纪50年代,到底杀了多少地主恶霸?公布的数据,让人不敢相信

上世纪50年代,到底杀了多少地主恶霸?公布的数据,让人不敢相信

文史道
2025-11-15 06:45:03
中日吵架,要不要抵制《鬼灭之刃》?

中日吵架,要不要抵制《鬼灭之刃》?

十柱
2025-11-17 12:54:23
《鬼灭之刃》新电影全球票房正式破1000亿!

《鬼灭之刃》新电影全球票房正式破1000亿!

随波荡漾的漂流瓶
2025-11-17 15:44:05
换车,就是一个巨大的消费陷阱。

换车,就是一个巨大的消费陷阱。

爱吃糖的猫cat
2025-11-16 18:14:27
火箭惨败压制!杜兰特半场15+4+2,谢泼德再爆发,申京阿门齐拉胯

火箭惨败压制!杜兰特半场15+4+2,谢泼德再爆发,申京阿门齐拉胯

光辉记
2025-11-17 09:31:45
确认裁员了,很严重,大家做好准备吧!

确认裁员了,很严重,大家做好准备吧!

关不羽
2025-11-18 09:03:23
大连蛇岛上的蛇越来越凶猛,而且还在进化,为啥不把这个岛消灭?

大连蛇岛上的蛇越来越凶猛,而且还在进化,为啥不把这个岛消灭?

诗意世界
2025-11-15 20:26:32
实力高深莫测,亚历山大开赛15场比赛有9场直接三节打卡

实力高深莫测,亚历山大开赛15场比赛有9场直接三节打卡

懂球帝
2025-11-18 11:48:07
人社局最新通知!大连将发放补贴,这些人可领

人社局最新通知!大连将发放补贴,这些人可领

大连开放前沿
2025-11-18 09:08:56
学生网购40件演出服,7天后成功退货,校方回应来了!商家:都脏得没法再次销售;有商家防“蹭穿”绝招亮了

学生网购40件演出服,7天后成功退货,校方回应来了!商家:都脏得没法再次销售;有商家防“蹭穿”绝招亮了

每日经济新闻
2025-11-17 16:51:08
如果不用核武器,中国多长时间能打败日本?张召忠的回答振奋人心

如果不用核武器,中国多长时间能打败日本?张召忠的回答振奋人心

老范谈史
2025-10-06 23:44:51
要做最坏准备?中国两“铁哥们”都援乌抗俄,给我们敲警钟

要做最坏准备?中国两“铁哥们”都援乌抗俄,给我们敲警钟

历史求知所
2025-11-17 11:10:09
54岁杨钰莹近况曝光:定居深圳,每天打理菜园子,生活平淡

54岁杨钰莹近况曝光:定居深圳,每天打理菜园子,生活平淡

小徐讲八卦
2025-11-17 07:29:28
22分逆转5连胜!新鹰王上位特雷杨露馅 难怪老鹰不愿给4年2.29亿

22分逆转5连胜!新鹰王上位特雷杨露馅 难怪老鹰不愿给4年2.29亿

锅子篮球
2025-11-17 20:20:53
2025-11-18 12:03:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
1414681文章数 4542关注度
往期回顾 全部

科技要闻

马斯克破防了!贝索斯62亿美金入局"实体AI"

头条要闻

"中方没有G20见高市早苗计划" 外交部回答斩钉截铁

头条要闻

"中方没有G20见高市早苗计划" 外交部回答斩钉截铁

体育要闻

直到退役那天,“海湾梅西”也没去欧洲踢球

娱乐要闻

曝喻恩泰离婚2年前转移走300箱茅台?

财经要闻

青云租陷兑付危机 集资与放贷的双面生意

汽车要闻

更加豪华 更加全地形 极石ADAMAS

态度原创

亲子
家居
数码
公开课
军事航空

亲子要闻

从怀孕到生娃,这2个阶段最该“闭嘴”,说多反而不吉

家居要闻

彰显奢华 意式经典风格

数码要闻

世界首款微处理器MP944揭秘,比英特尔4004早1年问世

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

韩国提议举行朝韩军事会谈

无障碍浏览 进入关怀版