网易首页 > 网易号 > 正文 申请入驻

OpenAI又Open了一下:发布可解释性新研究,作者来自Ilya超级对齐团队

0
分享至


来源:量子位 | 公众号 QbitAI

鱼羊 发自 凹非寺

刚小步快跑了一波GPT 5.1,主打让大模型说人话,OpenAI又在可解释性上做文章了。

真的是paper的那种。


论文公开了OpenAI内部一种训练小模型的新方法,能让模型的内部机制更容易被人类理解,即更具可解释性。

OpenAI自己是这样介绍的:

ChatGPT背后的语言模型具有复杂且时长令人惊讶的结构,我们尚未完全了解它们是如何工作的。 这种方法有助于我们缩小其中的差距。


简单来说,在这项研究中,OpenAI研究员们的核心思路是:训练神经元连接少、但神经元数量多的稀疏模型,让神经网络变得简单,也更容易理解。

如果你对模型可解释性感兴趣,这篇论文值得一读。

而对于OpenAI的难得open,还有不少网友关心:那么新的小模型系列要来了吗?


通过稀疏模型理解神经网络

来看具体研究内容。

OpenAI研究员们认为,推理模型通过思维链展现出的可解释性在短期内非常有价值,能让我们捕捉到模型的“欺骗”等行为。但完全依赖这一特性显然不太可靠,随着时间的推移,这种策略也可能会失效。

想要更本质地理解模型机制,还是需要对模型的计算过程进行完全逆向工程。

问题在于,从复杂密集网络入手,难度非常大:每个神经元都与其他数千个神经元相连,不同的神经元又执行着许多不同的功能,这让理解它们看上去几乎不可能。

那么,能否训练一个拥有很多神经元,但每个神经元只有几十个连接的模型,来帮助人们理解模型机制呢

基于这一核心思路,OpenAI的研究人员训练了一个小模型:采用的还是现代语言模型的基础架构(类似GPT-2),只做了一个小小的改动——

强制将模型的大部分权重设为0


评估可解释性

有了这个稀疏模型,下一步,研究人员的目标是,找出模型在每一项任务中的“回路(circuit)”。


所谓“回路”,是指模型能精准完成特定任务的最小计算单元。

论文将其定义为一个由节点(nodes)和边(edges)组成的图。

回路的规模可以通过节点和边的数量来衡量,论文将回路的边数几何平均值作为解释性的量化指标。

为了评估模型的可解释性,研究人员设计了一系列简单的算法任务,对于每个任务,都将模型精简到能够完成任务的“最小回路”。

举个例子:

任务:在Python中,’hello’必须以单引号结尾,”hello”必须以双引号结尾。模型可以通过记住字符串开头使用的引号类型,预测字符串结尾应使用单引号还是双引号,在结尾处自动补全字符串。

得到的回路长这样:


可以看到,该回路仅使用5个残差通道、第0层的两个MLP神经元,以及第10层的一个注意力查询键通道和一个值通道。

流程是:(1)将单引号编码到一个残差通道中,将双引号编码到另一个残差通道中;(2)使用MLP层将编码结果转换为两个通道:一个用于检测任意引号,另一个用于区分单引号和双引号;(3)使用注意力机制忽略中间的token,找到前一个引号,并将其类型复制到最后一个token;(4)预测匹配的结尾引号。

论文还研究了一些更复杂的行为,比如变量绑定等。这些行为的回路更难完全解释,但仍可以得出相对简单的部分解释,以预测模型的行为。


他们还发现:通过训练更大、更稀疏的模型,可以生成功能越来越强大、回路却越来越简单的模型

这表明,这一方法有可能扩展到理解更复杂的行为。


不过,研究人员也强调,这项工作仍处于早期:稀疏模型比前沿模型小得多,并且即使是稀疏模型,计算过程也仍有很多“黑盒”的部分。

另外,目前稀疏模型的训练效率比较低。他们认为有两种途径来解决:

一是从现有的密集模型中提取稀疏回路,而不是从头开始训练稀疏模型。

二是开发更高效的模型训练技术,以提高模型的可解释性。

“跨界”研究团队

作者一共有6位。

通讯作者为Leo Gao,研究方向是AGI对齐,曾参与过GPT-Neo、GPT-4的研究。论文被引数3.5w+,h-index为19。

他曾是Ilya超级对齐团队成员。在Ilya领导OpenAI超级对齐团队期间,两人合作发表了一系列论文和技术博客。


Achyuta Rajaram,还在MIT学物理,是OpenAI实习生。可解释性研究之外,兴趣是解谜游戏、下棋和撸猫。

Jacob Coxon,毕业于剑桥大学三一学院,2023年加入OpenAI。在2016年和2017年,他分别获得了两届IMO的银牌和铜牌。

Soham V. Govande,来自斯坦福,正在攻读计算机科学AI方向学士学位和系统方向硕士学位。加入OpenAI之前,还曾在英伟达实习。

Bowen Baker,OpenAI多智能体团队研究科学家,2017年就加入了OpenAI,曾参与OpenAI o1的研发。

Dan Mossing,本科毕业于普林斯顿大学物理专业,后于加州大学伯克利分校取得生物物理学博士学位。


阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828


未来知识库是“ 欧米伽 未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。 欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国香港“保姆车”冠军变了:日系MPV让位,国产车冲到了第一

中国香港“保姆车”冠军变了:日系MPV让位,国产车冲到了第一

柳先说
2026-02-03 17:12:14
小车直接断成两截,司机雷某某(女,60岁)抢救无效死亡

小车直接断成两截,司机雷某某(女,60岁)抢救无效死亡

南方都市报
2026-02-03 16:20:06
特斯拉把电池制造的“圣杯”搞定了

特斯拉把电池制造的“圣杯”搞定了

观察者网
2026-02-03 08:07:05
一个30岁女性,一场拼死的逃亡

一个30岁女性,一场拼死的逃亡

南风窗
2026-02-02 13:51:14
荒诞喜剧!papi酱吐槽春晚视频下架,“太好笑了毙掉”竟成神预言

荒诞喜剧!papi酱吐槽春晚视频下架,“太好笑了毙掉”竟成神预言

露珠聊影视
2026-02-02 17:51:52
瓜达尔港发生恐袭惨案,中国必须强力打击

瓜达尔港发生恐袭惨案,中国必须强力打击

凤眼论
2026-02-03 22:35:39
亚马尔破僵局阿劳霍头槌,巴萨2-1阿尔瓦塞特,卫冕冠军晋级四强

亚马尔破僵局阿劳霍头槌,巴萨2-1阿尔瓦塞特,卫冕冠军晋级四强

钉钉陌上花开
2026-02-04 06:18:11
港中大校长段崇智,默许港独学生暴行,被英国颁奖,如今怎么样?

港中大校长段崇智,默许港独学生暴行,被英国颁奖,如今怎么样?

鬼菜生活
2026-02-03 18:35:49
“不漂亮,还很吓人!”艺考生大眼睛赛过小燕子,却引起网友不适

“不漂亮,还很吓人!”艺考生大眼睛赛过小燕子,却引起网友不适

妍妍教育日记
2026-02-03 13:49:25
这跟不穿有啥区别?格莱美红毯女星穿衣大胆,连美国网友都无语了

这跟不穿有啥区别?格莱美红毯女星穿衣大胆,连美国网友都无语了

洲洲影视娱评
2026-02-02 17:11:05
新京报立了大功!卧底襄阳,把那个烂透的精神病院黑幕全给掀开了

新京报立了大功!卧底襄阳,把那个烂透的精神病院黑幕全给掀开了

火山诗话
2026-02-03 15:40:31
河南许昌一男一女坠河,女子被救上岸,男子不幸溺亡,派出所工作人员:两人系男女朋友,交往一年多

河南许昌一男一女坠河,女子被救上岸,男子不幸溺亡,派出所工作人员:两人系男女朋友,交往一年多

极目新闻
2026-02-03 22:45:29
乌军战俘成功说服看守自己的俄军投降!共同返回乌克兰

乌军战俘成功说服看守自己的俄军投降!共同返回乌克兰

项鹏飞
2026-02-03 18:14:02
NBA官方:莱昂纳德增补入选2026年全明星赛 填补美国队人数缺口

NBA官方:莱昂纳德增补入选2026年全明星赛 填补美国队人数缺口

罗说NBA
2026-02-04 07:40:12
孙宇晨与谷爱凌的大瓜:自称以“咖位不同”被分手前女友再爆猛料

孙宇晨与谷爱凌的大瓜:自称以“咖位不同”被分手前女友再爆猛料

穿透
2026-02-03 21:45:13
霹雳17性能过于强大,美媒苦思冥想,终于找出一个“致命缺点”

霹雳17性能过于强大,美媒苦思冥想,终于找出一个“致命缺点”

空天力量
2026-02-03 13:06:22
大S雕像揭幕现场曝光,炸出一堆“牛鬼蛇神”!具俊晔深情引争议

大S雕像揭幕现场曝光,炸出一堆“牛鬼蛇神”!具俊晔深情引争议

乌娱子酱
2026-02-03 15:59:35
知名调查记者刘虎被抓,应公开公正回应大众疑虑,以免人人自危

知名调查记者刘虎被抓,应公开公正回应大众疑虑,以免人人自危

互联网大观
2026-02-03 17:13:30
一想到孩子将来还要接受这样的教育,就惆怅

一想到孩子将来还要接受这样的教育,就惆怅

观人随笔
2026-02-03 15:49:56
梅德韦杰夫核言论遭俄著名宣传员怒怼:天天核平这个,核平那个

梅德韦杰夫核言论遭俄著名宣传员怒怼:天天核平这个,核平那个

史政先锋
2026-02-03 14:05:55
2026-02-04 09:08:49
人工智能学家 incentive-icons
人工智能学家
人工智能领域权威媒体
4519文章数 37401关注度
往期回顾 全部

科技要闻

李飞飞:AI的终点不是写代码,而是人类的尊严

头条要闻

牛弹琴:180度转弯 和特朗普"你死我活"的狠人去了白宫

头条要闻

牛弹琴:180度转弯 和特朗普"你死我活"的狠人去了白宫

体育要闻

“也许我的一小步,会成为中国足球的一大步”

娱乐要闻

大S逝世一周年 S家没通知大S子女惹争议

财经要闻

35岁入行,先被考证“割韭菜”

汽车要闻

上汽决定不再等那个“正确答案”了

态度原创

亲子
手机
数码
旅游
公开课

亲子要闻

2月大婴儿死亡,原因酒精中毒??亲妈故意往奶瓶里放酒,直接喝死了...

手机要闻

苹果助推全球手机ASP创新高,国产全部不及格

数码要闻

M5 Pro与M5 Max版MacBook Pro即将发布 经销商库存告急

旅游要闻

澳门“欢乐春节”系列活动丰富“旅游+盛事”魅力

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版