网易首页 > 网易号 > 正文 申请入驻

OpenAI又Open了下:可解释性新研究,作者来自Ilya超级对齐团队

0
分享至

鱼羊 发自 凹非寺
量子位 | 公众号 QbitAI

刚小步快跑了一波GPT 5.1,主打让大模型说人话,OpenAI又在可解释性上做文章了。

真的是paper的那种。



论文公开了OpenAI内部一种训练小模型的新方法,能让模型的内部机制更容易被人类理解,即更具可解释性。

OpenAI自己是这样介绍的:

  • ChatGPT背后的语言模型具有复杂且时长令人惊讶的结构,我们尚未完全了解它们是如何工作的。
    这种方法有助于我们缩小其中的差距。



简单来说,在这项研究中,OpenAI研究员们的核心思路是:训练神经元连接少、但神经元数量多的稀疏模型,让神经网络变得简单,也更容易理解。

如果你对模型可解释性感兴趣,这篇论文值得一读。

而对于OpenAI的难得open,还有不少网友关心:那么新的小模型系列要来了吗?



通过稀疏模型理解神经网络

来看具体研究内容。

OpenAI研究员们认为,推理模型通过思维链展现出的可解释性在短期内非常有价值,能让我们捕捉到模型的“欺骗”等行为。但完全依赖这一特性显然不太可靠,随着时间的推移,这种策略也可能会失效。

想要更本质地理解模型机制,还是需要对模型的计算过程进行完全逆向工程。

问题在于,从复杂密集网络入手,难度非常大:每个神经元都与其他数千个神经元相连,不同的神经元又执行着许多不同的功能,这让理解它们看上去几乎不可能。

那么,能否训练一个拥有很多神经元,但每个神经元只有几十个连接的模型,来帮助人们理解模型机制呢

基于这一核心思路,OpenAI的研究人员训练了一个小模型:采用的还是现代语言模型的基础架构(类似GPT-2),只做了一个小小的改动——

强制将模型的大部分权重设为0



评估可解释性

有了这个稀疏模型,下一步,研究人员的目标是,找出模型在每一项任务中的“回路(circuit)”。



所谓“回路”,是指模型能精准完成特定任务的最小计算单元。

论文将其定义为一个由节点(nodes)和边(edges)组成的图。

回路的规模可以通过节点和边的数量来衡量,论文将回路的边数几何平均值作为解释性的量化指标。

为了评估模型的可解释性,研究人员设计了一系列简单的算法任务,对于每个任务,都将模型精简到能够完成任务的“最小回路”。

举个例子:

  • 任务:在Python中,’hello’必须以单引号结尾,”hello”必须以双引号结尾。模型可以通过记住字符串开头使用的引号类型,预测字符串结尾应使用单引号还是双引号,在结尾处自动补全字符串。

得到的回路长这样:



可以看到,该回路仅使用5个残差通道、第0层的两个MLP神经元,以及第10层的一个注意力查询键通道和一个值通道。

流程是:(1)将单引号编码到一个残差通道中,将双引号编码到另一个残差通道中;(2)使用MLP层将编码结果转换为两个通道:一个用于检测任意引号,另一个用于区分单引号和双引号;(3)使用注意力机制忽略中间的token,找到前一个引号,并将其类型复制到最后一个token;(4)预测匹配的结尾引号。

论文还研究了一些更复杂的行为,比如变量绑定等。这些行为的回路更难完全解释,但仍可以得出相对简单的部分解释,以预测模型的行为。



他们还发现:通过训练更大、更稀疏的模型,可以生成功能越来越强大、回路却越来越简单的模型

这表明,这一方法有可能扩展到理解更复杂的行为。



不过,研究人员也强调,这项工作仍处于早期:稀疏模型比前沿模型小得多,并且即使是稀疏模型,计算过程也仍有很多“黑盒”的部分。

另外,目前稀疏模型的训练效率比较低。他们认为有两种途径来解决:

一是从现有的密集模型中提取稀疏回路,而不是从头开始训练稀疏模型。

二是开发更高效的模型训练技术,以提高模型的可解释性。

“跨界”研究团队

作者一共有6位。

通讯作者为Leo Gao,研究方向是AGI对齐,曾参与过GPT-Neo、GPT-4的研究。论文被引数3.5w+,h-index为19。

他曾是Ilya超级对齐团队成员。在Ilya领导OpenAI超级对齐团队期间,两人合作发表了一系列论文和技术博客。



Achyuta Rajaram,还在MIT学物理,是OpenAI实习生。可解释性研究之外,兴趣是解谜游戏、下棋和撸猫。

Jacob Coxon,毕业于剑桥大学三一学院,2023年加入OpenAI。在2016年和2017年,他分别获得了两届IMO的银牌和铜牌。

Soham V. Govande,来自斯坦福,正在攻读计算机科学AI方向学士学位和系统方向硕士学位。加入OpenAI之前,还曾在英伟达实习。

Bowen Baker,OpenAI多智能体团队研究科学家,2017年就加入了OpenAI,曾参与OpenAI o1的研发。

Dan Mossing,本科毕业于普林斯顿大学物理专业,后于加州大学伯克利分校取得生物物理学博士学位。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
国乒男队没断层!18岁小将15连胜取1金1铜 赛后谦虚发言衬高情商

国乒男队没断层!18岁小将15连胜取1金1铜 赛后谦虚发言衬高情商

颜小白的篮球梦
2025-11-15 18:10:48
当着日本记者的面,郑丽文表态:只有接受这件事,台湾才能活下去

当着日本记者的面,郑丽文表态:只有接受这件事,台湾才能活下去

三石记
2025-11-15 17:23:38
突然明白了为什么大S生命的最后,家人还在开心地跳舞

突然明白了为什么大S生命的最后,家人还在开心地跳舞

可乐谈情感
2025-11-15 10:11:54
站着的霍金,罕见的李嘉诚,20岁的屠呦呦,这是朋友圈最珍贵的照片

站着的霍金,罕见的李嘉诚,20岁的屠呦呦,这是朋友圈最珍贵的照片

空间设计
2025-11-09 12:15:02
特补肾的一种豆子,对眼睛和头发都非常好,不妨多吃,对身体好!

特补肾的一种豆子,对眼睛和头发都非常好,不妨多吃,对身体好!

秀厨娘
2025-11-15 18:40:42
日本专家对比中日军事实力:若发生空战和海战,还是日本更强?

日本专家对比中日军事实力:若发生空战和海战,还是日本更强?

云上乌托邦
2025-09-04 11:45:33
仗打了1000多天,世界各国才反应过来:中俄不结盟才是最优选择

仗打了1000多天,世界各国才反应过来:中俄不结盟才是最优选择

南权先生
2025-11-15 16:49:16
今天苏津女排的比赛,透出很不寻常的怪异

今天苏津女排的比赛,透出很不寻常的怪异

生活新鲜市
2025-11-15 16:07:24
就高市涉华错误言行,中方:严正交涉!强烈抗议!日方胆敢触碰红线,新账旧账一起清算!中方重要提醒:中国公民在日本安全环境持续恶化,近期避免前往日本

就高市涉华错误言行,中方:严正交涉!强烈抗议!日方胆敢触碰红线,新账旧账一起清算!中方重要提醒:中国公民在日本安全环境持续恶化,近期避免前往日本

每日经济新闻
2025-11-15 18:17:15
连续8个涨停板!股民:漏掉的妖股!

连续8个涨停板!股民:漏掉的妖股!

数据挖掘分析
2025-11-15 14:20:43
山西狗咬人血案细节曝光:剔骨刀没死者DNA,1.7米狗链咋咬到人?

山西狗咬人血案细节曝光:剔骨刀没死者DNA,1.7米狗链咋咬到人?

起喜电影
2025-11-15 11:56:29
6国外援候命,高市通知全球,对华打响第二枪,解放军被逼上硬菜

6国外援候命,高市通知全球,对华打响第二枪,解放军被逼上硬菜

乐天闲聊
2025-11-14 11:42:56
四川两市发布干部任前公示

四川两市发布干部任前公示

甘孜传媒
2025-11-15 16:44:33
福建一厅级干部,当选新职

福建一厅级干部,当选新职

新浪财经
2025-11-15 11:46:45
申花好消息!天津热身赛输给北京国安 坏消息!4主力无法跟队训练

申花好消息!天津热身赛输给北京国安 坏消息!4主力无法跟队训练

80后体育大蜀黍
2025-11-14 21:48:22
11月14日俄乌:公正的回应

11月14日俄乌:公正的回应

山河路口
2025-11-14 18:51:04
特朗普表示已对委内瑞拉问题“作出决定”

特朗普表示已对委内瑞拉问题“作出决定”

新华社
2025-11-15 15:20:02
霍思燕这件衣服太宽松了吧,练个瑜伽都快走光了,是故意的吧

霍思燕这件衣服太宽松了吧,练个瑜伽都快走光了,是故意的吧

情感大头说说
2025-10-26 03:25:09
郑丽文完成重要人事布局,兼任一关键岗位,沈富雄叫嚣:马上辞职

郑丽文完成重要人事布局,兼任一关键岗位,沈富雄叫嚣:马上辞职

阿七说史
2025-11-15 17:19:27
《四喜》看懂冯美奇未婚先孕的真相,才知大倪“倒追”胡刚,精明

《四喜》看懂冯美奇未婚先孕的真相,才知大倪“倒追”胡刚,精明

慢半拍sir
2025-11-15 18:37:35
2025-11-15 19:31:00
量子位 incentive-icons
量子位
追踪人工智能动态
11682文章数 176330关注度
往期回顾 全部

科技要闻

撕掉流量外衣,小米还剩什么?

头条要闻

山西"狗咬人被摔死"案狗主家10人进院 喊"弄死你全家"

头条要闻

山西"狗咬人被摔死"案狗主家10人进院 喊"弄死你全家"

体育要闻

樊振东和他的尖子班 勇闯地表最强乒乓球赛

娱乐要闻

钟嘉欣婚变风波升级!被骗婚?

财经要闻

小米之“惑”

汽车要闻

限时10.59万起 新款星海S9将11月19日上市

态度原创

健康
亲子
艺术
旅游
游戏

金振口服液助力科学应对呼吸道疾病

亲子要闻

宝蓝玩“扮演妈妈”游戏,组装厨房给小宝宝做饭,照顾小宝宝~

艺术要闻

上海博物馆“压箱底”的书法!由一位顶级富二代所写,水平超越古人

旅游要闻

“莲韵赏秋 闽赣有约” 广昌文旅推介会在福建三明举办

高玩招魂《星鸣特攻》私服成功 宣传片火速被下架

无障碍浏览 进入关怀版