网易首页 > 网易号 > 正文 申请入驻

OpenAI试图在奇点前夜,抢回人类的控制权|OpenAI新论文解读

0
分享至

我们正生活在一个由黑匣子统治的时代。这些黑匣子被我们称为AI。

几十年来,我们与这些机器的契约很简单:我们给它们海量的数据,它们还给我们一个魔法:准确推荐下一首歌、能以99%的准确率识别猫、或写出莎士比亚十四行诗。

我们不在乎怎么做到的,我们只要它能做到。

但现在,当这个黑匣子不再是用来识别猫,而是用来诊断癌症、批准贷款或(老天保佑)控制核武器时,“怎么做到的”成了不能规避问题。

于是,一个被称为机制可解释性的AI研究领域诞生了,他们的工作就是试图搞清楚模型到底在想什么。

在这个领域中,Anthropic贡献了很多技术,比如探针,试图通过观察注意力的变化,去逆向猜测大脑的运转。但这些猜测都是模糊且多解的,因为他们不得不面对神经网络的一个本质特性,那就是叠加。

直到这个月,OpenAI出手,用一篇名为《权重稀疏的Transformer具有可解释的电路》的论文给出了拆掉这座高墙的榔头,打算从根本上解决不可解释性的问题。


论文链接:https://arxiv.org/abs/2511.13653

1

叠加态的诅咒

叠加之所以令人头疼,是因为它让神经网络变得像一个过度拥挤的单身公寓。

在一个普通的密集神经网络里,为了节省成本(参数量),模型会让一个神经元同时打几份工。

这就像一个只有十个柜子的房间,却要塞进一千件不同的东西。当你拉开一个柜子(神经元),你会发现里面压扁了的冬衣、猫粮和一团电线塞在一起。

对于同一个神经元,当你问它“这是什么?”时,它会告诉你:如果看到“猫”,我激活 0.8;如果看到“狗”,我激活 -0.5;如果看到“引号”,我又激活 0.3。

这种一词多义的现象就是叠加。

让情况更糟糕的是,这些信息还会以复杂的方式分散在多个神经元之间。一个简单的任务(比如识别代码里的引号),其逻辑可能被撕碎,分散在几十个这种乱七八糟的神经元里,要靠着其他神经元同步激活,才能显现出来。

这也是目前的 AI 这么强的原因。它极致地压缩了信息,高效利用了每一个参数。

但也正因如此,想要看懂它的工作流,就跟拆开一团复杂的线团一样困难。

1

极简主义的经济制裁

OpenAI 的思路很直接。既然叠加是因为模型为了省钱(节省参数)而把概念混在一起,那干脆就改变经济规则,让它不去叠加了。

于是,他们设计了一个模型简化计划。从头开始训练一种权重稀疏(Weight-Sparse)的模型。在每个训练步骤后,OpenAI会直接把每个权重矩阵里除了最大的那些值之外的所有参数都清零。

这样,最极端的情况下,他们的模型只有千分之一的参数是非零的。此时,一个原本可以有一百万个连接的神经元,现在只被允许保留一千个。

这不是在限制模型能学多少知识,而是在限制它能动用多少关系。


在这种严苛的预算下,模型为了完成任务,必须精打细算。它发现,把毫不相关的概念(比如猫和引号)塞进同一个神经元变得不再划算,因为解开它们需要额外的连接,而连接极其珍贵。

于是,在这套极简主义的经济下,模型被迫学会了断舍离。训练出来的模型中,一个神经元只负责一个概念,这种解耦策略反而成了最经济的生存之道。

然而,训练出一个整洁的模型只是第一步。整个模型依然是一个有着庞大参数的迷宫。想要在迷宫里找到处理特定任务的那条红线,他们需要第二个工具,即自动剪枝(Automated Pruning)。

如果说稀疏训练是把杂乱的房间整理得井井有条,那么剪枝就是关掉灯,只让那些正在工作的电线发光。

这不是靠人工去猜,而是一个自动化过程。研究人员会为选定一个具体任务(比如数括号),然后给模型里每一个神经元都装上一个可调节的调光器(Mask)。

通过优化算法,系统会不断尝试关掉参数的灯光(均一化响应)。只要关掉这个神经元不影响任务结果,就立刻把它彻底关死 。

当数百万个调光器被关闭后,黑暗中只剩下那几十个还亮着的节点。这些幸存下来的节点连接在一起,就构成了能够解释具体任务的电路(Circuit)。

所谓电路,本质上就是从那个庞大而复杂的神经网络中提取出来的、专门负责某项具体任务的最小核心子图 。是模型在处理问题时,用到的所有逻辑判断的精简思维导图。

在这个稀疏中,AI 的思考路径变得惊人地干净。

当研究人员对比同样表现的稀疏模型和密集模型时,发现稀疏模型处理特定任务的电路体积,平均小了16倍


1

读懂AI的心

有了清晰的电路,研究人员终于可以读懂 AI 的思想了。

在论文中,研究人员向我们展示了模型是如何把一个简单的认知任务(看到引号 -> 记住引号 -> 闭合引号),拆解成了一套严密的写入-检索逻辑。


这个任务,大概是模型读到了一个开头的双引号 (",中间经过了一串字符,现在它走到了句子的尽头,需要预测下一个字符是 ") 还是 ') 。

它做的第一步是标记。当模型读到开头的 (" 时,电路中的一个组件被激活。它向信息流中写入了两条信息,先用引号检测器标明这里有个引号(位置标记),再用一个类型分类器判别了一下标记的类型,确认这是个引号(类型标记)。

第二步则是回溯。 当模型处理到句子的最后一个字,准备预测结尾时,第 10 层的一个注意力头启动了。它利用了注意力机制经典的 Q-K-V(查询-键-值) 结构来完成一次精准的数据库检索。回过头去寻找那个位置标记,也搜索到了前面的类型标记(双引号)。

模型拿着这个信息,立刻排除了单引号的选项,自信地输出了 ")。

模型整个行为的过程,非常符合人类的逻辑架构,用内容分离去判别,再用检索去确认。

在这些电路里,我们可以看到是清晰、可调试的代码逻辑。

研究人员甚至发现了更复杂的变量追踪电路,模型通过两层注意力机制,像接力跑一样,先把变量名存入内存,再在需要时通过变量名检索出它的类型。


1

有效性的证明

为了验证这些线路图不仅仅是好看,而是真的在工作,研究团队还做了一系列实验验证其充分性和必要性。

针对充分性,当他们把电路以外的所有神经元全部切断(设为平均值),发现模型依然能完美完成任务。

而当他们仅仅切断电路以内的那几个关键节点,模型的能力瞬间崩溃。这就说明它确实是必要的。

由此,研究者可以自信的说,他们提取出来的不仅仅是统计上的相关性,而是模型真正的思维流程

但即使模型是真的用这个电路思考的,研究人员怎么证明他们的理解没有问题呢?

证明也很简单如果他们真的懂这个电路,他们就应该能“黑”了它。

在研究一个“计算括号嵌套深度”的电路时,他们发现模型为了省事,用了一种“取平均值”的快捷算法来估算深度。研究人员立刻意识到:既然是取平均值,那如果我把上下文拉得特别长,这个数值不就被稀释了吗?

于是,他们故意构造了一个超长的列表作为输入。结果不出所料,模型正如预测那样,在嵌套深度判断上彻底失效了。

这简直是可解释性领域的登月时刻。这就像神经科学家声称破解了视觉皮层,然后通过画一张特定的图画,精准地让你的眼睛产生了预期的幻觉。

通过精准预测模型的失败,他们反向证明了对模型原理的掌控。

现在,OpenAI的研究人员可以完全自信的说,他们已经理解了模型是怎么处理括号问题的了。

1

找到了圣杯,但还是遇到了硬件的墙

故事到这里,似乎我们已经找到了圣杯。只要把所有模型都做成稀疏的,可解释性的问题不就解决了吗?

听着挺好,结果论文在角落里藏着一个巨大的但是,就是效率

这些权重稀疏模型,在现有的计算机上运行,效率低得令人发指。训练它们可能需要比普通模型多消耗100到1000倍的算力。

过去三十年的芯片工业,都是为了密集计算而生的。GPU之所以快,是因为并行能力强,能一次性做很多运算。

但在稀疏模型里,任何时候,只有零星几个神经元在做着计算。

当你把稀疏模型放到 GPU 上时,它那庞大的并行能力就完全失效了,只能一次算一点点。

我们为了让人类理解而设计的模型结构,恰好被我们需要它运行的硬件物理结构所排斥。

更糟糕的是,除了跑得慢,它还胖得惊人。

这样一个稀疏模型,因为其中神经元的利用很低效,因此想要达到和密集模型同样的聪明程度,你往往需要极大地增加它的总参数量。由此产生的模型体积也会大到让硬件装下很吃力。

这意味着,用这种方法训练一个稀疏版的 GPT-5根本不现实。

1

B 计划:桥接

那这一切努力都白费了吗?

OpenAI 提出了一个B计划,虽然无法用可解释性稀疏模型去取代那些高效但不可解释的密集模型,但我们可以用桥接的方式造一个区域翻译器,只翻译其中一小部分。


这一桥接的方法,就是冻结那个强大的密集模型,然后在它旁边训练一个小的稀疏模型。同时,训练一组翻译层,让它们时刻保持同步。

这样,当稀疏模型里的引号分类器亮起时,我们就能知道原来密集模型里对应的,是哪一套复杂的神经元组合了。

这个稀疏模型的桥接,就像一台连接到密集模型上的 X 光机。


虽然因为规模和效率问题,我们没法通过它翻译密集模型的全部思想。但针对我们关心的那些安全任务(比如欺骗、诱导、制造生化武器),针对性的翻译还是完全做得到的。

比如研究人员可以手动搜集一个模型进行欺骗行为的数据集。然后我们在这个数据集上训练桥接模型,强迫它去翻译GPT-5在进行欺骗时的内部计算。由此也许就能搞清楚其中到底是出了什么问题,模型为什么要撒谎。

1

不完美,但意义同样重大

虽然这篇论文没有给我们一个完全安全、可解释、超智能的AI。

它给了我们一套工具,和一线希望

它证明了,AI的黑匣子并非 坚不可摧。只要我们施加正确的压力(稀疏性),并使用正确的手术刀(修剪算法),我们就可以强迫这个黑匣子开口,把它最深的秘密暴露在人类的理解之下。

这也许是我们在超级智能降临的前夜,唯一能为它套上的思想缰绳。它让我们不再是被动地等待黑盒里的审判,而是第一次拥有了主动。

在AI学会欺骗之前看穿谎言,在它孕育出恶意之前,将其扼杀于神经元的闪烁之中。

这可能是在这场游戏中,我们唯一能赢的方式。

文章转载于腾讯科技,作者:博阳

点个爱心,再走 吧

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
女子回乡建厂5年:当初捧着邀请我来,如今被强拆4000万说没就没

女子回乡建厂5年:当初捧着邀请我来,如今被强拆4000万说没就没

今朝牛马
2026-01-16 18:14:40
热身赛次战女篮表现出人意料,宫鲁鸣调整战术节奏只信任一人

热身赛次战女篮表现出人意料,宫鲁鸣调整战术节奏只信任一人

卿子书
2026-02-13 08:52:31
别去撩中年女人:她不是猎物,是你惹不起的人间清醒

别去撩中年女人:她不是猎物,是你惹不起的人间清醒

青苹果sht
2026-01-13 03:43:56
泰山转攻葡萄牙中卫!国安买马马杜老乡 申花400万卖鲍亚雄赚大了

泰山转攻葡萄牙中卫!国安买马马杜老乡 申花400万卖鲍亚雄赚大了

刀锋体育
2026-02-13 10:55:24
彭于晏称不能接受凌晨4点开工,因为要睡8个小时:谁晚上8点睡觉?

彭于晏称不能接受凌晨4点开工,因为要睡8个小时:谁晚上8点睡觉?

红星新闻
2026-02-11 22:23:24
苏联不要的装备,70万武器被八路军拉3天3夜,捡出“半个军械库”

苏联不要的装备,70万武器被八路军拉3天3夜,捡出“半个军械库”

古书记史
2025-12-15 23:29:05
程序员高广辉猝死后续!他早逝有原因,父亲一直不赞成他的婚姻

程序员高广辉猝死后续!他早逝有原因,父亲一直不赞成他的婚姻

细品名人
2026-02-03 07:48:27
刘强东妹妹辞世九载,妹夫未再婚独养三子,刘强东每年赠百万元

刘强东妹妹辞世九载,妹夫未再婚独养三子,刘强东每年赠百万元

真正能保护你的
2026-02-05 23:33:01
比谢霆锋还颠!张柏芝大儿子恋情疑曝光,46岁大妈、辣妹都不放过

比谢霆锋还颠!张柏芝大儿子恋情疑曝光,46岁大妈、辣妹都不放过

查尔菲的笔记
2026-02-09 15:02:01
为何李广战绩平平,司马迁给他单独立传?卫青霍去病却只能合传?

为何李广战绩平平,司马迁给他单独立传?卫青霍去病却只能合传?

小豫讲故事
2026-02-11 06:00:15
上海一代表怒问:路是人民的路,凭什么乱收费?终于有人敢说了!

上海一代表怒问:路是人民的路,凭什么乱收费?终于有人敢说了!

番外行
2026-02-12 17:40:35
卡拉泽丨因扎吉连10个颠球都做不到,但……

卡拉泽丨因扎吉连10个颠球都做不到,但……

米兰圈
2026-02-12 08:28:33
上海主持人朱桢现状:二婚和日语老师妻子生俩娃,47岁创业当老板

上海主持人朱桢现状:二婚和日语老师妻子生俩娃,47岁创业当老板

白面书誏
2026-02-11 13:26:11
天呐!这居然是蒋勤勤?差点没认出来,珠圆玉润的富态感太绝了

天呐!这居然是蒋勤勤?差点没认出来,珠圆玉润的富态感太绝了

动物奇奇怪怪
2026-02-11 12:39:13
头盔事件越闹越大!乌克兰运动员上诉CAS,英国以色列等多国支持

头盔事件越闹越大!乌克兰运动员上诉CAS,英国以色列等多国支持

全景体育V
2026-02-13 09:36:42
小鹏真把“大湾区揽胜”造出来了!官方:6座全是C位

小鹏真把“大湾区揽胜”造出来了!官方:6座全是C位

网上车市
2026-02-12 10:16:03
汽车圈“大地震”!比亚迪大将投奔行业巨头,叫嚣:三年内没对手

汽车圈“大地震”!比亚迪大将投奔行业巨头,叫嚣:三年内没对手

长星寄明月
2026-01-20 21:00:46
教育反腐:中戏院长、表演系主任相继被抓

教育反腐:中戏院长、表演系主任相继被抓

山东教育
2026-02-13 07:59:05
广西女子骑小电驴独自从上海返回南宁,历时近两个月,行程3000多公里

广西女子骑小电驴独自从上海返回南宁,历时近两个月,行程3000多公里

南国今报
2026-02-12 12:35:04
拉夫罗夫:若格陵兰岛军事化 俄方将采取包括军事技术措施在内的反制措施

拉夫罗夫:若格陵兰岛军事化 俄方将采取包括军事技术措施在内的反制措施

财联社
2026-02-11 20:40:04
2026-02-13 11:35:00
硅星人 incentive-icons
硅星人
硅(Si)是创造未来的基础,欢迎来到这个星球。
2860文章数 10437关注度
往期回顾 全部

科技要闻

DeepSeek更新后被吐槽变冷变傻?

头条要闻

牛弹琴:特朗普最近干了三件事 让全世界大吃一惊

头条要闻

牛弹琴:特朗普最近干了三件事 让全世界大吃一惊

体育要闻

这张照片背后,是米兰冬奥最催泪的故事

娱乐要闻

米兰冬奥摘银 谷爱凌再遭美国网友网暴

财经要闻

华莱士母公司退市 疯狂扩张下的食安隐忧

汽车要闻

最大续航703km!全新奔驰纯电GLC 350 L即将国产

态度原创

艺术
旅游
游戏
本地
公开课

艺术要闻

书法大师的神作现身,引发网友热议!

旅游要闻

爱上海|上海乐高乐园度假区:“大过年就要大快乐”

PS独占大作《沙罗周期》游戏机制曝光!官方亲述

本地新闻

下一站是嘉禾望岗,请各位乘客做好哭泣准备

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版