网易首页 > 网易号 > 正文 申请入驻

OpenAI突然开源新模型!99.9%的权重是0,新稀疏性方法代替MoE

0
分享至

闻乐 发自 凹非寺
量子位 | 公众号 QbitAI

破解AI胡说八道的关键,居然是给大模型砍断99.9%的连接线?

OpenAI悄悄开源新模型,仅有0.4B参数,且99.9%的权重为零。



也就是Circuit Sparsity技术的开源实现。



这是一种通过人为约束模型内部连接的稀疏性,让模型计算过程可拆解、可理解的大语言模型变体,本质上是为了解决传统稠密Transformer的黑箱问题,让内部的计算电路能被人类清晰解读,知道AI是如何做决策的,避免轻易相信AI的胡话(doge)。



更有人直言这种「极致稀疏+功能解耦」的思路可能会让当下热门的MoE(混合专家模型)走上末路。



那么,当Transformer的权重被训练到近乎全0,会发生什么呢?

放弃粗糙近似,追求原生稀疏

先说说为啥这个模型的思考过程能像电路图一样好懂。

咱们平时用的传统大模型,内部神经元连接得密密麻麻,权重矩阵几乎全为非零值,信息传递呈现出高度叠加状态,就像一团扯不开的乱线,没人能说清它是怎么得出某个结论的。

而Circuit Sparsity模型反其道而行之,基于GPT-2风格的Transformer架构训练时,通过严格约束让权重的L0范数极小,直接把99.9%的无效连接砍断,只留下千分之一的有效通路。



这些留存的非零权重连接就像电路图里的导线,信息只能沿着固定路径传递;同时,模型还会通过均值屏蔽剪枝方法,为每个任务拆出专属的最小电路

比如处理Python引号闭合任务时,仅需2个MLP神经元和1个注意力头就能构成核心电路,包含专门的引号检测器、类型分类器等功能模块,就像电路图里的电阻、电容,各自管各自的事。



实验数据显示,在预训练损失相同的前提下,稀疏模型的任务专属电路规模比稠密模型小16倍,且具备严格的必要性与充分性——保留这些模块就能完成任务,删掉任一节点则直接失效。

这样,每一步的逻辑都能精准追踪。

那这时候就不得不提当下主流的MoE模型了。

MoE的核心思路是通过门控网络将模型拆分为多个专家子网络,每个专家负责处理一部分任务,靠路由器分配任务来提升效率,本质上是用拆分专家这种粗糙的方式近似稀疏性,目的只是为了适配硬件的稠密矩阵计算需求。

但这种架构存在致命缺陷:

  • 一是会割裂模型的特征流形,导致专家同质化严重、知识冗余等问题,不同专家间的信息协同依赖复杂的负载均衡损失函数调控,稳定性堪忧;
  • 二是专家功能边界模糊,无法像Circuit Sparsity模型那样实现微观机制的精准拆解。

反观Circuit Sparsity,追求的是模型原生的稀疏性,通过把特征投射到超大维度,再严格限制有效激活的节点数量,从设计上就让每个特征变得单义、正交,从根源上解决了传统模型一个概念分散在多个节点的叠加问题,不用靠路由器这种hack手段也能避免信息干扰。



不过Circuit Sparsity目前也有明显的短板,最突出的就是算力成本极高。

训练和推理的计算量是传统稠密模型的100-1000倍,暂时还达不到顶尖大模型的能力;

而MoE模型在算力效率和性能平衡上已经很成熟,短期内依然会是工业界的主流选择。

并且,这项工作也只是AI可解释性探索的早期一步,未来团队计划将技术扩展到更大的模型,解锁更复杂的推理电路。

目前,团队发现有两种克服稀疏模型训练效率低下的方法:

  • 一个是直接从现有的密集模型中提取稀疏电路,这样直接复用基础框架,不额外训练稀疏模型,能大幅降低成本;
  • 另一种途径则是不放弃从头训练可解释稀疏模型的这种思路,但针对训练慢、成本高的短板,从技术层面优化训练机制,造出原生可解释、且能高效落地的模型。

那么就期待研究人员后续用更成熟的工具或技术,逐步揭开大模型的黑箱面纱了。


[1]https://openai.com/zh-Hans-CN/index/understanding-neural-networks-through-sparse-circuits/
[2]https://x.com/byebyescaling/status/1999672833778287033?s=20

— 完 —

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
曝曼联夏窗买后腰计划,备1.2亿必签大牌!暂未接洽拜仁免费铁腰

曝曼联夏窗买后腰计划,备1.2亿必签大牌!暂未接洽拜仁免费铁腰

罗米的曼联博客
2026-02-03 07:06:29
俄军大量使用温压弹!上万乌军人危险了!泽连斯基改口称领土可谈

俄军大量使用温压弹!上万乌军人危险了!泽连斯基改口称领土可谈

嫹笔牂牂
2026-02-02 19:50:25
世界第一!中国机床,雪耻了

世界第一!中国机床,雪耻了

华商韬略
2026-02-01 12:45:53
英国首相身边“中文十级”女星火了:艾美奖得主,爱读鲁迅,儿子“汉语桥”比赛夺冠

英国首相身边“中文十级”女星火了:艾美奖得主,爱读鲁迅,儿子“汉语桥”比赛夺冠

红星新闻
2026-02-02 18:03:50
斯基拉:本泽马转会利雅得新月达成,合约期至2027年

斯基拉:本泽马转会利雅得新月达成,合约期至2027年

懂球帝
2026-02-02 15:32:28
赵匡胤的几个结义兄弟,帮赵匡胤当上了皇帝之后,都是什么结局?

赵匡胤的几个结义兄弟,帮赵匡胤当上了皇帝之后,都是什么结局?

铭记历史呀
2026-01-28 18:59:55
输麻了!54分+53分!篮网对小波特要价曝光

输麻了!54分+53分!篮网对小波特要价曝光

篮球实战宝典
2026-02-02 18:03:08
断崖式的下滑!为什么雄鹿侧翼新星本赛季的表现会如此糟糕?

断崖式的下滑!为什么雄鹿侧翼新星本赛季的表现会如此糟糕?

稻谷与小麦
2026-02-03 01:10:33
NBA战报:黄蜂102-95鹈鹕取NBA7连胜,特雷-墨菲27分

NBA战报:黄蜂102-95鹈鹕取NBA7连胜,特雷-墨菲27分

懂球帝
2026-02-03 07:01:02
比林肯纪念堂还大?特朗普拟建76米高拱门,重塑华盛顿

比林肯纪念堂还大?特朗普拟建76米高拱门,重塑华盛顿

十夏九漓
2026-02-03 08:04:06
就在今天!2月3日凌晨,亚洲杯传来雨果、松岛辉空、林诗栋新消息

就在今天!2月3日凌晨,亚洲杯传来雨果、松岛辉空、林诗栋新消息

皮皮观天下
2026-02-03 04:35:28
格力24年老大地位被结束,击败它的是国内最大空调集团,日收10亿

格力24年老大地位被结束,击败它的是国内最大空调集团,日收10亿

趣文说娱
2025-12-16 17:17:27
这就是为什么不要欺负底层员工的原因!网友:1600万结款直接报废

这就是为什么不要欺负底层员工的原因!网友:1600万结款直接报废

另子维爱读史
2026-02-01 20:32:25
公务员因公落下残疾无法胜任工作会被开除吗?网友分享解开谜底!

公务员因公落下残疾无法胜任工作会被开除吗?网友分享解开谜底!

带你感受人间冷暖
2026-01-25 00:15:06
解说员噩梦,签下安热尔-戈梅斯后狼队已有4名叫Gomes的球员

解说员噩梦,签下安热尔-戈梅斯后狼队已有4名叫Gomes的球员

懂球帝
2026-02-03 07:47:36
王石夫妇现身音乐节,两人打扮休闲,田朴珺依然是“王的小女人”

王石夫妇现身音乐节,两人打扮休闲,田朴珺依然是“王的小女人”

娱乐团长
2026-02-02 12:08:39
开年就封杀!从网红顶流到人人驱赶,房车为啥成了城市“公敌”

开年就封杀!从网红顶流到人人驱赶,房车为啥成了城市“公敌”

窥史
2026-01-31 22:45:04
伊朗水下导弹隧道突然出现!美军发现不对劲,想撤退已来不及了

伊朗水下导弹隧道突然出现!美军发现不对劲,想撤退已来不及了

肖兹探秘说
2026-02-02 12:37:18
心理学家:极度自私的人,往往不是斤斤计较,而是有着这3个特征

心理学家:极度自私的人,往往不是斤斤计较,而是有着这3个特征

木言观
2025-12-27 18:01:28
字母留队概率53%最高!三队报价雄鹿仍不满意:热火8换1还在加码

字母留队概率53%最高!三队报价雄鹿仍不满意:热火8换1还在加码

颜小白的篮球梦
2026-02-03 04:24:01
2026-02-03 08:55:00
量子位 incentive-icons
量子位
追踪人工智能动态
12101文章数 176369关注度
往期回顾 全部

科技要闻

马斯克官宣,SpaceX并购xAI,打造天基算力

头条要闻

牛弹琴:美印突然和好 一个与俄方有关的细节很不寻常

头条要闻

牛弹琴:美印突然和好 一个与俄方有关的细节很不寻常

体育要闻

澳网男单决赛,属于阿尔卡拉斯的加冕仪式

娱乐要闻

57岁音乐人袁惟仁去世,家属发文悼念

财经要闻

“精准查人”黑产链条遭查

汽车要闻

雷克萨斯LC500将于今年底停产 "最美雷克萨斯"谢幕

态度原创

亲子
本地
教育
房产
数码

亲子要闻

为什么“月子仇”,会让女人记一辈子?

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

教育要闻

《陪班班摆阵》

房产要闻

狂卖1548亿后,海南又上演疯狂抢地!

数码要闻

苹果发布老款mac系统更新 保障iMessage与FaceTime服务

无障碍浏览 进入关怀版