网易首页 > 网易号 > 正文 申请入驻

OpenAI 开源模型泄露:六大技术细节

0
分享至


OpenAI 可能即将发布的开源大模型的详细技术细节来了,以下是根据泄露信息整理


模型架构:1200亿参数的混合专家模型(MoE)

据爆料,OpenAI 可能会发布两款模型:

一款 1200亿(120B)参数的混合专家(MoE)模型:其在推理时仅激活约 50-60亿(5B/6B)参数。这意味着它能在保持巨大知识容量的同时,实现极高的推理效率,大幅降低运行成本

一款 200亿(20B)参数的稠密模型:作为更小巧、更易于部署的版本

目前来看,这两款模型将专注于文本处理,暂时不涉及多模态能力

训练技术:或采用 Float4 与 英伟达最新Blackwell 芯片

为了极致的效率,模型可能采用了 Float4进行训练或量化。这是一种非常激进的量化方案,可以极大地压缩模型体积并提升运算速度

据推测,这可能是借助英伟达最新发布的 Blackwell 架构 GPU 完成的,因为该系列芯片原生支持 Float4 运算。另一种可能性是,模型在训练后通过 训练后量化(PTQ) 技术压缩到了 Float4

激活函数:带范围限制的 SwiGLU

为了配合 Float4 量化,模型可能采用了 SwiGLU 激活函数,并对其输出范围进行了 裁剪,限制在 -7 到 7 之间

这类似于经典的 ReLU6 函数,其目的是为了消除激活值中的极端异常值,确保数值分布更稳定,从而降低量化过程中带来的精度损失。这对于 Float4 这种低精度格式至关重要

上下文窗口:通过 YaRN 技术扩展至 128K

模型将拥有128K 的超长上下文窗口,但它并非从头开始训练的。据推测,该模型的基础上下文窗口为 4K,之后在训练中途采用 YaRN等技术将其无缝扩展至 128K

注意力机制:滑动窗口注意力(SWA)与注意力汇聚(Attention Sinks)

为了高效处理 128K 的长文本,模型采用了两大关键技术:

滑动窗口注意力(SWA):窗口大小为 128。这意味着在计算注意力时,每个词元(token)只需关注其邻近的 128 个词元,从而将计算复杂度从二次方降低到线性级别

注意力汇聚(Attention Sinks):为了解决 SWA 会遗忘早期重要信息的问题,模型引入了注意力汇聚技术。该技术强制模型始终关注最开始的几个(例如 4 或 8 个)关键 token,确保模型在处理长序列时不会失忆。NVIDIA 的 TensorRT-LLM 也已支持此功能

底层架构:融合 Llama/Mixtral 特点并使用偏置项

模型的基础架构很可能借鉴了 Llama 和 Mixtral 等成功的开源模型。关键特征包括:

合并的 QKV 矩阵:将注意力机制中的查询(Q)、键(K)、值(V)矩阵合并,以优化计算效率

广泛使用偏置项(Biases):与一些模型(如 Llama)去掉偏置项的做法不同,该模型似乎在所有模块(包括 MLP、注意力层甚至 MoE 的路由层)都保留了偏置项,这可能有助于提升模型的拟合能力

(信息来源:基于 @apples_jimmy、@secemp9 及 EleutherAI Discord 社区的讨论整理)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
哈梅内伊开始大范围断网,革命卫队将与中俄军演,伊朗进入关键期

哈梅内伊开始大范围断网,革命卫队将与中俄军演,伊朗进入关键期

温读史
2026-01-10 07:33:53
上海多区陆续发布:致全体居民的一封信

上海多区陆续发布:致全体居民的一封信

上观新闻
2026-01-10 12:14:07
日本人的祖先究竟是谁?美国教授拿出DNA,日本人懵了

日本人的祖先究竟是谁?美国教授拿出DNA,日本人懵了

马探解说体育
2026-01-09 18:22:53
江苏南京一模特太漂亮 身高177cm体重55kg五官精致到无懈可击

江苏南京一模特太漂亮 身高177cm体重55kg五官精致到无懈可击

陈意小可爱
2026-01-10 01:19:36
成都蓉城高兴早了,上海海港又捡了大便宜,新赛季有望四连冠

成都蓉城高兴早了,上海海港又捡了大便宜,新赛季有望四连冠

我就是一个说球的
2026-01-10 21:55:58
1970年江青哥哥带儿子来北京,江青得知对方想见自己后:这事难办

1970年江青哥哥带儿子来北京,江青得知对方想见自己后:这事难办

谈古论今历史有道
2026-01-08 11:50:03
A股:周六晚间传来1大核弹级利空!下周很可能会迎更大级别大行情?

A股:周六晚间传来1大核弹级利空!下周很可能会迎更大级别大行情?

股市皆大事
2026-01-10 16:10:16
王曼昱为何爆冷输削球老将!没想到韩莹赛后这么说!球迷期待孙颖莎!

王曼昱为何爆冷输削球老将!没想到韩莹赛后这么说!球迷期待孙颖莎!

好乒乓
2026-01-10 21:59:10
质疑公司年会“必须穿西装”要求员工被开除!董事长简历超出寻常

质疑公司年会“必须穿西装”要求员工被开除!董事长简历超出寻常

火山诗话
2026-01-10 08:47:12
青岛山姆会员商店今年5月开业

青岛山姆会员商店今年5月开业

先锋新闻
2026-01-10 13:16:25
4-1,29岁中国留洋球员闪耀欧洲:无敌双响炮,率队2连胜+晋级

4-1,29岁中国留洋球员闪耀欧洲:无敌双响炮,率队2连胜+晋级

侧身凌空斩
2026-01-10 21:30:59
12月汽车销量榜出炉!Model Y比第二名多卖近3万辆?

12月汽车销量榜出炉!Model Y比第二名多卖近3万辆?

热点科技
2026-01-10 13:44:23
王石的“千金前妻”:30年婚姻,一场车祸失明,换来一场体面离婚

王石的“千金前妻”:30年婚姻,一场车祸失明,换来一场体面离婚

红大娘娱乐
2026-01-10 20:26:26
多哈冠军赛:林诗栋男单四强出局,奥运亚军意外落败

多哈冠军赛:林诗栋男单四强出局,奥运亚军意外落败

大昆说台球
2026-01-10 22:47:58
天呀,杜海涛竟然现成这样了,沈梦辰对他是真爱啊

天呀,杜海涛竟然现成这样了,沈梦辰对他是真爱啊

草莓解说体育
2026-01-07 01:43:18
科学家让一对情侣在核磁共振里实战,才发现人体惊人真相!

科学家让一对情侣在核磁共振里实战,才发现人体惊人真相!

徐德文科学频道
2026-01-06 19:51:55
好久不见!广东旧将现身业余比赛 曾是杜锋爱徒 因伤遗憾退役

好久不见!广东旧将现身业余比赛 曾是杜锋爱徒 因伤遗憾退役

胖子喷球
2026-01-10 19:41:44
机关单位泛滥的24小时值班制度,正在逼疯广大基层干部

机关单位泛滥的24小时值班制度,正在逼疯广大基层干部

笑熬浆糊111
2026-01-09 16:59:21
最令大龄剩女崩溃的一瞬间在什么时候?看网友的评论引起万千共鸣

最令大龄剩女崩溃的一瞬间在什么时候?看网友的评论引起万千共鸣

夜深爱杂谈
2026-01-10 22:27:12
大动作调仓!机构开年疯狂扫货这些板块,而火爆的芯片、半导体ETF竟被抛售

大动作调仓!机构开年疯狂扫货这些板块,而火爆的芯片、半导体ETF竟被抛售

每经牛眼
2026-01-10 12:51:03
2026-01-11 01:48:49
AI寒武纪 incentive-icons
AI寒武纪
专注于人工智能,科技领域
1027文章数 393关注度
往期回顾 全部

科技要闻

必看 | 2026开年最顶格的AI对话

头条要闻

特朗普签署行政令 宣布进入国家紧急状态

头条要闻

特朗普签署行政令 宣布进入国家紧急状态

体育要闻

怒摔水瓶!杜兰特30+12 难阻火箭遭双杀

娱乐要闻

吴速玲曝儿子Joe是恋爱脑

财经要闻

这不算诈骗吗?水滴保诱导扣款惹众怒

汽车要闻

宝马25年全球销量246.3万台 中国仍是第一大市场

态度原创

健康
艺术
手机
房产
亲子

这些新疗法,让化疗不再那么痛苦

艺术要闻

601米,150亿美元!沙特目前第一高楼是它!

手机要闻

魅族22Air、22 Next不开售发布,魅族23确认

房产要闻

66万方!4755套!三亚巨量房源正疯狂砸出!

亲子要闻

方媛晒三个女儿:大宝趴地上画画。二宝读英文书,三胎睡婴儿车里

无障碍浏览 进入关怀版