网易首页 > 网易号 > 正文 申请入驻

奥特曼深夜官宣:OpenAI重回开源!两大推理模型追平o4-mini,号称世界最强

0
分享至


新智元报道

编辑:桃子 好困

【新智元导读】OpenAI深夜扔出开源核弹,gpt-oss 20B和120B两款模型同时上线。它们不仅性能比肩o3-mini和o4-mini,而且还能在消费级显卡甚至手机上轻松运行。GPT-2以来,奥特曼终于兑现了Open AI。

他来了!他来了!

就在今夜,奥特曼带着两款全新的开源模型走来了!

,它们分别是总参数1170亿,激活参数51亿「gpt-oss-120b」总参数210亿,激活参数36亿「gpt-oss-20b」

终于,OpenAI再次回归开源。


  • gpt-oss-120b适用于需要高推理能力的生产级和通用型场景

在核心推理基准测试中,120B模型的表现与OpenAIo4-mini相当,并且能在单张80GB显存的GPU上高效运行(如H100)。

  • gpt-oss-20b适用于低延迟、本地或专业化场景

在常用基准测试中,20B模型的表现与OpenAIo3-mini类似,并且能在仅有16GB显存的边缘设备上运行。

除此之外,两款模型在工具使用、少样本函数调用、CoT推理以及HealthBench评测中也表现强劲,甚至比OpenAI o1和GPT-4o等专有模型还要更强。

其他亮点如下:

  • 宽松的Apache 2.0许可证:可自由用于构建,无copyleft限制或专利风险——是实验、定制和商业化部署的理想选择。

  • 可配置的推理投入:可根据用户的具体用例和延迟需求,轻松调整推理投入(低、中、高)。

  • 完整的思维链:可完整访问模型的推理过程,从而简化调试并提升输出结果的可信度。

  • 支持微调:支持参数级微调,可根据您的特定用例对模型进行完全定制。

  • 智能体能力:利用模型原生的函数调用、网页浏览、Python代码执行和结构化输出等能力。

  • 原生MXFP4量化:在训练时,模型的混合专家(MoE)层便采用了原生的MXFP4精度,使得gpt-oss-120b在单张H100 GPU上即可运行,而gpt-oss-20b仅需16GB内存。

值得一提的是,OpenAI还特地准备了一个playground网站供大家在线体验。


体验地址:https://gpt-oss.com/


GitHub项目:https://github.com/openai/gpt-oss

Hugging Face(120B):https://huggingface.co/openai/gpt-oss-120b

Hugging Face(20B):https://huggingface.co/openai/gpt-oss-20b

GPT-2以来,首次开源

gpt-oss系模型,是OpenAI自GPT-2以来首次开源的语言模型。

今天,OpenAI同时放出了34页技术报告,模型采用了最先进的预训练和后训练技术。


模型卡:https://cdn.openai.com/pdf/419b6906-9da6-406c-a19d-1bb078ac7637/oai_gpt-oss_model_card.pdf

预训练与模型架构

相较于此前开源的Whisper和CLIP,gpt-oss模型在推理能力、效率以及在广泛部署环境中的实用性上更强。

每个模型都采用了Transformer架构,并融入MoE设计,减少处理输入时激活参数量。

如上所述,gpt-oss-120b总参数1170亿,每token激活51亿参数,gpt-oss-20b总参数210亿,每token激活36亿参数。

此外,模型还借鉴了GPT-3设计理念,采用了交替的密集注意力和局部带状稀疏注意力模式。


为了提升推理和内存效率,模型还采用了分组多查询注意力机制,组大小为8,以及旋转位置编码(RoPE),原生支持128k上下文。

gpt-oss模型的训练数据以「英语」为主,聚焦STEM、编程和通用知识领域。

OpenAI采用了o200k_harmony分词器对数据进行分词,它是OpenAI o4-mini和GPT-4o所用分词器的「超集」。

今天,这款分词器同步开源。

利好开发者的是,gpt-oss两款模型与Responses API⁠兼容,专为智能体工作流打造,在指令遵循、工具使用、推理上极其强大。

比如,它能自主为需要复杂推理,或是目标是极低延迟输出的任务调整推理投入。

同时完全可定制,并提供完整的思维链(CoT),以及支持结构化输出⁠。

据悉,gpt-oss模型整个预训练成本,低于50万美元。


后训练

在后训练阶段,gpt-oss模型的流程与o4-mini相似,包含了「监督微调」和「高算力强化学习」阶段。

训练过程中,团队以「OpenAI模型规范⁠」为目标对齐,并教导模型在生成答案前,使用CoT推理和工具。

通过采用与专有o系推理模型的相同技术,让gpt-oss在后训练中展现出卓越能力。

与API中的OpenAI o系列推理模型相似,这两款开源模型支持三种推理投入——低、中、高。

开发者只需在系统提示词中加入一句话,即可在延迟与性能间灵活切换。

OpenAI官方放出的一个demo中,惊艳展示了gpt-oss如何一步步使用工具,通过CoT推理构建一个视频游戏。

开源小模型,比肩旗舰o3/o4-mini

在多个基准测试中,gpt-oss-120b堪比旗舰级o系模型的性能。

具体来说,在编程竞赛(Codeforces)、通用问题解决(MMLU和HLE)以及工具调用(TauBench)方面,它直接超越了o3-mini,达到甚至超越了o4-mini的水平。



此外,在健康相关查询(HealthBench⁠)、数学竞赛(AIME 2024 & 2025)基准中,它的表现甚至优于o4-mini。


尽管gpt-oss-20b规模较小,但在相同的评估中,其表现与o3-mini持平或更优,甚至在AIME、健康领域基准上的表现超越了o3-mini。



在AIME数学测试中,gpt-oss-120b和gpt-oss-20b随着推理token的增加,准确率折线逐渐逼近。


在博士级知识问答基准中,gpt-oss-120b的性能始终领先于gpt-oss-20b。


此外,OpenAI近期研究表明,未经直接监督训练的CoT有助于发现模型潜在不当行为。

这一观点也得到了业内其他同行的认同。

同样,遵循o1-preview⁠的设计原则,研究团队并未对gpt-oss模型CoT直接监督,让模型更加透明。


OpenAI,Open AI了

gpt-oss-120b和gpt-oss-20b的开源,标志着OpenAI终于在开源模型上,迈出了重要一步。

在同等规模下,它们在推理性能上,可与o3-mini、o4-mini一较高下,甚至是领先。

OpenAI开源模型为所有开发者,提供了强大的工具,补充了托管模型的生态,加速前沿研究、促进创新。

更重要的是,模型开源降低了一些群体,比如新兴市场、缺少算力小企业的准入门槛。

一个健康的开放模型生态系统,是让AI普及并惠及所有人的一个重要方面。

对于这次的开源,奥特曼骄傲地表示:gpt-oss是OpenAI「数十亿美元」研究成果的结晶,是全世界最出色、最实用的开放模型!


还等什么?赶快下载下来享用吧!

参考资料:

https://openai.com/index/introducing-gpt-oss/


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
人在医院能愚蠢到啥程度?网友:完美诠释了不作不死的真义

人在医院能愚蠢到啥程度?网友:完美诠释了不作不死的真义

带你感受人间冷暖
2026-01-27 00:10:05
孙千这组照片太敢!黑裤包裹蜜桃臀,蝴蝶钉在胸前,这身材绝了?

孙千这组照片太敢!黑裤包裹蜜桃臀,蝴蝶钉在胸前,这身材绝了?

娱乐领航家
2026-01-09 22:00:03
《易经》的终极目标是什么?颠覆千年认知的惊人真相

《易经》的终极目标是什么?颠覆千年认知的惊人真相

金沛的国学笔记
2025-08-26 09:31:16
斯塔默称访问中国带来“切实利益”

斯塔默称访问中国带来“切实利益”

参考消息
2026-02-01 21:31:40
搞笑女孩子糗事笑话,高中的时候喜欢上一个女孩子,努力追求却始终没有结果高三结束那一天!

搞笑女孩子糗事笑话,高中的时候喜欢上一个女孩子,努力追求却始终没有结果高三结束那一天!

天天明星
2026-02-01 12:11:13
演员宋小宝自曝“动了600刀做微调”!网友:无人相信

演员宋小宝自曝“动了600刀做微调”!网友:无人相信

扬子晚报
2026-02-01 15:22:23
杜兰特笑烂了!狂打25铁还能赢!火箭变天!?

杜兰特笑烂了!狂打25铁还能赢!火箭变天!?

柚子说球
2026-02-01 12:50:29
原来有这么多工作需要保密!网友:牺牲12年的爸爸竟然回来了!

原来有这么多工作需要保密!网友:牺牲12年的爸爸竟然回来了!

另子维爱读史
2026-01-16 18:29:22
王思聪成功和懒懒分手,回国的懒懒被曝变卖奢侈品,网友吐槽太贵

王思聪成功和懒懒分手,回国的懒懒被曝变卖奢侈品,网友吐槽太贵

娱乐团长
2025-11-16 15:45:42
“硅基少女”现身上海,全球首款完全仿生具身智能机器人Moya发布

“硅基少女”现身上海,全球首款完全仿生具身智能机器人Moya发布

IT之家
2026-01-31 11:52:08
1950年,一摆摊大爷接到主席发的委任状,纳闷:毛主席怎么知道我

1950年,一摆摊大爷接到主席发的委任状,纳闷:毛主席怎么知道我

老范谈史
2026-01-24 00:14:30
里弗斯回应字母流言:他说想留在雄鹿 作为主帅我只能以此为依据

里弗斯回应字母流言:他说想留在雄鹿 作为主帅我只能以此为依据

罗说NBA
2026-02-02 05:56:02
北京一男房东因联系不上女租客,担心出事,直接开锁进了房间。

北京一男房东因联系不上女租客,担心出事,直接开锁进了房间。

南权先生
2026-01-12 16:44:03
马德兴:邝兆镭自去年9月就缺乏系统训练,U17队内类似情况不少

马德兴:邝兆镭自去年9月就缺乏系统训练,U17队内类似情况不少

懂球帝
2026-02-01 19:00:12
33岁田志希生下女儿!丈夫骚扰女球员被禁赛10年 她已原谅+没离婚

33岁田志希生下女儿!丈夫骚扰女球员被禁赛10年 她已原谅+没离婚

念洲
2026-02-02 06:59:37
第一批独生子女的扎心现实:父母去世后,成了举目无亲的“孤儿”

第一批独生子女的扎心现实:父母去世后,成了举目无亲的“孤儿”

千秋文化
2026-02-01 20:31:47
陪睡上位,赶走原配?46岁宋佳再次官宣喜讯,彻底打脸整个娱乐圈

陪睡上位,赶走原配?46岁宋佳再次官宣喜讯,彻底打脸整个娱乐圈

素衣读史
2025-12-31 15:02:59
104岁科学家为安乐死赶往瑞士,没想到30秒后,亲人们哭笑不得

104岁科学家为安乐死赶往瑞士,没想到30秒后,亲人们哭笑不得

有书
2026-01-30 19:11:57
穆里尼奥:球员们没有因战胜皇马而自大,但球队缺乏进球基因

穆里尼奥:球员们没有因战胜皇马而自大,但球队缺乏进球基因

懂球帝
2026-02-02 12:42:31
Temu拿下全球第一,三年追平亚马逊

Temu拿下全球第一,三年追平亚马逊

派代
2026-01-31 18:15:24
2026-02-02 15:52:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14459文章数 66563关注度
往期回顾 全部

科技要闻

阿里筑墙,腾讯寄生,字节偷家

头条要闻

武契奇预测:48小时内伊朗遇袭

头条要闻

武契奇预测:48小时内伊朗遇袭

体育要闻

澳网男单决赛,属于阿尔卡拉斯的加冕仪式

娱乐要闻

周杰伦带王俊凯陈奕迅聚餐 畅聊音乐

财经要闻

沪银、钯、铂等十几个品种集体跌停

汽车要闻

雷克萨斯LC500将于今年底停产 "最美雷克萨斯"谢幕

态度原创

时尚
数码
家居
旅游
艺术

普通人衣服没必要买太多,准备好这些单品,简单实用又耐看

数码要闻

Puget:AMD、英特尔新款MSDT处理器故障率相当,X3D低于平均

家居要闻

现代几何彩拼 智焕童梦居

旅游要闻

新春走基层|怒江雾里村:茶马古道上的桃源仙境

艺术要闻

马斯克花5万买的折叠屋,是预制住宅的未来吗?

无障碍浏览 进入关怀版