网易首页 > 网易号 > 正文 申请入驻

一手实测OpenAI新开源的GPT OSS,o1和GPT-4o都要过气了。

0
分享至

gpt-oss-120b 和 gpt-oss-20b

OpenAI终于把开源的模型放出来了。

gpt-oss系列也是自GPT2以来,OpenAI首次开源的大语言模型。

我也是美滋滋在本地用上了,20B版本通过Ollama在Apple M1 Pro 32GB电脑上运行的第一个问题,它思考了6.1s。


所以,接下来的内容我会用大白话说说


  • gpt-oss的技术细节
  • 如何体验上gpt-oss
  • 以及gpt-oss的实际表现

Here we go!

01|gpt-oss技术细节

先说纸面数据,

gpt-oss-120b在核心推理基准测试中接近OpenAI o4-mini,只需要单张80GB GPU就可以运行。gpt-oss-20b在常见基准测试中接近o3-mini,只需要16G内存就可以运行。

gpt-oss权重在 Hugging Face 上提供下载,并且原生量化为 MXFP4 格式。而且发布前就跟Azure、Hugging Face、vLLM、Ollama、llama.cpp、LM Studio、AWS、Fireworks、Together AI、Baseten、Databricks、Vercel、Cloudflare、 OpenRouter、NVIDIA、AMD、Cerebras 和 Groq 等都提前合作好了。这几天应该都能用上。甚至微软还有Windows 的GPU优化版本。这豪华名单我只能说不愧是OpenAI。

从左到右分别是gpt-oss-120b(带工具)、gpt-oss-120b、gpt-oss-20b(带工具)、gpt-oss-20b、o3(带工具)、o4-mini(带工具)和o3-mini(带工具)



如果柱形图看起来不够显眼的话,可以看看我好朋友@洛小山整理出来的表格:


20b这个版本是很夸张的,如果纸面分数没有水份的话,也就是说目前开源的7、8、14B等这些适合在本地端侧用的模型都被gpt-oss-20b秒了。

然后,

这两款模型在工具调用(搜索和python代码执行)、少样本函数调用、思维链推理(Tau-Bench)以及 HealthBench 医疗基准测试中表现都超过了o1与GPT-4o。。。

这样的话我有点找不到订阅Plus的理由了,要不就本地gpt-oss搭配MCP,要不就上Pro保证 Deep Reserach 的用量,至于GPT Agent的话,现阶段无视就行。

除了性能外,OpenAI还罕见放出了“简化版”的技术报告,我用300个字讲解一下:

gpt-oss都采用了专家混合系统(MoE)的Transformer架构,


  • gpt-oss-120b每个token激活参数是5.1B
  • gpt-oss-20b每个token激活参数是3.6B

两个模型都支持128k的上下文。采用了GPT3同款的注意力模式(alternating dense and locally banded sparse attention patterns),为了提升推理和内存效率,使用了8分组的多查询注意力机制。


从训练的数据集上看,用的主要是英文纯文本,侧重点是STEM学科、编程和通用知识。负责处理数据的Tokenizer(分词器)o200k_harmony也会跟着gpt-oss一起开源,这个分词器是o4-mini、gpt-4o分词器的超集。

如果一个集合S2中的每一个元素都在集合S1中,且集合S1中可能包含S2中没有的元素,则集合S1就是S2的一个超集

gpt-oss的后训练阶段采用了o4-mini同款流程,包括监督微调(SFT)和强化学习(RL)。

跟API版本的OpenAI o系列推理模型一样,gpt-oss支持三个推理级别(低、中、高),对应不同的推理思考成本,在系统提示语(system prompt)里通过文字,一句话的形式就可以完成切换。

02|体验方式

目前体验这两个模型,我比较推荐两个方式,

Ollama「ollama.Com」,也就是我一开始用到的。

最近升级后有了UI页面,打开默认就是gpt-oss-20b,这时候只需要发一条消息,然后等待模型下载完成就可以了


如果没有大于16GB内存的硬件条件的话,可以去试试隔壁的OpenRouter「openrouter.ai」,

它甚至把Claude Opus 4.1也上线了,


就价格来看的话,只有OpenAI o3的7%,甚至比我们的价格王DeepSeekR1便宜。不过参数大小摆在这,我们还是要看看真实性能。



03|真实性能

后续我再想想怎么接入Claude Code或者把拉垮的CodeX配置起来,测试一下gpt-oss项目级的编程能力。今天的话就先跳过简单题,测试一下编程、学科和推理的大题。

简单的3D模拟拉不出两个模型的差距:


我上来直接零帧起手,管你是不是gpt-oss,先做一个完整的3D模拟、完整的2D游戏、天气组件看看「其实就是稍微复杂点的3D gpt oss都写不出来。。。」

gpt-oss-120b(思考5s,一言难尽):


gpt-oss-20b(思考9s,一言难尽):


就我目前测下来,gpt-oss的编程能力没想象中出色,隔壁Claude4.1估计可以先半场开香槟了。

后面这两道大题,是我的好朋友 @赛博小熊猫Loki 提供的。

先来看看数学,

A与B好奇问C的年龄,爱卖关子的C给出了以下11个数字,C的年龄就是其中的一个:35、36、38、42、45、46、51、55、57、61、62,

并且分别把年龄的十位数告诉给A,把个位数告诉给B

此时,A和B发生以下对话:

A:我不知道C的年龄,我知道你不知道。

B:原本我不知道的,现在我知道了。

A:现在我也知道了。

那么,请问C的年龄是?

gpt-oss-120b(思考4s):


gpt-oss-20b(思考6s):


好在数学题没拉垮,思路还是很明确的。

接着是七个小矮人的推理题,

七个小矮人的秘密

七个小矮人在遇到白雪公主前,他们来自不同家乡:水晶洞、松果林、蘑菇谷、彩虹桥、月光湖、岩石山、向日葵田;从事不同职业:矿工、园丁、厨师、医生、歌手、木匠、渔夫;喝不同饮料:薄荷茶、苹果酒、蜂蜜水、热可可、柠檬汁、姜茶、草莓奶昔;戴不同颜色帽子:红、黄、蓝、绿、紫、白、黑;使用不同交通工具:独轮车、滑板、雪橇、三轮车、马车、小船、自行车。有一天,他们的交通工具从左到右排成一行,请根据以下条件推理:1、Doc戴红色帽子

2、Grumpy的交通工具是雪橇

3、Happy来自向日葵田,职业是歌手

  1. d.矿工喝热可可

5、三轮车紧邻小船左侧

6、月光湖居民戴紫色帽子

7、医生的交通工具在正中间

8、Sneezy 住在彩虹桥,戴黄色帽子

9、Sleepy的交通工具在滑板右侧第三位

  1. j.喝苹果酒者的交通工具与渔夫相邻

11、Dopey 的帽子颜色比 Bashful深(黑>紫>蓝>绿>黄>红>白)

12、园丁使用独轮车

13、岩石山居民戴黑色帽子,交通工具在马车左边第二位

14、喝柠檬汁者的交通工具与医生相隔一辆

15、蘑菇谷居民喝姜茶

16、厨师的交通工具紧邻戴蓝色帽子者

17、使用小船的人来自松果林

18、Happy 不戴白帽子

请问谁戴黑帽子?

gpt-oss-120b(思考61秒,但没答对):


gpt-oss-20b(思考83秒,再起不能):


遇到这种复杂推理题,20b会开始出现重复生成的情况,直到卡住不动。

我们等这一天都等太久了,

蹲草莓、蹲Orin、蹲发布会

OpenAI终于当了一回字面意义上的OpenAI了。

这周大概率还会有GPT5,

这款从24年期待到25年,

一度被称为AGI起点的模型

真的,我现在已经睡不着了,

也顾不上时差不时差的了,

我要一口气测24小时!

别鸽我了,

我不差Token,

真的。

@ 作者 / 卡尔

最后,感谢你看到这里如果喜欢这篇文章,不妨顺手给我们点赞|在看|转发|评论

如果想要第一时间收到推送,不妨给我个星标

更多的内容正在不断填坑中……


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
又一位“电诈头目”!阿努廷撤销其泰籍冻结7000万,骗子组织崩盘

又一位“电诈头目”!阿努廷撤销其泰籍冻结7000万,骗子组织崩盘

素衣读史
2025-11-04 18:17:45
官宣:刘德华将压轴登场

官宣:刘德华将压轴登场

新京报
2025-11-09 10:12:38
莱巴金娜拒绝合影!携11连胜问鼎总决赛冠军,萨巴伦卡泪洒现场

莱巴金娜拒绝合影!携11连胜问鼎总决赛冠军,萨巴伦卡泪洒现场

排球黄金眼
2025-11-09 05:30:53
莫文蔚演唱会,到这个年纪了,感觉没有这个必要了吧!

莫文蔚演唱会,到这个年纪了,感觉没有这个必要了吧!

喜欢历史的阿繁
2025-11-07 09:59:45
如果小鹏IRON机器人走猫步被证实为真人假扮,会出现什么后果?

如果小鹏IRON机器人走猫步被证实为真人假扮,会出现什么后果?

驱动中国
2025-11-07 11:56:05
泽连斯基:中国太不听话了,乌克兰已经没辙了,该轮到美国出手了

泽连斯基:中国太不听话了,乌克兰已经没辙了,该轮到美国出手了

阿芒娱乐说
2025-11-09 10:42:51
重大突破:郑丽文放弃国民党反动顽固立场

重大突破:郑丽文放弃国民党反动顽固立场

雪中风车
2025-11-08 10:02:00
全中国最大的骗局,竟然是茅台专卖店,一瓶飞天都不卖年收入过亿

全中国最大的骗局,竟然是茅台专卖店,一瓶飞天都不卖年收入过亿

好贤观史记
2025-11-05 09:54:41
更令美国人破防的来了,福建舰工程师透露,未来新航母有4大特点

更令美国人破防的来了,福建舰工程师透露,未来新航母有4大特点

墨兰史书
2025-11-09 11:35:03
辛芷蕾的影后大作就这?看完《日掛中天》像是被喂了苍蝇一样恶心

辛芷蕾的影后大作就这?看完《日掛中天》像是被喂了苍蝇一样恶心

娱乐故事
2025-11-08 22:15:21
40岁C罗制造2粒进球,率队8连胜领跑,赛后获评6.4分+无缘MVP

40岁C罗制造2粒进球,率队8连胜领跑,赛后获评6.4分+无缘MVP

侧身凌空斩
2025-11-08 23:46:35
高中时期你经历过哪些炸裂事迹?网友:大家的青春都这么污的吗

高中时期你经历过哪些炸裂事迹?网友:大家的青春都这么污的吗

带你感受人间冷暖
2025-10-03 00:20:08
晚清的中国人,是怎么看待“波兰亡国”这事的

晚清的中国人,是怎么看待“波兰亡国”这事的

《中国国家历史》
2025-11-08 12:33:54
日军为什么追着蒋介石打,却没有打延安?

日军为什么追着蒋介石打,却没有打延安?

历史图鉴
2025-10-24 20:30:03
美军前最高将领,说了和东大开战后果的大实话,全场寂然无声

美军前最高将领,说了和东大开战后果的大实话,全场寂然无声

大国观察眼
2025-11-08 06:35:06
好家伙!新《还珠》开播就差评一片,观众差评理由出奇的一致

好家伙!新《还珠》开播就差评一片,观众差评理由出奇的一致

娱乐官已上任
2025-11-08 08:46:06
限制枪手界外球战术,桑德兰缩短了广告牌和场地之间的距离

限制枪手界外球战术,桑德兰缩短了广告牌和场地之间的距离

懂球帝
2025-11-09 10:02:18
国家设立重庆市两江新区,没你想的那么简单

国家设立重庆市两江新区,没你想的那么简单

小怪吃美食
2025-11-09 08:55:56
国安的传闻如欠薪外援去申花小米接手等是真的吗,听魏翊东怎么说

国安的传闻如欠薪外援去申花小米接手等是真的吗,听魏翊东怎么说

越岭寻踪
2025-11-08 08:40:59
40万大军威胁对俄开战;话锋突转,波兰总统怒斥:乌克兰不懂感恩

40万大军威胁对俄开战;话锋突转,波兰总统怒斥:乌克兰不懂感恩

书中自有颜如玉
2025-11-09 10:18:08
2025-11-09 12:40:49
卡尔的AI沃茨 incentive-icons
卡尔的AI沃茨
前大厂算法工程师,3家科技公司技术总监|致力打造最系统的Al学习体系,让1万人通过Al提高生产力
148文章数 42关注度
往期回顾 全部

科技要闻

黄仁勋亲赴台积电“讨要更多芯片”

头条要闻

网友称小米一个电器领域就能把格力"干掉" 王自如回应

头条要闻

网友称小米一个电器领域就能把格力"干掉" 王自如回应

体育要闻

梅西1v4单挑 29分钟双响!年度44球20助

娱乐要闻

《繁花》剧组又回应了?

财经要闻

10月CPI同比上涨0.2% CPI同比下降2.1%

汽车要闻

钛7月销破2万 霜雾灰与青峦翠配色正式开启交付

态度原创

家居
房产
健康
数码
教育

家居要闻

现代自由 功能美学居所

房产要闻

封关倒计时!三亚主城 2.3 万 /㎡+ 即买即住,手慢无!

超声探头会加重受伤情况吗?

数码要闻

天马携多款Micro-LED透明技术亮相进博会

教育要闻

这道小升初几何题并不难,却难倒了大部分考生

无障碍浏览 进入关怀版