网易首页 > 网易号 > 正文 申请入驻

一手实测OpenAI新开源的GPT OSS,o1和GPT-4o都要过气了。

0
分享至

gpt-oss-120b 和 gpt-oss-20b

OpenAI终于把开源的模型放出来了。

gpt-oss系列也是自GPT2以来,OpenAI首次开源的大语言模型。

我也是美滋滋在本地用上了,20B版本通过Ollama在Apple M1 Pro 32GB电脑上运行的第一个问题,它思考了6.1s。


所以,接下来的内容我会用大白话说说


  • gpt-oss的技术细节
  • 如何体验上gpt-oss
  • 以及gpt-oss的实际表现

Here we go!

01|gpt-oss技术细节

先说纸面数据,

gpt-oss-120b在核心推理基准测试中接近OpenAI o4-mini,只需要单张80GB GPU就可以运行。gpt-oss-20b在常见基准测试中接近o3-mini,只需要16G内存就可以运行。

gpt-oss权重在 Hugging Face 上提供下载,并且原生量化为 MXFP4 格式。而且发布前就跟Azure、Hugging Face、vLLM、Ollama、llama.cpp、LM Studio、AWS、Fireworks、Together AI、Baseten、Databricks、Vercel、Cloudflare、 OpenRouter、NVIDIA、AMD、Cerebras 和 Groq 等都提前合作好了。这几天应该都能用上。甚至微软还有Windows 的GPU优化版本。这豪华名单我只能说不愧是OpenAI。

从左到右分别是gpt-oss-120b(带工具)、gpt-oss-120b、gpt-oss-20b(带工具)、gpt-oss-20b、o3(带工具)、o4-mini(带工具)和o3-mini(带工具)



如果柱形图看起来不够显眼的话,可以看看我好朋友@洛小山整理出来的表格:


20b这个版本是很夸张的,如果纸面分数没有水份的话,也就是说目前开源的7、8、14B等这些适合在本地端侧用的模型都被gpt-oss-20b秒了。

然后,

这两款模型在工具调用(搜索和python代码执行)、少样本函数调用、思维链推理(Tau-Bench)以及 HealthBench 医疗基准测试中表现都超过了o1与GPT-4o。。。

这样的话我有点找不到订阅Plus的理由了,要不就本地gpt-oss搭配MCP,要不就上Pro保证 Deep Reserach 的用量,至于GPT Agent的话,现阶段无视就行。

除了性能外,OpenAI还罕见放出了“简化版”的技术报告,我用300个字讲解一下:

gpt-oss都采用了专家混合系统(MoE)的Transformer架构,


  • gpt-oss-120b每个token激活参数是5.1B
  • gpt-oss-20b每个token激活参数是3.6B

两个模型都支持128k的上下文。采用了GPT3同款的注意力模式(alternating dense and locally banded sparse attention patterns),为了提升推理和内存效率,使用了8分组的多查询注意力机制。


从训练的数据集上看,用的主要是英文纯文本,侧重点是STEM学科、编程和通用知识。负责处理数据的Tokenizer(分词器)o200k_harmony也会跟着gpt-oss一起开源,这个分词器是o4-mini、gpt-4o分词器的超集。

如果一个集合S2中的每一个元素都在集合S1中,且集合S1中可能包含S2中没有的元素,则集合S1就是S2的一个超集

gpt-oss的后训练阶段采用了o4-mini同款流程,包括监督微调(SFT)和强化学习(RL)。

跟API版本的OpenAI o系列推理模型一样,gpt-oss支持三个推理级别(低、中、高),对应不同的推理思考成本,在系统提示语(system prompt)里通过文字,一句话的形式就可以完成切换。

02|体验方式

目前体验这两个模型,我比较推荐两个方式,

Ollama「ollama.Com」,也就是我一开始用到的。

最近升级后有了UI页面,打开默认就是gpt-oss-20b,这时候只需要发一条消息,然后等待模型下载完成就可以了


如果没有大于16GB内存的硬件条件的话,可以去试试隔壁的OpenRouter「openrouter.ai」,

它甚至把Claude Opus 4.1也上线了,


就价格来看的话,只有OpenAI o3的7%,甚至比我们的价格王DeepSeekR1便宜。不过参数大小摆在这,我们还是要看看真实性能。



03|真实性能

后续我再想想怎么接入Claude Code或者把拉垮的CodeX配置起来,测试一下gpt-oss项目级的编程能力。今天的话就先跳过简单题,测试一下编程、学科和推理的大题。

简单的3D模拟拉不出两个模型的差距:


我上来直接零帧起手,管你是不是gpt-oss,先做一个完整的3D模拟、完整的2D游戏、天气组件看看「其实就是稍微复杂点的3D gpt oss都写不出来。。。」

gpt-oss-120b(思考5s,一言难尽):


gpt-oss-20b(思考9s,一言难尽):


就我目前测下来,gpt-oss的编程能力没想象中出色,隔壁Claude4.1估计可以先半场开香槟了。

后面这两道大题,是我的好朋友 @赛博小熊猫Loki 提供的。

先来看看数学,

A与B好奇问C的年龄,爱卖关子的C给出了以下11个数字,C的年龄就是其中的一个:35、36、38、42、45、46、51、55、57、61、62,

并且分别把年龄的十位数告诉给A,把个位数告诉给B

此时,A和B发生以下对话:

A:我不知道C的年龄,我知道你不知道。

B:原本我不知道的,现在我知道了。

A:现在我也知道了。

那么,请问C的年龄是?

gpt-oss-120b(思考4s):


gpt-oss-20b(思考6s):


好在数学题没拉垮,思路还是很明确的。

接着是七个小矮人的推理题,

七个小矮人的秘密

七个小矮人在遇到白雪公主前,他们来自不同家乡:水晶洞、松果林、蘑菇谷、彩虹桥、月光湖、岩石山、向日葵田;从事不同职业:矿工、园丁、厨师、医生、歌手、木匠、渔夫;喝不同饮料:薄荷茶、苹果酒、蜂蜜水、热可可、柠檬汁、姜茶、草莓奶昔;戴不同颜色帽子:红、黄、蓝、绿、紫、白、黑;使用不同交通工具:独轮车、滑板、雪橇、三轮车、马车、小船、自行车。有一天,他们的交通工具从左到右排成一行,请根据以下条件推理:1、Doc戴红色帽子

2、Grumpy的交通工具是雪橇

3、Happy来自向日葵田,职业是歌手

  1. d.矿工喝热可可

5、三轮车紧邻小船左侧

6、月光湖居民戴紫色帽子

7、医生的交通工具在正中间

8、Sneezy 住在彩虹桥,戴黄色帽子

9、Sleepy的交通工具在滑板右侧第三位

  1. j.喝苹果酒者的交通工具与渔夫相邻

11、Dopey 的帽子颜色比 Bashful深(黑>紫>蓝>绿>黄>红>白)

12、园丁使用独轮车

13、岩石山居民戴黑色帽子,交通工具在马车左边第二位

14、喝柠檬汁者的交通工具与医生相隔一辆

15、蘑菇谷居民喝姜茶

16、厨师的交通工具紧邻戴蓝色帽子者

17、使用小船的人来自松果林

18、Happy 不戴白帽子

请问谁戴黑帽子?

gpt-oss-120b(思考61秒,但没答对):


gpt-oss-20b(思考83秒,再起不能):


遇到这种复杂推理题,20b会开始出现重复生成的情况,直到卡住不动。

我们等这一天都等太久了,

蹲草莓、蹲Orin、蹲发布会

OpenAI终于当了一回字面意义上的OpenAI了。

这周大概率还会有GPT5,

这款从24年期待到25年,

一度被称为AGI起点的模型

真的,我现在已经睡不着了,

也顾不上时差不时差的了,

我要一口气测24小时!

别鸽我了,

我不差Token,

真的。

@ 作者 / 卡尔

最后,感谢你看到这里如果喜欢这篇文章,不妨顺手给我们点赞|在看|转发|评论

如果想要第一时间收到推送,不妨给我个星标

更多的内容正在不断填坑中……


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
马斯克预测世界大战时间,大战最可能爆发在两地区

马斯克预测世界大战时间,大战最可能爆发在两地区

妙知
2025-12-29 00:08:32
终于!北京跌“最惨”的商住房市场可能要见到一丝曙光了

终于!北京跌“最惨”的商住房市场可能要见到一丝曙光了

新浪财经
2026-01-16 12:23:19
英伟达悄然修改论文错误 数据中心铜需求重估

英伟达悄然修改论文错误 数据中心铜需求重估

财联社
2026-01-16 10:20:21
松赞干布的视角看李世民有多恐怖?你所谓的天才只是见我的门槛

松赞干布的视角看李世民有多恐怖?你所谓的天才只是见我的门槛

云景侃记
2026-01-16 11:32:42
朝鲜停战前夜,毛主席发现致命漏洞,急调24万奇兵入朝一举定乾坤

朝鲜停战前夜,毛主席发现致命漏洞,急调24万奇兵入朝一举定乾坤

南宗历史
2026-01-13 17:26:28
史上最乱的伦理闭环:曹丕管汉献帝叫哥,汉献帝却管曹丕叫爸

史上最乱的伦理闭环:曹丕管汉献帝叫哥,汉献帝却管曹丕叫爸

老达子
2026-01-16 05:10:03
新西兰关闭驻伊朗大使馆

新西兰关闭驻伊朗大使馆

北青网-北京青年报
2026-01-16 14:50:03
风向变了?央媒正面“点名”闫学晶,评论信息量大,冯巩一语成谶

风向变了?央媒正面“点名”闫学晶,评论信息量大,冯巩一语成谶

荷兰豆爱健康
2026-01-16 11:17:31
天呀,杜海涛竟然现成这样了,沈梦辰对他是真爱啊

天呀,杜海涛竟然现成这样了,沈梦辰对他是真爱啊

草莓解说体育
2026-01-07 01:43:18
AI应用概念港股涨幅扩大 MINIMAX涨18%

AI应用概念港股涨幅扩大 MINIMAX涨18%

财联社
2026-01-16 13:48:06
神仙姐姐的野生图,太美了。

神仙姐姐的野生图,太美了。

微微热评
2026-01-09 12:20:53
A股:不用等下周行情了,不出意外,下周一很可能这样走!

A股:不用等下周行情了,不出意外,下周一很可能这样走!

财经大拿
2026-01-16 11:55:38
27英寸!苹果又一新品曝光,即将发布

27英寸!苹果又一新品曝光,即将发布

全是技能
2026-01-16 11:00:42
新疆维吾尔自治区应急管理厅党委书记、副厅长俱伟被查

新疆维吾尔自治区应急管理厅党委书记、副厅长俱伟被查

新京报
2026-01-16 09:18:26
瑶瑶泣血求“金毛”饶命经过:“别打了我头破了,再打就死了”

瑶瑶泣血求“金毛”饶命经过:“别打了我头破了,再打就死了”

江山挥笔
2026-01-16 09:59:57
"第一软饭男"去世了,伺候美国老妇13年,继承268亿,死后钱给谁

"第一软饭男"去世了,伺候美国老妇13年,继承268亿,死后钱给谁

毒sir财经
2025-12-08 22:57:40
香港房价有多离谱?退役警察用不到一间厕所的钱,在广东买下豪宅

香港房价有多离谱?退役警察用不到一间厕所的钱,在广东买下豪宅

开着车去流浪
2026-01-14 20:33:32
部队退役我当了狱警,给一个死刑犯剃头时,认出他是失踪多年的队长

部队退役我当了狱警,给一个死刑犯剃头时,认出他是失踪多年的队长

浮生实录集
2025-09-18 15:10:05
火箭回收+商业航天爆发!2026航天科技放大招 普通人避坑增效指南

火箭回收+商业航天爆发!2026航天科技放大招 普通人避坑增效指南

Thurman在昆明
2026-01-16 09:17:59
美国女子用1.25亿买下清朝老宅,整栋运回美国,现成华人必去景点

美国女子用1.25亿买下清朝老宅,整栋运回美国,现成华人必去景点

泠泠说史
2025-12-02 18:01:54
2026-01-16 15:36:49
卡尔的AI沃茨 incentive-icons
卡尔的AI沃茨
前大厂算法工程师,3家科技公司技术总监|致力打造最系统的Al学习体系,让1万人通过Al提高生产力
195文章数 68关注度
往期回顾 全部

科技要闻

被网友"催"着走,小米紧急"抄"了特斯拉

头条要闻

上海网红餐厅服务员辱骂顾客:吃到一万四再让我服务

头条要闻

上海网红餐厅服务员辱骂顾客:吃到一万四再让我服务

体育要闻

聂卫平:黑白棋盘上的凡人棋圣

娱乐要闻

黄慧颐手撕保剑锋 曾黎意外卷入风波

财经要闻

深圳有白银商家爆雷 维权群超350人

汽车要闻

方程豹品牌销量突破30万辆 2026年还将推出轿跑系列

态度原创

旅游
本地
房产
手机
公开课

旅游要闻

马年添福趣!在上海迪士尼遇小马红心,乐高乐园拼出中国年

本地新闻

云游内蒙|黄沙与碧波撞色,乌海天生会“混搭”

房产要闻

突发!商业用房购房贷款最低首付比例下调至30%

手机要闻

消息称vivo X300 Ultra或配多光谱镜头,影像实力值得期待

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版