网易首页 > 网易号 > 正文 申请入驻

OpenAI深夜连发两个推理模型,o4-mini水平,笔记本、手机可跑

0
分享至

机器之心报道

机器之心编辑部

终于,OpenAI 的新发布还是来了。

虽然不是我们期待已久的 GPT-5,但也是「something big-but-small today.」

也就是开源新语言模型

要知道,这是近几年来(自 GPT-2 以来),OpenAI 重新开源模型。

据在 OpenAI 任职研究科学家的清华校友翁家翌透露,从 2022 年 OpenAI 内部就讨论模型开源,并曾数次接近「开源」目的,但直到今天才实现。

这次还一下开源了两个,都是推理模型。

  • GitHub 地址:https://github.com/openai/gpt-oss
  • hugging face 地址:https://huggingface.co/openai/gpt-oss-20b
  • hugging face 地址:https://huggingface.co/openai/gpt-oss-120b
  • 博客地址:https://openai.com/index/introducing-gpt-oss/

Sam Altman 声称,gpt-oss 性能与 o4-mini 水平相当,并且可以在高端笔记本电脑上运行(WTF!!)(还有一个较小的可以在手机上运行)。

两款开源模型与 o3、o4-mini 的跑分结果比较如下:

总结一波,这两个开源模型的亮点包括:

  • 宽松的 Apache 2.0 许可证:自由构建,不受版权限制或专利风险 - 非常适合实验、定制和商业部署。
  • 可调整的推理力度:根据具体用例和延迟需求轻松调整推理力度(低、中、高)。
  • 完整的思维链(CoT):完全可访问模型的推理过程,从而更轻松地进行调试并增强对输出的信任。不计划向终端用户展示。
  • 可微调:通过参数微调,完全可根据特定用例定制模型。
  • Agentic 功能:使用模型的功能进行函数调用、网页浏览、Python 代码执行和结构化输出。
  • 原生 MXFP4 量化:模型使用原生 MXFP4 精度针对 MoE 层进行训练,使得 gpt-oss-120b 可在单个 H100 GPU 上运行,gpt-oss-20b 模型可在 16GB 内存内运行。

OpenAI 还做了一个 playground ,让开发者可以在网页端简单尝试这两个开源模型,感兴趣的读者可以去体验尝试。

试用地址:https://www.gpt-oss.com/

在过去的几个小时,海外 AI 社区已经炸开了,纷纷开始下载尝试新模型,以至于 Hugging Face 的 CTO 只能在线请求大家不要全都去下载,服务器要崩了!

接下来,就让我看看下这两个最新开源模型的技术细节。

开源模型新高度

作为两个 SOTA 级别的开源语言模型,gpt-oss-120b 和 gpt-oss-20b 可以提供强大的实际应用性能,并具有低成本优势。

两款模型在推理任务上超越了同等规模的开源模型,展示了强大的工具使用能力,并且经过优化,能够高效部署在消费级硬件上。训练过程中结合了强化学习以及受 OpenAI 内部最先进模型启发的技术,包括 o3 和其他前沿模型。

其中,gpt-oss-120b 模型在核心推理基准测试上与 o4-mini 几乎持平,同时能够在单个 80GB GPU 上高效运行。gpt-oss-20b 模型在常见基准测试中表现与 o3-mini 相似,且仅需 16GB 内存即可运行,适用于边缘设备,非常适合本地推理、设备端使用或在没有高昂基础设施的情况下快速迭代。

两款模型在工具使用、few-shot 函数调用、CoT 推理以及 HealthBench 测试中表现非常出色,甚至超越了 o1 和 GPT-4o 等专有模型。

两款模型还具有非常强的系统兼容性,适用于需要卓越指令跟随、工具使用(如网页搜索或 Python 代码执行)和推理能力的智能体工作流中,并且能够根据任务的复杂性来调整推理力度,从而适应不需要复杂推理和 / 或针对非常低延迟最终输出的任务。两款模型完全可定制,提供完整的 CoT,并支持结构化输出。

当然,安全性是 OpenAI 发布所有模型的基础,尤其对开源模型至关重要。因此,除了全面的安全训练和评估测试外,OpenAI 还基于自身的准备框架(Preparedness Framework)测试了 gpt-oss-120b 的对抗性微调版本,引入了额外的评估层。从结果来看,gpt-oss 模型在内部安全基准测试中的表现与 OpenAI 的前沿模型相当,并提供与其近期专有模型相同的安全标准。

OpenAI 已经与 AI Sweden、Orange 和 Snowflake 等早期合作伙伴合作,了解两款开源模型在现实应用中的情况,包括将它们托管在本地以确保数据安全,以及在专业数据集上进行微调。

预训练与模型架构

gpt-oss 模型采用了 OpenAI 最先进的预训练和后训练技术,尤其关注推理、效率和在各种部署环境中的现实可用性。

两款模型均采用 Transformer 架构,并利用专家混合(MoE)来减少处理输入所需的活跃参数数量。其中,gpt-oss-120b 每个 token 激活 5.1B 参数,而 gpt-oss-20b 则激活 3.6B 参数。两款模型的总参数分别为 117B 和 21B

此外,两款模型采用交替密集和局部带状稀疏注意力模式,类似于 GPT-3。为了提高推理和内存效率,模型还使用了分组多查询注意力,组大小为 8。同时利用旋转位置编码(RoPE)进行位置编码,并原生支持最长 128k 的上下文长度

在训练集上,OpenAI 在一个主要是英文的文本数据集上训练了两款模型,重点关注 STEM、编程和常识类内容,并使用一个比 o4-mini 和 GPT‑4o 所使用更为广泛的分词器(tokenizer)对数据进行分词 ——o200k_harmony,同样也将其开源

后训练

OpenAI 声称开源模型采用了与 o4-mini 相似的后训练流程,包含监督微调和高计算强化学习阶段。此外,OpenAI 还训练模型在输出答案前先进行思维链推理和工具调用。通过采用与 OpenAI 专有推理模型相同的技术,这些模型在后训练后展现出卓越的能力。

与 API 中的 OpenAI o 系列推理模型类似,这两款开源模型支持「低、中、高」三档推理强度调节,开发者只需在系统消息中添加一行指令即可轻松设置,实现延迟与性能的平衡。

性能评估

OpenAI 在标准学术基准上对比测试了 GPT-OSS-120B/20B 与 o3、o3-mini 及 o4-mini 等 OpenAI 推理模型,涵盖编程、竞赛数学、医疗和智能体工具使用等维度:

一系列测试结果表明,GPT-OSS-120B 在编程竞赛(Codeforces)、综合问题解答(MMLU 和 HLE)及工具调用(TauBench)方面超越 o3-mini,达到甚至超过 o4-mini 水平

在医疗查询(HealthBench)和竞赛数学(AIME 2024&2025)领域表现更优于 O4-mini。尽管体积小巧,GPT-OSS-20B 在这些测试中仍与 o3-mini 持平甚至超越,尤其在竞赛数学和医疗领域表现更为突出。

CodeforcesCompetition 编程基准

人类最后考试 —— 跨学科的专家级问题

HealthBench 基准测试

AIME 2024 和 AIME 2025 基准(使用工具)

GPQA Diamond(不使用工具)和 MMLU 基准

AIME 数学竞赛

GPQA Diamond(使用工具)博士级别科学问题

完整评估结果如下表所示:

思维链

OpenAI 近期的研究表明,只要模型未经过直接监督对齐其思维链,监控推理模型的思维链过程有助于检测异常行为。这一观点也得到业内其他研究者的认同。

因此在 GPT-OSS 系列模型的训练中未对思维链施加任何直接监督。

OpenAI 认为,这对于监测模型异常行为、欺骗性输出及滥用风险至关重要。通过发布具备无监督思维链能力的开源模型,希望为开发者和研究人员提供研究及实现自有思维链监控系统的机会。

更多的模型细节和评估结果请参考模型卡(model card):

模型卡地址:https://cdn.openai.com/pdf/419b6906-9da6-406c-a19d-1bb078ac7637/oai_gpt-oss_model_card.pdf

最后,在 GPT-5 迟迟未发布的情况下,你觉得 OpenAI 能否凭这两个开源模型挽尊呢?与国内开源模型比谁更香?欢迎已经用上的读者们讨论。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“零关税”生效第一天,24吨南非苹果连夜来了,中国向非洲敞开的不只是市场

“零关税”生效第一天,24吨南非苹果连夜来了,中国向非洲敞开的不只是市场

上观新闻
2026-05-01 13:21:07
韩媒:天助安洗莹!尤伯杯中日提前半决赛死磕,必有一队出局,韩国冲冠形势大优

韩媒:天助安洗莹!尤伯杯中日提前半决赛死磕,必有一队出局,韩国冲冠形势大优

宝哥精彩赛事
2026-05-02 02:05:17
提醒所有人!5月开始,慢特病证一定要办,否则看病买药全自费

提醒所有人!5月开始,慢特病证一定要办,否则看病买药全自费

阿芒娱乐说
2026-04-30 18:04:06
每小时108GB:一款游戏如何"烧穿"固态硬盘

每小时108GB:一款游戏如何"烧穿"固态硬盘

野生运营
2026-05-01 11:26:03
这才是抗战时期毛主席的真实相貌,美国人拍摄,衣服破旧令人动容

这才是抗战时期毛主席的真实相貌,美国人拍摄,衣服破旧令人动容

兴趣知识
2026-05-01 00:57:05
王梦洁晒照!与李盈莹上演姐妹情深,训练量减轻,同游公园太惬意

王梦洁晒照!与李盈莹上演姐妹情深,训练量减轻,同游公园太惬意

跑者排球视角
2026-05-01 23:45:47
8轮0首发!徐正源得意爱将惨遭成都蓉城新帅冷落,沦为中超边缘人

8轮0首发!徐正源得意爱将惨遭成都蓉城新帅冷落,沦为中超边缘人

零度眼看球
2026-05-01 07:17:54
危险升级,普京主动打电话,特朗普直言,先解决乌克兰,再谈伊朗

危险升级,普京主动打电话,特朗普直言,先解决乌克兰,再谈伊朗

小兰聊历史
2026-05-02 05:28:33
电价改革要来了:国家为什么在这个时候“动”电价?

电价改革要来了:国家为什么在这个时候“动”电价?

趣文说娱
2026-04-28 22:06:04
兰州一餐馆悬挂钱学森和袁隆平照片,顾客直呼“这才是真正的明星”,老板回应:因为有他们我们才有饭吃

兰州一餐馆悬挂钱学森和袁隆平照片,顾客直呼“这才是真正的明星”,老板回应:因为有他们我们才有饭吃

极目新闻
2026-05-01 20:08:28
湖人VS火箭G6前瞻:CCTV5直播!湖人盼晋级,火箭能否拖入抢七?

湖人VS火箭G6前瞻:CCTV5直播!湖人盼晋级,火箭能否拖入抢七?

薇说体育
2026-05-01 16:01:53
拳打特斯拉,脚踢丰田!国产保姆车杀疯了,拿捏一众中产富豪

拳打特斯拉,脚踢丰田!国产保姆车杀疯了,拿捏一众中产富豪

品牌观察官
2026-04-22 16:59:59
河南郑州一对00后夫妻举办农村火锅婚礼,不收彩礼,也不要份子钱,新郎:大家开心,我们也省事,村民:这辈子没吃过这样的桌

河南郑州一对00后夫妻举办农村火锅婚礼,不收彩礼,也不要份子钱,新郎:大家开心,我们也省事,村民:这辈子没吃过这样的桌

极目新闻
2026-05-01 14:16:56
王室云集!泰国国王赴瑞典祝寿,王后造型意外抢镜

王室云集!泰国国王赴瑞典祝寿,王后造型意外抢镜

暹罗飞鸟
2026-05-02 04:52:46
一位染上艾滋病的32岁民宿老板娘自述:原来艾滋病离我们如此之近

一位染上艾滋病的32岁民宿老板娘自述:原来艾滋病离我们如此之近

千秋文化
2026-04-01 20:40:27
西安正在出现一批“奇怪的年轻人”:不上班,但每天都很忙

西安正在出现一批“奇怪的年轻人”:不上班,但每天都很忙

娱乐的硬糖吖
2026-05-02 01:23:30
车顶架偷走你90公里续航,电车车主还没意识到

车顶架偷走你90公里续航,电车车主还没意识到

像素与芯片
2026-05-01 08:29:04
32岁女生自述得艾滋病过程,原因是见了一次网友,如今十分后悔

32岁女生自述得艾滋病过程,原因是见了一次网友,如今十分后悔

千秋文化
2026-03-29 20:59:49
烂泥扶不上墙!曝王思聪除了闪闪还有一私生子,人在英国已十几岁

烂泥扶不上墙!曝王思聪除了闪闪还有一私生子,人在英国已十几岁

小娱乐悠悠
2026-04-30 09:14:30
马拉松破2!肯尼亚总统重奖萨维800万!

马拉松破2!肯尼亚总统重奖萨维800万!

马拉松跑步健身
2026-05-01 20:46:35
2026-05-02 06:11:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12902文章数 142639关注度
往期回顾 全部

科技要闻

DeepSeek发布多模态论文又连夜删除

头条要闻

美国也搞起"人肉代购" "去墨西哥买中国车"教程疯传

头条要闻

美国也搞起"人肉代购" "去墨西哥买中国车"教程疯传

体育要闻

无奈!约基奇:这要在塞尔维亚 全队早被炒了

娱乐要闻

马筱梅产后身材恢复超好 现身户外直播

财经要闻

GPU神话松动,AI真正的战场变了

汽车要闻

限时9.67万起 吉利星越L/星瑞i-HEV智擎混动上市

态度原创

教育
数码
房产
公开课
军事航空

教育要闻

高考地理概念:地下水

数码要闻

索尼推出HT-A7100回音壁:搭60智能穹顶声场2.0技术,5282元

房产要闻

所有户型全卖爆!海口TOP级豪宅,景观样板间五一全线开放!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗:持续推进海上封锁的行为不可容忍

无障碍浏览 进入关怀版