网易首页 > 网易号 > 正文 申请入驻

奥特曼被逼急:上线 o3-mini,甚至免费,网友:还是选DeepSeek

0
分享至

机器之心报道

机器之心编辑部

奥特曼能不急吗?

被 DeepSeek 狂轰乱炸了一周后,终于在今天发布了新的模型 o3-mini。

此次发布,o3-mini 包含 low、medium 和 high 三个版本。

OpenAI 表示,今天发布的 o3-mini 是其推理模型系列中最新、最具成本效益的模型,已上线 ChatGPT 和 API 。

我们打开 ChatGPT,o3-mini 和 o3-mini-high 两个新模型已然上线。

不过 o3-mini 目前还不支持视觉功能,因此开发者需要继续使用 OpenAI o1 进行视觉推理任务。

在使用权限上,ChatGPT Plus、Team 和 Pro 用户从今天起就可以访问 OpenAI o3-mini,企业版访问权限将在一周内开放。

作为此次升级的一部分,OpenAI 将 Plus 和 Team 用户的速率限制从 o1-mini 的每天 50 条消息提高到 o3-mini 的每天 150 条消息。此外,o3-mini 现在可以使用搜索功能,提供带有相关网络来源链接的最新答案。这是其在推理模型中整合搜索功能的早期原型。

从今天开始,免费用户也可以通过在消息编辑器中选择「推理」或重新生成响应来试用 OpenAI o3-mini。这是 OpenAI 首次向 ChatGPT 的免费用户提供推理模型。

虽然 OpenAI o1 仍然是更广泛使用的通用知识推理模型,但 OpenAI o3-mini 为需要精确性和速度的技术领域提供了专门的替代选择。在 ChatGPT 中,o3-mini 使用中等推理级别来提供速度和准确性之间的平衡。所有付费用户还可以在模型选择器中选择 o3-mini-high,从而获得需要更长时间生成响应但智能水平更高的版本。Pro 用户将可以无限制地访问 o3-mini 和 o3-mini-high。

对于此次发布,网友反馈如何?

知名播客主理人 Lex Fridman 表示,OpenAI o3-mini 虽然是一个很好的模型,但 DeepSeek r1 的性能相似,而且更便宜,并揭示推理过程。

他甚至给出了「DeepSeek moment」这样一个词形容 DeepSeek 带来的深远影响。

接下来,就让我们看下 o3-mini 的性能指标:

快速、强大且针对 STEM 推理优化

与其前身 OpenAI o1 类似,OpenAI o3-mini 针对 STEM 推理进行了优化。o3-mini-medium 在数学、编程和科学领域的表现与 o1 相当,同时响应速度更快。专家测试人员的评估显示,o3-mini 产生的答案比 o1-mini 更准确、更清晰,推理能力更强。测试人员在 56% 的情况下更偏好 o3-mini 的响应,并观察到 o3-mini 在困难的现实问题上重大错误减少了 39%。o3-mini-medium 在一些最具挑战性的推理和智能评估(包括 AIME 和 GPQA)上与 o1 的表现相当。

竞赛数学(AIME 2024):

竞赛数学:o3-mini-low 与 o1-mini 的表现相当。o3-mini-medium 达到与 o1 相当的表现。o3-mini-high 超过了 o1-mini 和 o1,上图中灰色阴影区域为 64 个样本的多数投票(共识)。

博士级科学问题(GPQA Diamond):

博士极科学问题:o3-mini-low 的表现优于 o1-mini。o3-mini-high 的表现与 o1 相当,在博士级生物学、化学和物理问题上都显示出显著进步。

研究级数学(FrontierMath):

研究级数学:o3-mini-high 在 FrontierMath 上的表现优于其前代产品。使用 Python 工具时,o3-mini-high 能够在首次尝试时解决超过 32% 的问题,包括超过 28% 的具有挑战性的(T3)问题。

竞赛编程(Codeforces):

在 Codeforces 编程中, o3-mini 随着推理努力级别的提高获得了越来越高的 Elo 分数,均优于 o1-mini。o3-mini-medium 达到了与 o1 相当的表现。

软件工程(SWE-bench Verified):

软件工程:o3-mini 是 OpenAI 发布的在 SWEbench-verified 上表现最好的模型。o3-mini-high 使用开源 Agentless 框架可达到 39% 的准确率,使用内部工具可达到 61% 的准确率。

LiveBench 编码:

LiveBench 编码:即便是 o3-mini-medium 也超过了 o1-high,突显了其在编码任务中的效率。o3-mini-high 进一步扩大了领先优势,在关键指标上取得了显著更强的表现。

普通知识问题:

普通知识问题:o3-mini 在各个一般性知识领域的评估中都优于 o1-mini。

人类偏好评估:

人类偏好评估:外部专家测试人员的评估显示, o3-mini 产生的答案比 o1-mini 更准确、更清晰,推理能力更强,特别是在 STEM 领域。测试人员在 56% 的情况下更偏好 o3-mini 的响应,并观察到 o3-mini 在困难的现实问题上重大错误减少了 39%。

模型速度和性能

o3-mini 在保持与 OpenAI o1 相当的智能水平的同时,提供了更快的性能和更高的效率。除了上述 STEM 评估外,o3-mini-medium 的其他数学和事实性评估中也展现出优越的结果。在 A/B 测试中,o3-mini 的响应速度比 o1-mini 快 24%,平均响应时间为 7.7 秒,而 o1-mini 为 10.16 秒。

延迟:o3-mini 的首个 token 生成时间平均比 o1-mini 快 2500 毫秒。

安全

OpenAI 教导 o3-mini 安全响应的主要技术之一是审慎对齐(deliberative alignment),这种对齐方式训练模型在回答用户提示之前,先对人工编写的安全规范进行充分的思考和推理。与 OpenAI o1 类似,研究人员发现 o3-mini 在具有挑战性的安全性和越狱评估上显著超越了 GPT-4o。在部署之前,OpenAI 使用了与 o1 相同的准备方法、外部红队测试和安全性评估来仔细评估 o3-mini 的安全风险。

违规内容评估结果

越狱评估结果

未来展望

OpenAI o3-mini 的发布标志着 OpenAI 在推进高性价比智能方面又迈出了一步。通过优化 STEM 领域的推理能力,同时保持低成本,OpenAI 正在使高质量 AI 变得更加容易获取。该模型延续了其降低智能成本的记录 —— 自 GPT-4 推出以来,每个 token 的定价降低了 95%—— 同时保持顶级推理能力。随着 AI 应用的扩展,OpenAI 仍然致力于在前沿领域引领,构建即使在大规模部署和使用的情况下,也能保持智能、效率与安全平衡的模型。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
特朗普突发!直线拉升!

特朗普突发!直线拉升!

中国基金报
2026-02-02 22:12:10
随着比分定格1-0,沙特联榜首易主:C罗的主队豪取5连胜升至第一

随着比分定格1-0,沙特联榜首易主:C罗的主队豪取5连胜升至第一

侧身凌空斩
2026-02-03 01:39:51
震惊!奔驰女追尾后立刻换上"公安"大衣,"亮证姐"后继有人了?

震惊!奔驰女追尾后立刻换上"公安"大衣,"亮证姐"后继有人了?

派大星纪录片
2026-02-02 15:53:19
离婚7年,王小玮高调官宣喜讯,让前夫王小海和凤凰传奇沉默了

离婚7年,王小玮高调官宣喜讯,让前夫王小海和凤凰传奇沉默了

白面书誏
2026-02-02 23:12:00
特朗普强调自己清白,马斯克暗示克林顿等人“有罪”,全球多名权势人物被曝与爱泼斯坦关系密切

特朗普强调自己清白,马斯克暗示克林顿等人“有罪”,全球多名权势人物被曝与爱泼斯坦关系密切

新民周刊
2026-02-02 16:14:18
塔利班宣布女性不得互相说话:女性连与女性说话都成违法

塔利班宣布女性不得互相说话:女性连与女性说话都成违法

桂系007
2026-02-02 23:39:18
爱波斯坦和上海女大佬的风流往事大曝光!

爱波斯坦和上海女大佬的风流往事大曝光!

互联网大观
2026-02-02 15:19:51
这就是赤裸裸的现实!现在中国移动正式员工每月公积金能多离谱?

这就是赤裸裸的现实!现在中国移动正式员工每月公积金能多离谱?

好贤观史记
2026-02-02 09:56:00
痛心!知名音乐人袁惟仁去世,卧床6年无人问津,曾捧红那英王菲

痛心!知名音乐人袁惟仁去世,卧床6年无人问津,曾捧红那英王菲

乌娱子酱
2026-02-02 18:02:12
炸裂!一女生自曝交过外国男友,回国后因“型号”问题做了修复术

炸裂!一女生自曝交过外国男友,回国后因“型号”问题做了修复术

谈史论天地
2026-02-02 13:55:09
57岁金牌音乐人袁惟仁病逝,2022年被判定为植物人状态

57岁金牌音乐人袁惟仁病逝,2022年被判定为植物人状态

红星新闻
2026-02-02 19:23:52
2-0!U17国足少打1人仍复仇亚洲冠军 两大中锋建功 邝兆镭失空门

2-0!U17国足少打1人仍复仇亚洲冠军 两大中锋建功 邝兆镭失空门

我爱英超
2026-02-02 20:32:52
广东“女儿卧室47秒”事件冲上热搜,评论区炸了:这不就是我爸吗?

广东“女儿卧室47秒”事件冲上热搜,评论区炸了:这不就是我爸吗?

脆皮先生
2026-02-02 20:03:58
“台独”大闹机场,国民党访团仍顺利抵京,萧旭岑:不签政治协议

“台独”大闹机场,国民党访团仍顺利抵京,萧旭岑:不签政治协议

素衣读史
2026-02-02 18:06:53
巴拿马收回港口李超人鸡飞蛋打,慷慨陈词的大公报为何一言未发?

巴拿马收回港口李超人鸡飞蛋打,慷慨陈词的大公报为何一言未发?

夜半挑灯看吴钩
2026-02-02 08:43:56
一夜之间,李嘉诚血本无归!

一夜之间,李嘉诚血本无归!

大佬灼见
2026-02-02 09:46:45
反转了!居然全是演的,博主公开道歉

反转了!居然全是演的,博主公开道歉

半岛晨报
2026-02-01 20:35:03
深夜,美股猛拉!沪银,跌停!特朗普,启动“金库计划”!

深夜,美股猛拉!沪银,跌停!特朗普,启动“金库计划”!

证券时报e公司
2026-02-02 23:38:07
深度 | 这个“深红”选区翻蓝,给特朗普敲响警钟?

深度 | 这个“深红”选区翻蓝,给特朗普敲响警钟?

上观新闻
2026-02-02 20:29:03
整容成瘾、抛妻娶粉?“消失”的宋小宝,终究为曾经的荒唐买了单

整容成瘾、抛妻娶粉?“消失”的宋小宝,终究为曾经的荒唐买了单

小椰的奶奶
2026-02-03 01:20:26
2026-02-03 06:44:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12238文章数 142562关注度
往期回顾 全部

科技要闻

阿里筑墙,腾讯寄生,字节偷家

头条要闻

周生生足金挂坠戴1天被刮花 检测后发现含铁、银、钯

头条要闻

周生生足金挂坠戴1天被刮花 检测后发现含铁、银、钯

体育要闻

澳网男单决赛,属于阿尔卡拉斯的加冕仪式

娱乐要闻

57岁音乐人袁惟仁去世,家属发文悼念

财经要闻

金银暴跌 全球股市遭遇“黑色星期一”

汽车要闻

雷克萨斯LC500将于今年底停产 "最美雷克萨斯"谢幕

态度原创

艺术
亲子
本地
健康
公开课

艺术要闻

曾经的年画,难得一见!

亲子要闻

为什么“月子仇”,会让女人记一辈子?

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

耳石症分类型,症状大不同

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版