网易首页 > 网易号 > 正文 申请入驻

奥特曼被逼急:上线 o3-mini,甚至免费,网友:还是选DeepSeek

0
分享至

机器之心报道

机器之心编辑部

奥特曼能不急吗?

被 DeepSeek 狂轰乱炸了一周后,终于在今天发布了新的模型 o3-mini。

此次发布,o3-mini 包含 low、medium 和 high 三个版本。

OpenAI 表示,今天发布的 o3-mini 是其推理模型系列中最新、最具成本效益的模型,已上线 ChatGPT 和 API 。

我们打开 ChatGPT,o3-mini 和 o3-mini-high 两个新模型已然上线。

不过 o3-mini 目前还不支持视觉功能,因此开发者需要继续使用 OpenAI o1 进行视觉推理任务。

在使用权限上,ChatGPT Plus、Team 和 Pro 用户从今天起就可以访问 OpenAI o3-mini,企业版访问权限将在一周内开放。

作为此次升级的一部分,OpenAI 将 Plus 和 Team 用户的速率限制从 o1-mini 的每天 50 条消息提高到 o3-mini 的每天 150 条消息。此外,o3-mini 现在可以使用搜索功能,提供带有相关网络来源链接的最新答案。这是其在推理模型中整合搜索功能的早期原型。

从今天开始,免费用户也可以通过在消息编辑器中选择「推理」或重新生成响应来试用 OpenAI o3-mini。这是 OpenAI 首次向 ChatGPT 的免费用户提供推理模型。

虽然 OpenAI o1 仍然是更广泛使用的通用知识推理模型,但 OpenAI o3-mini 为需要精确性和速度的技术领域提供了专门的替代选择。在 ChatGPT 中,o3-mini 使用中等推理级别来提供速度和准确性之间的平衡。所有付费用户还可以在模型选择器中选择 o3-mini-high,从而获得需要更长时间生成响应但智能水平更高的版本。Pro 用户将可以无限制地访问 o3-mini 和 o3-mini-high。

对于此次发布,网友反馈如何?

知名播客主理人 Lex Fridman 表示,OpenAI o3-mini 虽然是一个很好的模型,但 DeepSeek r1 的性能相似,而且更便宜,并揭示推理过程。

他甚至给出了「DeepSeek moment」这样一个词形容 DeepSeek 带来的深远影响。

接下来,就让我们看下 o3-mini 的性能指标:

快速、强大且针对 STEM 推理优化

与其前身 OpenAI o1 类似,OpenAI o3-mini 针对 STEM 推理进行了优化。o3-mini-medium 在数学、编程和科学领域的表现与 o1 相当,同时响应速度更快。专家测试人员的评估显示,o3-mini 产生的答案比 o1-mini 更准确、更清晰,推理能力更强。测试人员在 56% 的情况下更偏好 o3-mini 的响应,并观察到 o3-mini 在困难的现实问题上重大错误减少了 39%。o3-mini-medium 在一些最具挑战性的推理和智能评估(包括 AIME 和 GPQA)上与 o1 的表现相当。

竞赛数学(AIME 2024):

竞赛数学:o3-mini-low 与 o1-mini 的表现相当。o3-mini-medium 达到与 o1 相当的表现。o3-mini-high 超过了 o1-mini 和 o1,上图中灰色阴影区域为 64 个样本的多数投票(共识)。

博士级科学问题(GPQA Diamond):

博士极科学问题:o3-mini-low 的表现优于 o1-mini。o3-mini-high 的表现与 o1 相当,在博士级生物学、化学和物理问题上都显示出显著进步。

研究级数学(FrontierMath):

研究级数学:o3-mini-high 在 FrontierMath 上的表现优于其前代产品。使用 Python 工具时,o3-mini-high 能够在首次尝试时解决超过 32% 的问题,包括超过 28% 的具有挑战性的(T3)问题。

竞赛编程(Codeforces):

在 Codeforces 编程中, o3-mini 随着推理努力级别的提高获得了越来越高的 Elo 分数,均优于 o1-mini。o3-mini-medium 达到了与 o1 相当的表现。

软件工程(SWE-bench Verified):

软件工程:o3-mini 是 OpenAI 发布的在 SWEbench-verified 上表现最好的模型。o3-mini-high 使用开源 Agentless 框架可达到 39% 的准确率,使用内部工具可达到 61% 的准确率。

LiveBench 编码:

LiveBench 编码:即便是 o3-mini-medium 也超过了 o1-high,突显了其在编码任务中的效率。o3-mini-high 进一步扩大了领先优势,在关键指标上取得了显著更强的表现。

普通知识问题:

普通知识问题:o3-mini 在各个一般性知识领域的评估中都优于 o1-mini。

人类偏好评估:

人类偏好评估:外部专家测试人员的评估显示, o3-mini 产生的答案比 o1-mini 更准确、更清晰,推理能力更强,特别是在 STEM 领域。测试人员在 56% 的情况下更偏好 o3-mini 的响应,并观察到 o3-mini 在困难的现实问题上重大错误减少了 39%。

模型速度和性能

o3-mini 在保持与 OpenAI o1 相当的智能水平的同时,提供了更快的性能和更高的效率。除了上述 STEM 评估外,o3-mini-medium 的其他数学和事实性评估中也展现出优越的结果。在 A/B 测试中,o3-mini 的响应速度比 o1-mini 快 24%,平均响应时间为 7.7 秒,而 o1-mini 为 10.16 秒。

延迟:o3-mini 的首个 token 生成时间平均比 o1-mini 快 2500 毫秒。

安全

OpenAI 教导 o3-mini 安全响应的主要技术之一是审慎对齐(deliberative alignment),这种对齐方式训练模型在回答用户提示之前,先对人工编写的安全规范进行充分的思考和推理。与 OpenAI o1 类似,研究人员发现 o3-mini 在具有挑战性的安全性和越狱评估上显著超越了 GPT-4o。在部署之前,OpenAI 使用了与 o1 相同的准备方法、外部红队测试和安全性评估来仔细评估 o3-mini 的安全风险。

违规内容评估结果

越狱评估结果

未来展望

OpenAI o3-mini 的发布标志着 OpenAI 在推进高性价比智能方面又迈出了一步。通过优化 STEM 领域的推理能力,同时保持低成本,OpenAI 正在使高质量 AI 变得更加容易获取。该模型延续了其降低智能成本的记录 —— 自 GPT-4 推出以来,每个 token 的定价降低了 95%—— 同时保持顶级推理能力。随着 AI 应用的扩展,OpenAI 仍然致力于在前沿领域引领,构建即使在大规模部署和使用的情况下,也能保持智能、效率与安全平衡的模型。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
受权发布|中华人民共和国国务院令  第833号

受权发布|中华人民共和国国务院令  第833号

新华社
2026-03-26 17:03:04
中共中央批准,开除刘慧党籍

中共中央批准,开除刘慧党籍

新京报
2026-03-26 17:14:17
苹果 Max 新品正式开售,3999 元起!

苹果 Max 新品正式开售,3999 元起!

科技堡垒
2026-03-26 11:36:39
医保大变革!4月1日执行,取消备案、全家共济、药店可报销

医保大变革!4月1日执行,取消备案、全家共济、药店可报销

复转这些年
2026-03-26 09:27:58
网友曝张雪峰抢救细节:倒地30分钟才被发现,用ECMO全力抢救无效

网友曝张雪峰抢救细节:倒地30分钟才被发现,用ECMO全力抢救无效

半窗疏影
2026-03-26 20:17:36
中国无人装甲车最新画面曝光,模块化武器系统可按需切换

中国无人装甲车最新画面曝光,模块化武器系统可按需切换

IT之家
2026-03-26 22:00:05
伊朗军方:已击中或击落202架各类美以军机

伊朗军方:已击中或击落202架各类美以军机

界面新闻
2026-03-26 15:29:15
曾在恒大赚上亿!40岁郜林吐槽:在中乙当老总1个月工资不够油费

曾在恒大赚上亿!40岁郜林吐槽:在中乙当老总1个月工资不够油费

我爱英超
2026-03-26 20:47:14
Manus的两名联合创始人被告知不要离开中国

Manus的两名联合创始人被告知不要离开中国

新浪财经
2026-03-26 13:50:59
高速统一限速3月26日正式落地!五档限速+清理非标不会再乱扣分!

高速统一限速3月26日正式落地!五档限速+清理非标不会再乱扣分!

沙雕小琳琳
2026-03-26 09:41:30
好消息!电动车、摩托、三轮、四轮车松绑,不禁不罚路权全面放开

好消息!电动车、摩托、三轮、四轮车松绑,不禁不罚路权全面放开

复转这些年
2026-03-26 09:38:31
所有人都在盯中东打仗,中国却悄悄干了件大事:欧洲突然赚麻了

所有人都在盯中东打仗,中国却悄悄干了件大事:欧洲突然赚麻了

青青子衿
2026-03-26 01:37:03
6900万元!摩洛哥要求塞内加尔归还非洲杯奖金+奖牌 后者强硬拒绝

6900万元!摩洛哥要求塞内加尔归还非洲杯奖金+奖牌 后者强硬拒绝

风过乡
2026-03-26 19:13:28
我有一个朋友在张雪峰公司上班他说张雪峰根本不是大家看到的样子

我有一个朋友在张雪峰公司上班他说张雪峰根本不是大家看到的样子

乐悠悠娱乐
2026-03-26 10:27:07
网易号平台每日辟谣公告(三月二十六日)

网易号平台每日辟谣公告(三月二十六日)

网易号官方平台
2026-03-26 18:04:59
扎哈罗娃警告日本:任何试图向乌提供致命武器之举,都将招致强硬回应

扎哈罗娃警告日本:任何试图向乌提供致命武器之举,都将招致强硬回应

环球网资讯
2026-03-26 08:55:12
中方拒收道歉,日本自卫官被转移,小泉进次郎沉默24小时后发声

中方拒收道歉,日本自卫官被转移,小泉进次郎沉默24小时后发声

何氽简史
2026-03-26 15:40:58
联大通过决议,宣布“最严重反人类罪”

联大通过决议,宣布“最严重反人类罪”

澎湃新闻
2026-03-26 11:03:06
全线跳水!刚刚,伊朗发动攻击

全线跳水!刚刚,伊朗发动攻击

中国基金报
2026-03-26 16:15:26
姐姐寻找弟弟33年后续!直播时闹矛盾,李鑫已告别离开,姐姐让步

姐姐寻找弟弟33年后续!直播时闹矛盾,李鑫已告别离开,姐姐让步

潮鹿逐梦
2026-03-26 17:43:25
2026-03-26 22:24:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

美国总统特朗普公开宣布访华行程 外交部回应

头条要闻

美国总统特朗普公开宣布访华行程 外交部回应

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

艺术
旅游
家居
时尚
游戏

艺术要闻

哪一座桥不是风景?

旅游要闻

别再人挤人,泰州的这条老街,传承1200年!

家居要闻

傍海而居 静观蝴蝶海

上新|| 她们说,找到了自己的人生裙子!

开冲!PS会员4月离库名单公布:独立神作进入倒计时

无障碍浏览 进入关怀版