网易首页 > 网易号 > 正文 申请入驻

最新!OpenAI上架推理模型o3-mini,首次向免费用户开放!AIME测试中,o3-mini最高准确率达87.3%

0
分享至

当地时间1月31日,OpenAI正式推出了全新推理模型o3-mini,并首次向免费用户开放推理模型。这是OpenAI推理系列中最新、成本效益最高的模型,现在已经在ChatGPT和API中上线。

图片来源:OpenAI

轻量级推理大模型o3-mini最早于2024年12月的直播活动中亮相,一同亮相的还有“满血版”的o3模型。OpenAI宣称,o3具备更先进、近似人类的推理能力,在解决编程、数学、科学等理工科问题方面均超越现役的o1模型。OpenAI曾表示,o3-mini会在2025年1月底先上架,o3则“会在不久之后推出”。

OpenAI介绍称,o3-mini支持开发者调整“AI推理努力程度”的选项——分为低、中、高三个级别。这种灵活性使得o3-mini可以在面对难题时“更努力思考”,而需要效率时优先考虑回应速度。

在当地时间1月31日的新闻稿中,OpenAI披露,在2024年美国数学邀请赛(AIME 2024)的测试中,低推理努力的o3-mini准确率(60%)与o1-mini差不多,但速率更快;而在中等努力下,o3-mini准确率能够提升到79.6%,与o1模型相当。在最高努力水平时,o3-mini的准确率则能进一步提升至87.3%。

在博士级科学问题(GPQA Diamond)方面,三种努力程度模型的准确率分别为70.6%、76.8%和79.7%。

FrontierMath前沿数学与Codeforces等编程竞赛方面,o3-mini也显示出明显优势,甚至在某些评测中远超前代模型。

通用知识方面,在各种知识评测中,o3-mini的表现也超过了o1-mini,能够为用户提供更准确的答案。

在智能水平与o1相当的前提下,o3-mini提供了更快的性能和更高的效率。除了上述提及的STEM评估之外,采用中等推理努力的情况下,o3-mini在数学和事实性评估中也展现出更出色的表现。在A/B测试中,o3-mini的响应速度比o1-mini快24%,其平均响应时间为7.7 秒,而o1-mini为10.16 秒。延迟方面,o3-mini的首个token平均比o1-mini快2500毫秒。

横向对比,DeepSeek-R1模型在AIME 2024测试中的准确率为79.8%,而在GPQA Diamond测试中的准确率为71.5%。

有专家在社交媒体表示:受DeepSeek影响,OpenAl现在也显示推理模型的思维过程了

此外,对于付费用户,o3-mini将在模型选择器中替代o1-mini。作为升级的一部分,每月花费20美元左右的ChatGPT Plus和Team用户,速率限制也从o1-mini的每天50条,提升到o3-mini的150条。每月支付200美元的ChatGPT Pro用户,能无限制地访问o3-mini。

每日经济新闻综合OpenAI官网、公开资料

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
新娘确实漂亮,但我更喜欢戴眼镜那个。

新娘确实漂亮,但我更喜欢戴眼镜那个。

动物奇奇怪怪
2026-04-12 12:44:36
43岁男子和富婆车震后,富婆还想要更多,2016年他将51岁富婆杀死

43岁男子和富婆车震后,富婆还想要更多,2016年他将51岁富婆杀死

汉史趣闻
2026-04-06 19:17:12
特朗普通知联合国,可以还钱,但要接受9项要求,遏华毒计太阴险

特朗普通知联合国,可以还钱,但要接受9项要求,遏华毒计太阴险

甜到你心坎
2026-04-30 21:59:03
联想、惠普、戴尔等笔记本电脑全线涨价20% 市场老板:之前一天卖七八台 现在根本没人

联想、惠普、戴尔等笔记本电脑全线涨价20% 市场老板:之前一天卖七八台 现在根本没人

快科技
2026-04-30 11:14:08
俄罗斯领导人谴责乌克兰使用“恐怖主义手段”袭击俄炼油厂

俄罗斯领导人谴责乌克兰使用“恐怖主义手段”袭击俄炼油厂

山河路口
2026-04-29 19:57:41
王腾高调力挺老东家!加仓小米股票 直接晒出购买交易截图

王腾高调力挺老东家!加仓小米股票 直接晒出购买交易截图

快科技
2026-04-30 14:56:24
蔡振华现状:65岁圆满无遗憾,享受退休生活,唯独37岁儿子让他愁

蔡振华现状:65岁圆满无遗憾,享受退休生活,唯独37岁儿子让他愁

洲洲影视娱评
2026-04-14 13:58:26
婆婆说房是她买的,不能加我名。次日她来收钥匙,推开门愣住了

婆婆说房是她买的,不能加我名。次日她来收钥匙,推开门愣住了

王二哥老搞笑
2026-04-30 18:25:44
中国遭警告:拒收将面临供应中断!

中国遭警告:拒收将面临供应中断!

共工之锚
2026-04-28 23:20:50
台湾统一方式可能出人意料:77年前毛主席的奇谋,是最佳解决方案

台湾统一方式可能出人意料:77年前毛主席的奇谋,是最佳解决方案

浩渺青史
2026-04-26 20:43:40
兵败如山倒!国产新能源或已经证明:中国压根不需要二线豪华品牌

兵败如山倒!国产新能源或已经证明:中国压根不需要二线豪华品牌

流史岁月
2026-04-23 12:15:03
斯巴鲁全新轿跑上市!售价不足40万起,搭载2.4T+6速手动变速箱

斯巴鲁全新轿跑上市!售价不足40万起,搭载2.4T+6速手动变速箱

小史谈车
2026-04-29 14:49:35
2026 北京车展宝马 7 系设计封神!5.4 米修长身段,豪华比例教科书!

2026 北京车展宝马 7 系设计封神!5.4 米修长身段,豪华比例教科书!

聊聊车生活
2026-04-29 22:14:10
51:47!美投票结果出来了,特朗普发出“通牒”,欧盟血亏270亿!

51:47!美投票结果出来了,特朗普发出“通牒”,欧盟血亏270亿!

普览
2026-04-30 18:39:37
特朗普称乌克兰在军事上已败

特朗普称乌克兰在军事上已败

每日经济新闻
2026-04-30 08:02:05
广西一制糖企业发通知:全公司五一起放假94天!

广西一制糖企业发通知:全公司五一起放假94天!

闪电新闻
2026-04-29 19:07:00
孙杨谈没办婚礼落泪,张豆豆安慰,马頔伊能静的表情管理都失控了

孙杨谈没办婚礼落泪,张豆豆安慰,马頔伊能静的表情管理都失控了

八斗小先生
2026-04-30 15:59:04
上海新增10类智能产品市补!最高补贴幅度20%,运动相机、电动轮椅都有

上海新增10类智能产品市补!最高补贴幅度20%,运动相机、电动轮椅都有

上观新闻
2026-04-30 20:46:08
乌克兰通过法律程序,将“俄乌战争”,命名为“乌克兰独立战争”

乌克兰通过法律程序,将“俄乌战争”,命名为“乌克兰独立战争”

我心纵横天地间
2026-01-22 18:41:25
难怪李世民要杀兄逼父,你看李渊父子都做了啥?三件事“逼反”他

难怪李世民要杀兄逼父,你看李渊父子都做了啥?三件事“逼反”他

史笔似尘钩
2026-02-21 20:38:57
2026-04-30 22:35:00
每日经济新闻 incentive-icons
每日经济新闻
中国主流财经全媒体平台。
1558264文章数 2725631关注度
往期回顾 全部

科技要闻

9000亿美元估值,Anthropic即将反超OpenAI

头条要闻

广州一段路泊位最高收132元/天 市民收万元罚单也不停

头条要闻

广州一段路泊位最高收132元/天 市民收万元罚单也不停

体育要闻

季后赛场均5.4分,他凭啥在骑士打首发?

娱乐要闻

孙杨博士学历有问题?官方含糊其辞

财经要闻

易会满被“双开”!

汽车要闻

专访捷途汪如生:捷途双线作战 全球化全面落地

态度原创

手机
数码
艺术
公开课
军事航空

手机要闻

米粉狂喜!小米玄戒O3芯片参数全曝光,全新架构,碾压骁龙8 Elite

数码要闻

比预期提前两个月!微软5月中旬发新Surface:消费版ARM、商务版Intel

艺术要闻

安东·爱德华·基尔德鲁普:19世纪丹麦风景画家

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

意大利议会批准:捐赠航母给印度尼西亚

无障碍浏览 进入关怀版