网易首页 > 网易号 > 正文 申请入驻

应战DeepSeek, OpenAI紧急上线o3-mini!价格打骨折,免费用户也能用

0
分享至

扫码加 FP 企微,暗号 DeepSeek 进群

文章转载自「新智元」。

o3-mini,真的来了。

刚刚,OpenAI官宣o3-mini和o3-mini-high两大版本正式在ChatGPT上线。

诚如奥特曼所言,免费用户直接打开「Reason」即可体验,Plus用户每天会有更多用量,具体来说:

- ChatGPT免费版:首次体验推理模型

- ChatGPT Plus和团队版:每天150次对话限制

- ChatGPT Pro:无限制访问

- ChatGPT Enterprise和ChatGPT Edu:将在一周内可用

- API:向3-5级开发者开放(初期暂不支持图像分析功能)

- 输入1.10美元/百万token、输出4.40美元/百万token

感谢DeepSeek,o3-mini的价格这次算是彻底给打下来了——比OpenAI o1-mini便宜63%,比满血版o1便宜93%。(但仍是GPT-4o mini的7倍左右)

订阅用户已经在第一时间「告别」了o1-mini,还没来得及说再见

OpenAI表示,o3-mini的发布是在追求高效能智能技术道路上的又一重要里程碑。

通过优化科学(Science)、技术(Technology)、工程(Engineering)和数学(Mathematics)领域的推理能力,同时保持较低的成本,让高质量AI技术变得更加平易近人。

值得一提的是,在ChatGPT中,o3-mini采用的是「中等推理强度」,在速度和准确性之间取得平衡。所有付费用户还可以在模型选择器中选择o3-mini-high——响应时间略长但智能水平更高的版本。

01集成搜索,两种版本可选

去年12月, 。相较于上一代o1模型,o3在ARC-AGI等多项基准测试中刷新SOTA。

与o1-mini一样,o3-mini是最具性价比的推理模型,可谓是突破性能边界的「小巨人」。

在STEM领域,尤其是科学、数学和编程等方面,o3-mini性能表现卓越超越o1,并继承了上一代低成本和低延迟的优点。

对于开发者来说,o3-mini简直就是一份「大礼包」,它首次在小型推理模型中支持:包括函数调用、结构化输出和开发者消息、流式传输功能。

开发者可以根据需求选择低、中、高三种推理强度,让o3-mini在处理复杂问题时进行「深度思考」,灵活平衡速度和准确性。

遗憾地是,o3-mini暂不支持视觉功能。

如前所述,从今天起,o3-mini将通过Chat Completions API,Assistants API和Batch API向3-5级指定开发者开放。

同时,o3-mini还整合了搜索功能,能够提供带有相关网络来源链接最新响应。

一起来看看这款「小而美」的o3-mini有什么过人之处。

02专为STEM领域推理优化

与其前身OpenAI o1类似,OpenAI o3-mini专门针对STEM推理进行了优化。

采用了中等推理强度的o3-mini,在数学、编程和科学领域的表现与o1不相上下,且响应速度更快。

报告地址:https://cdn.openai.com/o3-mini-system-card.pdf

专家测试评估显示,o3-mini相比o1-mini能够生成更准确、更清晰的答案,推理能力更强。

在测试中,o3-mini的响应结果获得了56%的偏好度,在处理复杂现实问题时的重大错误率更是降低了39%。

在中等推理强度设置下,o3-mini在最具挑战性的推理和智能评估项目(包括AIME和GPQA)中,均达到了与o1相当的水平。

数学竞赛(AIME 2024)

在低推理强度下,o3-mini达到了与o1-mini相当的水平;在中等推理强度下,其表现可与o1媲美;而在高推理强度下,o3-mini的表现更是超越了o1-mini和o1。

博士级科学问题(GPQA Diamond)

研究级数学(FrontierMath)

在高推理强度模式下,o3-mini在FrontierMath中的表现优于前代产品。当配合Python工具使用时,高推理强度的o3-mini能够一次性解决超过32%的测试题目,其中包括28%以上的T3级问题。

编程竞赛(Codeforces)

随着推理强度的提升,OpenAI o3-mini的Elo得分不断提高,各层级表现均优于o1-mini。在中等推理强度下,其表现已能与o1相媲美。

软件工程(SWE-bench Verified)

o3-mini在高推理强度模式下,使用开源Agentless框架能达到39%的成功率,使用内部工具框架则可达到61%的成功率。

LiveBench编码

人类偏好评估

外部专家评测结果显示,o3-mini较o1-mini表现出更强的推理能力,能够生成更准确、更清晰的答案,尤其是在STEM领域中。在对比测试中,o3-mini获得了56%的用户偏好度,且在处理复杂现实问题时的重大错误率降低了39%。

在技术报告中,o3-mini编程性能超越了GPT-4o和o1-preview,与o1不相上下。

03模型的速度与性能

o3-mini在保持与o1相当智能水平的同时,实现了更快的运行速度和更高的计算效率。

除前文提到的STEM评估外,在中等推理强度下,o3-mini在其他数学能力和事实准确性测试中均取得了显著优势。

对比测试(A/B Testing)结果显示,o3-mini的平均响应时间为7.7秒,较o1-mini的10.16秒提升了24%。

o1-mini和o3-mini(medium)的延迟对比

04安全评估

OpenAI在训练o3-mini确保其安全响应,采用的关键技术之一是审慎对齐(deliberative alignment)。

这项技术使模型能够在响应用户提示词前,对人工制定的安全规范进行全面推理。

与o1相似,o3-mini在高难度安全性测试和越狱评估中,明显优于GPT-4o。

在正式部署前,研究人员采用与o1相同的准备方法,结合外部红队测试和安全性评估,对o3-mini的安全风险进行了全面评估。

禁止内容评估

越狱评估

05OpenAI急了

去年年底放出o3和o3-mini的预览时,CEO奥特曼就曾表示,o3-mini将会在1月份发布。

随后,奥特曼又在1月17日预告称,o3-mini会在几周内发布。

现在,o3-mini果然如约而至(卡在ddl最后一天),但外面的世界已经是天差地别。

面对正在快速崛起的DeepSeek-R1,o3-mini存在着一个关键问题——「不开源」。

这也就意味着,它无法离线使用、无法下载代码,也无法以相同的程度进行自定义。对于很多应用过来说,它的吸引力相对于R1明显大打折扣。

在上下文窗口方面,DeepSeek-R1约为128K/130K token,而o3-mini略胜一筹达到了200K token。其中,每个输出最多100K token,跟满血版o1相同。

在价格方面,相比于输入/输出token分别为0.14/0.55美元的DeepSeek-R1,o3-mini依然贵出了天际。

但作为一款美国模型,o3-mini在身份上无疑占尽了好处:应该会是欧美很多企业的首选。

奥特曼亲自率队

这一次,最强最新的o3-mini模型训练,奥特曼本尊下场亲自率队。研究项目主管分别是Carpus Chang和Kristen Ying。

接下来,如果说OpenAI还藏在什么杀手锏,那就是满血版的o3了。根据12月时的说法,它将在「此后不久」发布。

参考资料:

https://openai.com/index/openai-o3-mini/

https://openai.com/index/o3-mini-system-card/

转载原创文章请添加微信:founderparker

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
国台办果然没看错,郑丽文真面目被彻底揭露!小算盘到此为止了

国台办果然没看错,郑丽文真面目被彻底揭露!小算盘到此为止了

比利
2026-01-23 12:41:53
泰游客赴哈尔滨旅行后回国报警,涉事泰国旅行社:系己方与顾客的问题,与中国旅行社无关

泰游客赴哈尔滨旅行后回国报警,涉事泰国旅行社:系己方与顾客的问题,与中国旅行社无关

红星新闻
2026-01-23 12:26:32
学医后才知道,高血压最危险的信号,不是头晕眼花,而是这5症状

学医后才知道,高血压最危险的信号,不是头晕眼花,而是这5症状

健康科普365
2026-01-25 12:55:09
央视紧急曝光:克百威喷菜,大量流入武汉昆明郑州!

央视紧急曝光:克百威喷菜,大量流入武汉昆明郑州!

老特有话说
2026-01-25 23:09:49
2-0爆大冷!中国金花爆发横扫世界第13,莎娃曾断言她必成世界第1

2-0爆大冷!中国金花爆发横扫世界第13,莎娃曾断言她必成世界第1

安海客
2026-01-25 11:38:30
从免费听到付费,中国音乐非但没进步,反而把听众“作”没了?

从免费听到付费,中国音乐非但没进步,反而把听众“作”没了?

草莓解说体育
2026-01-20 04:16:58
上海炒股大赛冠军的箴言:如果手里只有10万,不妨死磕"七大口诀"

上海炒股大赛冠军的箴言:如果手里只有10万,不妨死磕"七大口诀"

一方聊市
2026-01-19 13:13:48
整天开会有啥必要啊?

整天开会有啥必要啊?

北京老付
2026-01-20 10:59:33
打的啥呀?末节仅4分堪称耻辱,杨鸣无语了,王岚钦9中1正负值-30

打的啥呀?末节仅4分堪称耻辱,杨鸣无语了,王岚钦9中1正负值-30

萌兰聊个球
2026-01-25 21:55:12
白酒股还要熊多久?茅台9连阴,五粮液快破100,有的股已跌96%!

白酒股还要熊多久?茅台9连阴,五粮液快破100,有的股已跌96%!

财经智多星
2026-01-25 16:36:44
鲁大师年度最强AI手机榜,荣耀Magic8 Pro夺冠

鲁大师年度最强AI手机榜,荣耀Magic8 Pro夺冠

科技锋说
2026-01-25 06:00:09
10名农民工被拖欠35万工资,总包方“以房抵薪”方案遭拒

10名农民工被拖欠35万工资,总包方“以房抵薪”方案遭拒

大风新闻
2026-01-25 11:11:08
勇士队前锋乔纳森·库明加膝盖过度伸展,复出时间表尚不明确

勇士队前锋乔纳森·库明加膝盖过度伸展,复出时间表尚不明确

好火子
2026-01-26 04:48:05
最低-15.9℃!陕西新一轮雨雪+降温来了!小到中雪、雨夹雪,气温还要降

最低-15.9℃!陕西新一轮雨雪+降温来了!小到中雪、雨夹雪,气温还要降

环球网资讯
2026-01-25 13:50:09
美军舰护航对台军售船闯台海,百架F35撑腰,中方亮杀招硬刚到底

美军舰护航对台军售船闯台海,百架F35撑腰,中方亮杀招硬刚到底

达文西看世界
2026-01-22 09:28:01
深度揭秘 | 航空“老色虎”谭瑞松,搞权色交易、“靠军工吃军工”

深度揭秘 | 航空“老色虎”谭瑞松,搞权色交易、“靠军工吃军工”

一分为三看人生
2026-01-12 00:09:36
破防!31岁林高远正式退出国家队,未圆奥运梦,31岁单身只为守护母亲

破防!31岁林高远正式退出国家队,未圆奥运梦,31岁单身只为守护母亲

最爱乒乓球
2026-01-26 00:10:35
白宫发布“特朗普和企鹅漫步格陵兰岛”图,遭群嘲

白宫发布“特朗普和企鹅漫步格陵兰岛”图,遭群嘲

新华社
2026-01-25 16:55:04
汉武帝玩了一招阳谋,专挑春季发兵打匈奴,致使女人流产人口锐减

汉武帝玩了一招阳谋,专挑春季发兵打匈奴,致使女人流产人口锐减

掠影后有感
2026-01-25 11:33:06
高盛前董事精准预判2026金属涨价榜:白银夺冠,黄金仅排第四

高盛前董事精准预判2026金属涨价榜:白银夺冠,黄金仅排第四

流苏晚晴
2026-01-25 17:54:00
2026-01-26 07:28:49
FounderPark incentive-icons
FounderPark
关注AI创业,专注和创业者聊真问题
1119文章数 150关注度
往期回顾 全部

科技要闻

黄仁勋在上海逛菜市场,可能惦记着三件事

头条要闻

男孩打碎电视屏为"还债"在小区创业 不到2个月赚了6千

头条要闻

男孩打碎电视屏为"还债"在小区创业 不到2个月赚了6千

体育要闻

中国足球不会一夜变强,但他们已经创造历史

娱乐要闻

央八开播 杨紫胡歌主演的40集大剧来了

财经要闻

隋广义等80人被公诉 千亿骗局进入末路

汽车要闻

别克至境E7内饰图曝光 新车将于一季度正式发布

态度原创

本地
房产
手机
教育
军事航空

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

房产要闻

正式官宣!三亚又一所名校要来了!

手机要闻

三星 Galaxy S26 系列配色、外观全曝光

教育要闻

2026高考突破1400万?权威解读来了!

军事要闻

俄美乌三方首轮会谈细节披露

无障碍浏览 进入关怀版