网易首页 > 网易号 > 正文 申请入驻

OpenAI 直接跳过了“o2”跨到“o3”

0
分享至

北京时间12月21日凌晨,在持续了近两周、共计12天 OpenAI 12Days 活动进入尾声,OpenAI正式宣布推出两款新一代推理模型:o3与o3-mini。

这两款大模型被视为此前大受关注的o1系列继任者,尤其是面对谷歌近期发布的 Gemini2.0Flash及其推理增强版本Gemini 2.0 Flash Thinking 所带来的行业震动,o3系列出现可谓给OpenAI自身的“马拉松式发布”画上了句号。

跳过“o2”,迎来“o3”

值得注意的是,OpenAI 直接跳过了“o2”的型号命名,一口气跨到“o3”。对于外界看来略显“跳跃”的命名,OpenAI CEO-Sam Altman奥特曼在直播中坦言,主要是出于与英国电信提供商O2潜在版权冲突的考虑所致。

同时,Altman 也承认OpenAI在产品命名上“一直不太擅长”,于是干脆跳过了 “o2” 的序号。与此命名调整一同到来的,是令人惊叹的性能提升。

此次发布的o3不仅在数学、科学和编程等传统“硬核”学科上进一步拔高了标准,还融合了更强大的推理功能,能够通过「私有思维链」(private chain of thought)自检与核查,从而帮助模型尽可能规避一些传统大模型易犯的事实错误。

根据官方透露,OpenAI 将“逐步邀请部分选定用户”率先测试这一新一代推理模型,完整公开版的发布时间尚未确定。不过,o3-mini有望在1月底向更多用户开放。

亮眼数据:从编程到数学再到抽象推理

在官方公布的多项基准测试中,o3相较o1有了更明显的进步:

编程与软件工程:

在SWE-Bench Verified 基准测试中,o3的正确率比o1提高22.8个百分点,证明其在大型项目及复杂代码编写上更胜一筹。

Codeforces评分达到2727分,已超过人类大部分参赛者的排名;根据官方披露,这意味着o3的代码能力进入“全球顶尖水平”。

数学与科学:

在AIME2024(美国高中层面高难度数学竞赛)中,o3取得了96.7%的成绩,几近满分;在研究生难度的GPQA Diamond 评测中也获得87.7%的高分。

在由EpochAI发起的高阶数学基准Frontier Math测试中,o3的解题成功率达 25.2%,而此前多款主流大模型的成绩均低于2%。

ARC-AGI高分,引发“是否接近 AGI”的热议:

在关键的ARC-AGI测试中,o3的最高得分达到了87.5%。要知道,人类平均得分在 84%左右。虽然在该测试更严格的“计算限制”模式下,o3的成绩会略有下滑,但其依旧显著领先此前的同类模型,成为当下最具突破性的结果之一。

由于ARC-AGI测试被视为衡量“能否适应全新任务并进行跨领域推理”的重要指标,一部分观察者因此大胆猜测:

o3也许是“距离AGI最近的一步”。但包括ARC评测联合创始人François Chollet在内的多位研究者都表示,“o3只是通往AGI的重要里程碑,而并非已经触及AGI真正的门槛。”

高昂的“推理成本”与更多的思考

与强大能力相伴而生的,是更为可观的推理时间和成本。

OpenAI 在发布会上特别提到,o3 可以设置不同程度的计算量(低/中/高),计算时间越长,推理结果通常越准确。在高计算模式下,完成某些复杂任务甚至需要数千美元,这也让人联想到另一个备受关注的问题——部署高端推理模型对算力和资金的要求是否会成为瓶颈?

同时,随着推理能力的升级,o3可能更“会思考”了,却也带来一些安全和对齐层面的担忧。此前有安全团队曾指出,o1与其他非推理大模型相比,更容易出现欺骗或误导性内容。

对于这一点,OpenAI 表示已经在o3中引入了名为“审议性对齐”(deliberative alignment)的新技术,以减少模型滥用、错误推理等潜在风险。但Altman也强调,自己依然期待在更成熟的联邦测试和监管框架下去优化这类大模型的安全性与可靠性。

o3-mini:更加精简、更具针对性

除了主打高阶推理、渴望挑战 AGI 边界的 o3 外,本次发布的另一款模型o3-mini也备受瞩目。

o3-mini主打“更小、更精简”,在推理速度与资源占用上都有更佳表现,适合对算力成本高度敏感且任务需求更专一的开发者。根据 Altman 的介绍,o3-mini 将在1月底优先向部分Pro用户及合作伙伴开放 API 测试,随后逐步扩大范围。

12天接力发布,终以“王炸”收官

回溯这12天,OpenAI所谓的“马拉松式发布”里,前期更多是功能碎片化升级。直到最后阶段才真正奉上了重磅产品——o3与o3-mini,可谓“save the best for last”。

在过去11天里,OpenAI从ChatGPT的多种新功能(如Canvas、Search、Projects等)到全新的桌面端与电话语音交互模式,再到开放给开发者的API升级,都在有条不紊地为这个压轴大戏做铺垫。

在行业格局瞬息万变的当下,OpenAI 此番用o3的发布再度向外界展示了其在推理领域的领先实力。随着这些推理模型在编程、科学、数学乃至抽象思维能力上的渐次突破,人们对所谓 “AGI”的期待也愈发高涨。

但正如模型作者、评测者与Altman本人都强调的那样,o3依然不是“最终形态”;这台新引擎未来还将面临诸多技术、伦理与安全层面的挑战。

无论如何,在被称作“算法与大模型之年”的2024行将结束之时,o3的出现显然为 2025年的AI竞技场埋下了更多悬念。

谁将在AGI竞赛中继续领先?

o3的问世才刚刚吹响了下一阶段的号角。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
俄乌冲突持续升级,专家:战场逻辑和重点发生改变

俄乌冲突持续升级,专家:战场逻辑和重点发生改变

极目新闻
2026-07-05 18:34:17
《四渡》和《抓特务》票房都扑了,但于冬没亏,冯小刚则颗粒无收

《四渡》和《抓特务》票房都扑了,但于冬没亏,冯小刚则颗粒无收

电影票房预告片
2026-07-05 23:59:01
中国海军试验舰惊现155毫米巨炮,史无前例!

中国海军试验舰惊现155毫米巨炮,史无前例!

健身狂人
2026-07-05 20:31:03
大局已定!2026世界杯99%冠军锁定,黑马彻底无缘,只看这三队

大局已定!2026世界杯99%冠军锁定,黑马彻底无缘,只看这三队

林子说事
2026-07-06 01:38:23
世界杯太残酷了:随着哈兰德双响+挪威2-1,3大前十劲旅已经出局

世界杯太残酷了:随着哈兰德双响+挪威2-1,3大前十劲旅已经出局

侧身凌空斩
2026-07-06 06:05:32
浙媒痛批泰山铁丝网,鲁媒直接打脸:对自家刀刺网选择性失明,真是双标!

浙媒痛批泰山铁丝网,鲁媒直接打脸:对自家刀刺网选择性失明,真是双标!

可达鸭面面观
2026-07-05 15:39:42
第二个许家印!广州首富栽了!世界500强竟是假的,千亿帝国清零

第二个许家印!广州首富栽了!世界500强竟是假的,千亿帝国清零

乐天闲聊
2026-07-05 20:04:36
世界杯年薪最高主帅!67岁安帅直接离场+未接受采访 解释点球闹剧

世界杯年薪最高主帅!67岁安帅直接离场+未接受采访 解释点球闹剧

风过乡
2026-07-06 07:21:19
最卖力的“船夫”?挪威目前打入12球,哈兰德一人贡献7球

最卖力的“船夫”?挪威目前打入12球,哈兰德一人贡献7球

懂球帝
2026-07-06 07:12:07
男子称在胖东来自营影院看电影时,因电影不太符合自己中途离场,工作人员询问后退了一半费用,“20多年人生中的第一次,特别感慨”

男子称在胖东来自营影院看电影时,因电影不太符合自己中途离场,工作人员询问后退了一半费用,“20多年人生中的第一次,特别感慨”

扬子晚报
2026-07-05 15:25:08
随着哈兰德梅开二度+挪威2-1淘汰巴西,世界杯最新射手榜出炉

随着哈兰德梅开二度+挪威2-1淘汰巴西,世界杯最新射手榜出炉

侧身凌空斩
2026-07-06 06:11:03
震撼全网!耿同学怒扒中山大学副院长:史上最假Nature论文!

震撼全网!耿同学怒扒中山大学副院长:史上最假Nature论文!

魔都囡
2026-07-05 11:45:37
陕西9岁女孩电梯摸车被扇耳光事件细节曝光,后续进展更让人气愤

陕西9岁女孩电梯摸车被扇耳光事件细节曝光,后续进展更让人气愤

Mr王的饭后茶
2026-07-05 13:36:41
马上评|2G、3G退网是趋势,但别忘了等一等老人

马上评|2G、3G退网是趋势,但别忘了等一等老人

澎湃新闻
2026-07-05 15:08:30
巴西错失梦幻开局!吉马良斯失点,40年第一人,库尼亚造点

巴西错失梦幻开局!吉马良斯失点,40年第一人,库尼亚造点

奥拜尔
2026-07-06 04:23:10
韩红基金会麻烦大了!7家供应商疑3家0社保,2家0实缴

韩红基金会麻烦大了!7家供应商疑3家0社保,2家0实缴

小徐讲八卦
2026-07-05 17:54:46
疯狂世界杯:巴西1-2出局 创36年耻辱!挪威进8强 改写历史

疯狂世界杯:巴西1-2出局 创36年耻辱!挪威进8强 改写历史

叶青足球世界
2026-07-06 06:05:26
哈兰德获评9分+加冕MVP:双响炮,率队2-1淘汰巴西,进世界杯8强

哈兰德获评9分+加冕MVP:双响炮,率队2-1淘汰巴西,进世界杯8强

侧身凌空斩
2026-07-06 06:08:53
最后一舞!C罗官宣不会参加第7次世界杯:大力神杯不影响我的地位

最后一舞!C罗官宣不会参加第7次世界杯:大力神杯不影响我的地位

风过乡
2026-07-06 05:55:08
中央气象台发布暴雨、强对流预警:今明两天,山东、河南、安徽、江苏、湖北等地的部分地区将有10级以上雷暴大风,最大风力可达11级以上

中央气象台发布暴雨、强对流预警:今明两天,山东、河南、安徽、江苏、湖北等地的部分地区将有10级以上雷暴大风,最大风力可达11级以上

都市快报橙柿互动
2026-07-06 06:25:12
2026-07-06 07:44:49
亿欧
亿欧
更多优质行业资讯请访问亿欧网
135982文章数 95401关注度
往期回顾 全部

科技要闻

华为:逻辑折叠将大幅提升麒麟CPU核心频率

头条要闻

男子为救3岁儿童变成植物人 妻子咬丈夫脚趾将其唤醒

头条要闻

男子为救3岁儿童变成植物人 妻子咬丈夫脚趾将其唤醒

体育要闻

哈兰德绝杀巴西:效率恶魔,吃人不眨眼

娱乐要闻

霉霉婚礼照片泄露 有四人违规

财经要闻

揭秘跨境“对敲”换汇黑产

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

游戏
艺术
数码
本地
军事航空

顽皮狗光头女主新作不输《美末》?听名字就高端吗

艺术要闻

伊朗超高层方案惊艳世界,曾获国际大奖!

数码要闻

10999元 机械革命耀世18 Pro上新:Ultra 7 251HX、RTX5060

本地新闻

国内足球之旅?这座小城给你高分答案

军事要闻

普京与特朗普通话85分钟 细节公布

无障碍浏览 进入关怀版