网易首页 > 网易号 > 正文 申请入驻

o3狂烧3万美金解一题,反被AGI榜单除名!试错1024次不如10岁小孩哥4分钟

0
分享至

新智元报道

编辑:编辑部 YNH

【新智元导读】OpenAI o3推理成本从3000美元飙至3万美元,暴增10倍。o3-high靠暴力试错生成4300万字解题,却被ARC-AGI「除名」。

短短几个月,最新评估显示,o3推理成本比预初估计暴涨10倍!

在ARC-AGI最新测试上,AI单次任务曾用3000美元,而如今已飙升至30000美元。

来自牛津大学的高级研究员Toby Ord指出,o3-high看似性能强大,实则更多地依赖于海量计算,而非真正的推理突破。

o3-high在对每个任务尝试1024次,每次生成137页文本,总计4300万字——相当于为每个任务写了一本《大英百科全书》(4400万字)。

结果就是,完成每个任务成本高达3万美金。而这些简单的谜题,一个10岁的孩子可能只需4分钟就能解决。

成本飙升直接导致了o3-high超出ARC-AGI每个任务1万美元限制,直接被排除在排行榜之外

甚至,o3-high的算力消耗竟是o3-low的172倍。

这种「暴力试错」的方式不禁让人质疑:这真的是智能解题吗?

从惊艳到惊吓,o3成本暴增10倍

去年12月,OpenAI推出了推理模型o3。

为了展示o3的强大性能,他们邀请了ARC PrizeFoundation主席Greg Kamradt一同参与那次发布会。

就在上周,ARC Prize Foundation更新了他们对o3模型计算成本的估算,结果令人震惊。

最初,他们估计o3-low解决一个ARC-AGI任务的成本为20美元,o3-high为3000美元。

而现在,根据修订后的ARC-AGI表,这些数字分别增加到200美元和3万美元。

这要比他们预计的成本整整高出10倍,这也可能是OpenAI迟迟没有正式发布o3的原因。

成本实在是太高了。

对此,ARC Prize Foundation的联合创始人之一Mike Knoop表示:「我们认为o1-pro更接近o3的真实成本,因为它在测试时用了大量的计算资源」。

o3的原始估算仅为OpenAI现有o1-pro模型收费的1/10,因此,他们以o1-pro定价作为参考,更新了定价数据。

「但这只是个参考,我们在排行榜上把o3标记为预览版,就是为了反映官方定价的不确定性。」

研究员Toby Ord称,令人失望的是,更新后的图表显示,o3整体表现几乎未超出o1对数收益的趋势。

他对此推测,或许是因为o3是在ARC-AGI公开测试集的75%上进行了专门的训练,而OpenAI并未发布任何消融数据澄清这一增益的来源。

相较之下,o3-mini更让人眼前一亮,所用的计算资源比o3-high要烧1000倍,却能展现出真正突破趋势的表现。

一直以来都有传言称OpenAI打算为企业客户推出昂贵的会员计划。

有人可能会觉得,即便是如此高的会员费也比请一个员工便宜。

但当一个任务需要3万美元、4300万字「暴力堆砌」下才能解决,这种效率是否真的划算。

ARC-AGI五年不败,难倒了一片AI

提起ARC-AGI,最初只是Keras之父François Chollet在谷歌一个副业项目,如今却成为所有AI必考题。

ARC Prize Foundation是一家非营利组织,使命是在基准测试期间成为AGI的北极星。

他们的第一个基准ARC-AGI,是François Chollet于2019年在关于智力测量的论文中发表的,它在AI领域已经保持5年不败。

随着模型变得越来越强,上个月,他们更新了ARC-AGI-2。

不像ARC-AGI-1,这个新版本不容易靠蛮力破解。这对AI来讲非常难。

难到什么程度呢?

像GPT-4.5、Claude 3.7 Sonnet、Gemini 2等这些现在顶尖的基础模型得分都是0%。也就是说一道也解不出来。

推理模型也没好到哪里去,Claude Thinking、DeepSeek-R1、o3-mini得分也只有0-1%。

为什么会这样?

原因在于ARC-AGI-2的所有任务都需要一些认真的思考。

也就是说,推理模型在解决这些任务时,需要进行大量的推理,消耗非常多的Token。

比如,当前最先进的推理模型在处理需要把符号看作「有意义的内容」时,表现并不好。

它们会尝试检查对称性、做镜像、进行图形变换,甚至能识别符号之间的连接关系,但却无法理解这些符号本身所代表的含义。

符号解释:ARC-AGI-2公共评估任务#e3721c99

在需要同时运用多条规则,或者这些规则相互影响的任务中表现得也很吃力。

相比之下,如果任务只涉及一条或极少数几条整体性的规则,AI通常能稳定地发现并正确运用这些规则。

组合推理:ARC-AGI-2公开评估任务 #cbebaa4b

在面对需要根据具体情境灵活应用规则的任务时这些推理模型同样表现不佳。

它们往往只关注表面模式,而不是理解背后真正的选择原则。

上下文规则应用:ARC-AGI-2 公共评估任务 #b5ca7ac4

几年内,AGI或将出现

虽然这些顶尖的推理模型在ARC-AGI的测试中表现不理想,但并没有妨碍很多人对实现AGI的畅想。

在最新一篇博客中,DeepMind就表示「通用人工智能(AGI)可能在未来几年内到来」。

结合AI智能体的能力,AGI可以大幅提升AI在理解、推理、规划和自主执行行动方面的能力。这种技术进步将为社会提供宝贵的工具,以应对包括药物发现、经济增长和气候变化在内的关键全球挑战。

而这也意味着,我们可以期待数十亿人将从中获得切实的益处。例如:

  • 通过实现更快速、更精准的医疗诊断,它可以革新医疗保健领域;

  • 通过提供个性化的学习体验,它例如,使教育更加普及且更具吸引力;

  • 通过增强信息处理能力,它可以帮助降低创新和创造的门槛;

  • 通过使先进工具和知识的获取更加便捷,它可以让小型组织有能力解决那些以前只有大型、资金充足的机构才能应对的复杂挑战。

而现在,o3成本暴涨10倍,智能边界似乎比我们想象的更远。

未来几年,AGI曙光或许将至,但眼下,烧钱智能并不代表着真正的推理突破,我们仍需保持清醒与期待。

参考资料:

https://x.com/tobyordoxford/status/1907379921825014094

https://techcrunch.com/2025/04/02/openais-o3-model-might-be-costlier-to-run-than-originally-estimated/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
海军原政治部主任毕惠义将军逝世,享年85岁

海军原政治部主任毕惠义将军逝世,享年85岁

澎湃新闻
2026-03-15 12:28:26
特朗普令五千海军陆战队员前往霍尔木兹海峡,周一油价可能下降?

特朗普令五千海军陆战队员前往霍尔木兹海峡,周一油价可能下降?

火星宏观
2026-03-14 11:17:02
日本大力引进印度游客引网友吐槽?拉满飞机厕所、爱占商家便宜,日媒:但填补了中国游客空缺!

日本大力引进印度游客引网友吐槽?拉满飞机厕所、爱占商家便宜,日媒:但填补了中国游客空缺!

英国报姐
2026-03-13 21:28:05
69岁张瑜离异至今单身!她有3大遗憾,逾亿资产将来都给外甥

69岁张瑜离异至今单身!她有3大遗憾,逾亿资产将来都给外甥

无处遁形
2026-03-08 19:51:13
美国突发惨剧:男子亲人遭以军空袭身亡,当场驾车引爆犹太会堂

美国突发惨剧:男子亲人遭以军空袭身亡,当场驾车引爆犹太会堂

笑一个吧
2026-03-14 23:26:55
蒋介石去世后,为何不传位给蒋经国,而是传给了无实权的严家淦?

蒋介石去世后,为何不传位给蒋经国,而是传给了无实权的严家淦?

史之铭
2026-03-13 16:41:54
其实人根本不用养老,为什么呢?看到此文,你就会豁然开朗

其实人根本不用养老,为什么呢?看到此文,你就会豁然开朗

暖风吹过竹林
2026-03-14 10:23:30
特里:道曼是一个超级天才,他的过人能力堪比梅西

特里:道曼是一个超级天才,他的过人能力堪比梅西

懂球帝
2026-03-15 11:12:10
随着国米1-1,尤文图斯1-0,那不勒斯2-1,意甲最新积分榜出炉

随着国米1-1,尤文图斯1-0,那不勒斯2-1,意甲最新积分榜出炉

侧身凌空斩
2026-03-15 06:05:01
成都汽车撞人致7死伤:画面流出,19岁肇事者被扒,事发原因披露

成都汽车撞人致7死伤:画面流出,19岁肇事者被扒,事发原因披露

博士观察
2026-03-14 16:37:28
首搭神盾金砖电池,吉利银河M7亮剑电混SUV市场

首搭神盾金砖电池,吉利银河M7亮剑电混SUV市场

北京商报
2026-03-14 11:44:05
30分三双+0.5秒一剑封喉!东契奇赛后轻描淡写:我相信自己的能力

30分三双+0.5秒一剑封喉!东契奇赛后轻描淡写:我相信自己的能力

大眼瞄世界
2026-03-15 12:18:57
特朗普撂挑子不干了,以色列连俄大楼都敢炸,普京把话说得很清楚

特朗普撂挑子不干了,以色列连俄大楼都敢炸,普京把话说得很清楚

策前论
2026-03-12 12:46:44
深圳这一夜,于和伟气场强,吴越端庄,迟蓬洋气,却被王凯惊艳

深圳这一夜,于和伟气场强,吴越端庄,迟蓬洋气,却被王凯惊艳

娱乐圈笔娱君
2026-03-14 14:17:04
曝小米正洽谈收购玛莎拉蒂,官方回应

曝小米正洽谈收购玛莎拉蒂,官方回应

电动知家
2026-03-14 12:33:22
末代皇帝:溥仪回到故宫时买了票,发现了自己藏在椅子底下的宝贝

末代皇帝:溥仪回到故宫时买了票,发现了自己藏在椅子底下的宝贝

抽象派大师
2026-01-30 01:04:21
CBA最新消息!曝广东宏远换掉麦考尔,山西男篮大将受伤

CBA最新消息!曝广东宏远换掉麦考尔,山西男篮大将受伤

体坛瞎白话
2026-03-15 10:04:05
里夫斯谈故意罚球不中:之前我犯了错误,当时只想着拼一把

里夫斯谈故意罚球不中:之前我犯了错误,当时只想着拼一把

懂球帝
2026-03-15 12:14:09
美国:伊朗新最高领导人已毁容

美国:伊朗新最高领导人已毁容

亚太观澜
2026-03-14 20:45:06
美军猛炸伊朗地下导弹长城,疑似十万伊军被埋地下?

美军猛炸伊朗地下导弹长城,疑似十万伊军被埋地下?

高博新视野
2026-03-14 07:45:10
2026-03-15 13:27:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14721文章数 66693关注度
往期回顾 全部

科技要闻

传裁员20%,新模型难产:Meta AI仍没理顺

头条要闻

媒体:世界战火纷飞 中国外交又创下一个首次

头条要闻

媒体:世界战火纷飞 中国外交又创下一个首次

体育要闻

快船所谓绝境,可能也没那么绝?

娱乐要闻

《隐身的名字》定档!闫妮、倪妮联手

财经要闻

315策划|泡泡玛特假盲盒制售产业链调查

汽车要闻

倾听用户声音 东风奕派三款新车亮相

态度原创

房产
本地
时尚
旅游
公开课

房产要闻

销量扑街!建鑫·如意芳华,为何成了全荔湾卖得最差的新盘?

本地新闻

坐标北京,过敏季反向迁徒

看完《逐玉》我承认我还是喜欢长剧

旅游要闻

上海珍档|袁念琪:茂名南路,那静谧像是“含着怕化了”

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版