网易首页 > 网易号 > 正文 申请入驻

o3狂烧3万美金解一题,反被AGI榜单除名!试错1024次不如10岁小孩哥4分钟

0
分享至

新智元报道

编辑:编辑部 YNH

【新智元导读】OpenAI o3推理成本从3000美元飙至3万美元,暴增10倍。o3-high靠暴力试错生成4300万字解题,却被ARC-AGI「除名」。

短短几个月,最新评估显示,o3推理成本比预初估计暴涨10倍!

在ARC-AGI最新测试上,AI单次任务曾用3000美元,而如今已飙升至30000美元。

来自牛津大学的高级研究员Toby Ord指出,o3-high看似性能强大,实则更多地依赖于海量计算,而非真正的推理突破。

o3-high在对每个任务尝试1024次,每次生成137页文本,总计4300万字——相当于为每个任务写了一本《大英百科全书》(4400万字)。

结果就是,完成每个任务成本高达3万美金。而这些简单的谜题,一个10岁的孩子可能只需4分钟就能解决。

成本飙升直接导致了o3-high超出ARC-AGI每个任务1万美元限制,直接被排除在排行榜之外

甚至,o3-high的算力消耗竟是o3-low的172倍。

这种「暴力试错」的方式不禁让人质疑:这真的是智能解题吗?

从惊艳到惊吓,o3成本暴增10倍

去年12月,OpenAI推出了推理模型o3。

为了展示o3的强大性能,他们邀请了ARC PrizeFoundation主席Greg Kamradt一同参与那次发布会。

就在上周,ARC Prize Foundation更新了他们对o3模型计算成本的估算,结果令人震惊。

最初,他们估计o3-low解决一个ARC-AGI任务的成本为20美元,o3-high为3000美元。

而现在,根据修订后的ARC-AGI表,这些数字分别增加到200美元和3万美元。

这要比他们预计的成本整整高出10倍,这也可能是OpenAI迟迟没有正式发布o3的原因。

成本实在是太高了。

对此,ARC Prize Foundation的联合创始人之一Mike Knoop表示:「我们认为o1-pro更接近o3的真实成本,因为它在测试时用了大量的计算资源」。

o3的原始估算仅为OpenAI现有o1-pro模型收费的1/10,因此,他们以o1-pro定价作为参考,更新了定价数据。

「但这只是个参考,我们在排行榜上把o3标记为预览版,就是为了反映官方定价的不确定性。」

研究员Toby Ord称,令人失望的是,更新后的图表显示,o3整体表现几乎未超出o1对数收益的趋势。

他对此推测,或许是因为o3是在ARC-AGI公开测试集的75%上进行了专门的训练,而OpenAI并未发布任何消融数据澄清这一增益的来源。

相较之下,o3-mini更让人眼前一亮,所用的计算资源比o3-high要烧1000倍,却能展现出真正突破趋势的表现。

一直以来都有传言称OpenAI打算为企业客户推出昂贵的会员计划。

有人可能会觉得,即便是如此高的会员费也比请一个员工便宜。

但当一个任务需要3万美元、4300万字「暴力堆砌」下才能解决,这种效率是否真的划算。

ARC-AGI五年不败,难倒了一片AI

提起ARC-AGI,最初只是Keras之父François Chollet在谷歌一个副业项目,如今却成为所有AI必考题。

ARC Prize Foundation是一家非营利组织,使命是在基准测试期间成为AGI的北极星。

他们的第一个基准ARC-AGI,是François Chollet于2019年在关于智力测量的论文中发表的,它在AI领域已经保持5年不败。

随着模型变得越来越强,上个月,他们更新了ARC-AGI-2。

不像ARC-AGI-1,这个新版本不容易靠蛮力破解。这对AI来讲非常难。

难到什么程度呢?

像GPT-4.5、Claude 3.7 Sonnet、Gemini 2等这些现在顶尖的基础模型得分都是0%。也就是说一道也解不出来。

推理模型也没好到哪里去,Claude Thinking、DeepSeek-R1、o3-mini得分也只有0-1%。

为什么会这样?

原因在于ARC-AGI-2的所有任务都需要一些认真的思考。

也就是说,推理模型在解决这些任务时,需要进行大量的推理,消耗非常多的Token。

比如,当前最先进的推理模型在处理需要把符号看作「有意义的内容」时,表现并不好。

它们会尝试检查对称性、做镜像、进行图形变换,甚至能识别符号之间的连接关系,但却无法理解这些符号本身所代表的含义。

符号解释:ARC-AGI-2公共评估任务#e3721c99

在需要同时运用多条规则,或者这些规则相互影响的任务中表现得也很吃力。

相比之下,如果任务只涉及一条或极少数几条整体性的规则,AI通常能稳定地发现并正确运用这些规则。

组合推理:ARC-AGI-2公开评估任务 #cbebaa4b

在面对需要根据具体情境灵活应用规则的任务时这些推理模型同样表现不佳。

它们往往只关注表面模式,而不是理解背后真正的选择原则。

上下文规则应用:ARC-AGI-2 公共评估任务 #b5ca7ac4

几年内,AGI或将出现

虽然这些顶尖的推理模型在ARC-AGI的测试中表现不理想,但并没有妨碍很多人对实现AGI的畅想。

在最新一篇博客中,DeepMind就表示「通用人工智能(AGI)可能在未来几年内到来」。

结合AI智能体的能力,AGI可以大幅提升AI在理解、推理、规划和自主执行行动方面的能力。这种技术进步将为社会提供宝贵的工具,以应对包括药物发现、经济增长和气候变化在内的关键全球挑战。

而这也意味着,我们可以期待数十亿人将从中获得切实的益处。例如:

  • 通过实现更快速、更精准的医疗诊断,它可以革新医疗保健领域;

  • 通过提供个性化的学习体验,它例如,使教育更加普及且更具吸引力;

  • 通过增强信息处理能力,它可以帮助降低创新和创造的门槛;

  • 通过使先进工具和知识的获取更加便捷,它可以让小型组织有能力解决那些以前只有大型、资金充足的机构才能应对的复杂挑战。

而现在,o3成本暴涨10倍,智能边界似乎比我们想象的更远。

未来几年,AGI曙光或许将至,但眼下,烧钱智能并不代表着真正的推理突破,我们仍需保持清醒与期待。

参考资料:

https://x.com/tobyordoxford/status/1907379921825014094

https://techcrunch.com/2025/04/02/openais-o3-model-might-be-costlier-to-run-than-originally-estimated/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
59岁巩俐身材引热议,外套都快撑不住丰腴身材了,却被夸少女体态

59岁巩俐身材引热议,外套都快撑不住丰腴身材了,却被夸少女体态

一盅情怀
2026-03-16 16:52:57
查完张雪峰的遗产安排,越看越让人破防。

查完张雪峰的遗产安排,越看越让人破防。

果妈聊娱乐
2026-03-26 13:11:43
伊朗终于开窍,目标对准海水淡化厂,以色列抵挡不住,百余人伤亡

伊朗终于开窍,目标对准海水淡化厂,以色列抵挡不住,百余人伤亡

你得漂亮
2026-03-24 22:59:34
小佩顿已连续命中16球!勇士队史纪录为张伯伦的连中19球

小佩顿已连续命中16球!勇士队史纪录为张伯伦的连中19球

北青网-北京青年报
2026-03-26 20:51:05
精锐空降师抵中东,五万大军压境,美伊地面战一触即发?

精锐空降师抵中东,五万大军压境,美伊地面战一触即发?

高博新视野
2026-03-26 08:00:26
德业股份,市占率全球第一!

德业股份,市占率全球第一!

飞鲸投研
2026-03-26 18:41:45
看了张近东张康阳父子的故事后,你有没有“富过三代”的高招?

看了张近东张康阳父子的故事后,你有没有“富过三代”的高招?

老方
2026-03-24 16:38:55
广州从埔高速有货车侧翻 目击者:五常大米洒满一地,多人协助把大米搬至路肩

广州从埔高速有货车侧翻 目击者:五常大米洒满一地,多人协助把大米搬至路肩

红星新闻
2026-03-26 20:09:36
KTV保安的视角:我在KTV门口见过最多的冲突,都发生在买单时候!

KTV保安的视角:我在KTV门口见过最多的冲突,都发生在买单时候!

沈理职谈
2026-03-24 20:06:04
火车站“老师儿!出租车在这乘坐”标语引热议,网友称一看就是山东济南,车站工作人员:在当地这是尊称

火车站“老师儿!出租车在这乘坐”标语引热议,网友称一看就是山东济南,车站工作人员:在当地这是尊称

极目新闻
2026-03-26 12:06:40
路虎“大揽胜亮相 长5.1米,大6座,售30万起?

路虎“大揽胜亮相 长5.1米,大6座,售30万起?

网上车市
2026-03-26 21:41:53
不甘心的罗玉凤,令人敬佩

不甘心的罗玉凤,令人敬佩

廖保平
2026-03-22 10:49:24
难怪咸丰帝31岁去世,你看他逃往热河干了啥?每天都做4件致命事

难怪咸丰帝31岁去世,你看他逃往热河干了啥?每天都做4件致命事

铭记历史呀
2026-03-21 17:44:21
苏敏旅游6年后简直不敢认,连面相都变了,网友:这16万花得值

苏敏旅游6年后简直不敢认,连面相都变了,网友:这16万花得值

小樾说历史
2026-03-25 15:06:05
乌媒:乌克兰外长称终止116项国际协议

乌媒:乌克兰外长称终止116项国际协议

财联社
2026-03-26 20:24:11
高市早苗想访问平壤,金与正一句话打回原形:你来了我也不见

高市早苗想访问平壤,金与正一句话打回原形:你来了我也不见

新时代精神
2026-03-25 22:05:34
vivo X300 Ultra核心参数公布,“很Ultra的顶配旗舰”

vivo X300 Ultra核心参数公布,“很Ultra的顶配旗舰”

科技美学
2026-03-26 21:54:35
二永债市场迎“换仓潮”!银行发行缘何“冷暖不均”?

二永债市场迎“换仓潮”!银行发行缘何“冷暖不均”?

中国经营报
2026-03-26 07:30:46
中日破裂,这是53年来对日最强硬的外交表态!

中日破裂,这是53年来对日最强硬的外交表态!

见闻致
2025-11-15 21:21:56
全球首次!俄罗斯王牌武器锆石高超音速导弹,惨遭乌军无人机摧毁

全球首次!俄罗斯王牌武器锆石高超音速导弹,惨遭乌军无人机摧毁

甜柠聊史
2026-03-27 00:23:07
2026-03-27 02:55:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14821文章数 66720关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

亲子
本地
游戏
公开课
军事航空

亲子要闻

试工育儿嫂被查出传染病,宝妈崩溃!家政服务“健康关”如何保障?

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

PS1大IP游戏藏私货!成人手绘与盗版马里奥ROM塞满

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版