网易首页 > 网易号 > 正文 申请入驻

o3曝智商高达157,比肩爱因斯坦碾压99%人类!陶哲轩水平AI或出现

0
分享至

新智元报道

编辑:编辑部 HYZ

【新智元导读】OpenAI o3的智商,竟然已经高达157,碾压99%的人类?这张OpenAI模型智商图全网疯转。甚至有人大胆预测:达到陶哲轩智商(225-230)的大模型,应该会很快出现了。

o3智商竟有157,堪比爱因斯坦?

今天,一张OpenAI模型智商图,在全网传遍了。

基于编程竞赛Codeforces排名评分

图中清晰可见,能够达到o3智商水平的人类大约占比仅有0.0075%。

13333人当中,也仅有1人IQ是o3级别的。对于GPT-4o,6人当中就有1人能够达到IQ 115的水平。

从GPT-4o、到o1系,再到o3系,模型IQ逐渐递增,也仅用了1年时间,实现了质的飞跃。即便是最强o1 pro(IQ为139),o3完全领先近20分。

有网友表示,用不了多久,我们口袋里就会拥有一个IQ 157的智能。

还有人称,陶哲轩智商大约在225-230之间,未来模型很快就能达到这个水平。

o3超高智商背后

o3发布之后,很多人都认为AGI实现了。

从o1到o3,OpenAI仅用了3个月;从o1 pro到o3,仅用了1个月。种种迹象表明,Scaling Law并未终结。

过去五年,OpenAI模型在ARC-AGI上的得分,也说明了一切。

OpenAI研究员Nat McAleese在o3发布当天,分享了一些关于模型的介绍。

他表示,o3代表着通过强化学习在通用领域的巨大进步。

o1是首个大规模推理模型,也仅仅是一个通过RL训练的大模型。o3是通过在o1基础上,进一步scaling强化学习而开发的。

我们已经看到,o3在世界上最具竞争的编程基准CodeForces中得分超2700,完全达到了国际大师的水平。

与此同时,o3在数学基准FrontierMath惊艳表现令人生畏,甚至击穿了陶哲轩的预言。

在Keras之父François Chollet转写的报告中,也解释了o3与以往旧模型之间的区别:

o3的核心创新点在于,实现了token空间内自研语言程序搜索和执行。在测试时,它会搜索可能的CoT空间,并寻描述解决任务所需的步骤,由评估模型引导搜索过程。

而且,他表示,这种方式与AlphaZero的蒙特卡洛树搜索并无太大差异。

本质上,o3是一种深度学习引导的程序搜索形式。

不过,即便o3进化速度如此疯狂,OpnenAI研究员Will depue表示,这还不是AGI,我们还有很长的路要走。

o3 ARC-AGI测试被曝「作弊」?

而且就在最近,o3的ARC-AGI测试结果,在圈内引起了不小的争议。

要知道,这个基准设立的初衷,就是专门找到那些对人类很容易,对AI来说却很难的题目。

根据OpenAI的说法,在ARC-AGI这个基准测试中,o3在低计算模式下,在半私有评估中的得分为75.7%;在高计算模式下,得分为87.5%。

而人类在该任务上的表现通常在85%的水平,也就是说,o3在高计算模式下,已经超越了人类。

这个结果,引起了多人的质疑:OpenAI不会专门针对这个任务做过训练吧?

要知道,在直播的第12天,奥特曼专门强调过,「并未对模型做过特殊处理」。

对此,心细的网友们纷纷展开调查。

比如这位名为Knight Lee的网友,就表示o3在ARC-AGI上的分数是经过微调的,而之前的AI分数并没有被微调。

他表示,o3的一个主要优势,就是接受过示例测试问题的明确训练而已。

之所以有这样的观点,是他引用了ARC-AGI设计师François Chollet的说法——

OpenAI分享说,他们测试的o3是在公共训练集75%的数据上进行训练的。他们尚未透露更多细节。我们尚未测试未经ARC数据训的模型,因此尚不清楚其性能有多少归因于ARC-AGI数据。

这个这个说法为真,那o3所取得的分数,显然占了很大便宜。

OpenAI研究员Zach Stein-Perlman反驳说,他们没有针对ARC对o3做过微调。

不过今天出来的o3智商157的结果,至少可以为它的性能稍稍正名了。

o4才是Orion?

而且,在o3之后,或许还会有IQ更强的模型现身。

Information独家爆料称,o3并不是代号为Orion的模型。相对的,Orion可能会作为o4的基础模型。

OpenAI研究员Jason Wei称,从o1到o3仅用了3个月的时间,这表明在新范式下,进展远快于预训练范式每1-2年更新一次模型的速度。

推理模型的优势在于,利用更多计算资源思考之后,能够弥补预训练的放缓速度。

也正因此,o3推理代价是高昂的。ARC-AGI基准测试报告中,已经披露了o3在每个高计算任务中的成本会超过1000美金。

这也充分解释了,OpenAI博士级AI助手能达到每月2000美元的原因。

另一位OpenAI研究员John Hallman对此表示,当Sam和我们研究人员说AGI即将到来时,我们不是为了给你画大饼,不是为了推2000美元的订阅,也不是为了诱骗你投资我们的下一轮融资。它真的要来了。

目前,不清楚的是,o3对普通ChatGPT用户能带来多大帮助。

o3可能在编程、数学、科学领域表现,对编程、数学和科学领域的人员帮助最大,包括那些研究极其困难问题(如核聚变能源)的研究人员。

而对于普通用户而言,新模型可能有点「大材小用」。

虽然o3表现出色,其他科技巨头也不甘示弱。

谷歌强势推出了Gemini 2.0 Flash、视频模型Veo 2,以及由耗资30亿美金聘请AI研究员Noam Shazeer开发的推理模型。

一些对价格敏感的开发者,纷纷转向了谷歌Flash模型。

可以看出,推理模型仍将继续超进化迭代,2025年也将会如今年一样令人兴奋。

参考资料:

https://x.com/i_dg23/status/1871135348069482993

https://x.com/kimmonismus/status/1871162085675253977

https://x.com/SmokeAwayyy/status/1871273888191221922

https://www.theinformation.com/articles/openai-wows-the-crowd-as-new-scaling-law-passes-its-first-test?rc=epv9gi

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
1-0!女足世界杯奇迹:首次参赛小组第3出线+杀进决赛,创造历史

1-0!女足世界杯奇迹:首次参赛小组第3出线+杀进决赛,创造历史

侃球熊弟
2025-11-06 07:15:39
何以承载百万用户信赖?华为乾崑智驾ADS进化论

何以承载百万用户信赖?华为乾崑智驾ADS进化论

汽车网评
2025-11-04 15:46:43
国内自驾游最经典的27条路线,适合退休人士,争取一年走2条!

国内自驾游最经典的27条路线,适合退休人士,争取一年走2条!

走吧自驾游
2025-11-05 18:04:38
新闻多一度丨神二十推迟返回 空间碎片影响有多大?

新闻多一度丨神二十推迟返回 空间碎片影响有多大?

新京报
2025-11-05 18:11:09
杭州网红“大逃亡”,网红之都跌落神坛!

杭州网红“大逃亡”,网红之都跌落神坛!

财经三分钟pro
2025-11-05 13:58:59
被骂了25年“烂片鼻祖”,凭啥现在封神?

被骂了25年“烂片鼻祖”,凭啥现在封神?

陈天宇
2025-11-06 00:59:26
白百何好友下场了!揭露争奖细节,放话大不了鱼死网破电影不上了

白百何好友下场了!揭露争奖细节,放话大不了鱼死网破电影不上了

无处不风景love
2025-11-06 10:08:19
比水贝黄金市场还热闹,深圳华强北有产品翻倍涨价!商户称“每天都在涨,后面可能更贵”,但不敢囤货

比水贝黄金市场还热闹,深圳华强北有产品翻倍涨价!商户称“每天都在涨,后面可能更贵”,但不敢囤货

每日经济新闻
2025-11-06 00:32:06
超230万人想看,预测票房160亿,《哪吒2》全冠地位不保了

超230万人想看,预测票房160亿,《哪吒2》全冠地位不保了

影视高原说
2025-11-05 18:19:17
国足选帅如同儿戏,足协说了不算惨遭打脸!不可抗的因素选邵佳一

国足选帅如同儿戏,足协说了不算惨遭打脸!不可抗的因素选邵佳一

中国足球的那些事儿
2025-11-05 19:46:13
耳光大赛曾有选手被击倒后脑出血去世,最高奖金8万美元 赵鸿刚被KO后戴墨镜接受采访:现在看人还是“重影”

耳光大赛曾有选手被击倒后脑出血去世,最高奖金8万美元 赵鸿刚被KO后戴墨镜接受采访:现在看人还是“重影”

鲁中晨报
2025-11-06 06:55:29
梅西隔空回击C罗:世界杯是终极成就!夺冠的感觉无法描述

梅西隔空回击C罗:世界杯是终极成就!夺冠的感觉无法描述

叶青足球世界
2025-11-06 09:44:22
翁帆女士受聘顶尖985大学

翁帆女士受聘顶尖985大学

双一流高校
2025-11-05 18:22:29
当山姆会员抵制阿里高管,他们在抵制什么?

当山姆会员抵制阿里高管,他们在抵制什么?

花儿街参考
2025-11-05 20:02:22
藏不住了!断供率3.7%引恐慌,中国银行紧急改报告删数据

藏不住了!断供率3.7%引恐慌,中国银行紧急改报告删数据

麦小柒
2025-11-05 20:41:11
英媒爆猛料!中国用ASML“落后”光刻机造出先进芯片,美方拦不住

英媒爆猛料!中国用ASML“落后”光刻机造出先进芯片,美方拦不住

金错刀
2025-11-05 12:08:15
离谱!东南亚电诈园区办公室里,竟然出现了中文横幅……

离谱!东南亚电诈园区办公室里,竟然出现了中文横幅……

麦杰逊
2025-11-05 12:52:35
导演汪俊也没想到,王家卫录音曝光后,自己竟成了最大的受益人

导演汪俊也没想到,王家卫录音曝光后,自己竟成了最大的受益人

洲洲影视娱评
2025-11-05 17:27:39
因为AI热潮,史无前例的“电力牛市”已经到来,大佬们纷纷开始布局

因为AI热潮,史无前例的“电力牛市”已经到来,大佬们纷纷开始布局

爆角追踪
2025-11-05 16:15:19
“臀大腰粗”的女生怎么穿好看?吊带背心搭深灰瑜伽裤,高雅自信

“臀大腰粗”的女生怎么穿好看?吊带背心搭深灰瑜伽裤,高雅自信

小乔古装汉服
2025-09-29 07:55:03
2025-11-06 10:47:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13796文章数 66238关注度
往期回顾 全部

科技要闻

苹果“认输”!曝每年10亿美元租用谷歌AI

头条要闻

美最高法院就关税政策合法性展开辩论 美财长罕见出席

头条要闻

美最高法院就关税政策合法性展开辩论 美财长罕见出席

体育要闻

赢下皇马,会是利物浦的转折点吗?

娱乐要闻

白百何好友揭露争奖细节

财经要闻

特朗普关税遭美国高院大法官轮番质疑

汽车要闻

方向盘?不存在的 特斯拉 Cybercab亚太首秀

态度原创

房产
时尚
本地
亲子
手机

房产要闻

江东,给你留「门」儿了!

中国色特别策划 | 故宫技艺与古意新生

本地新闻

这届干饭人,已经把博物馆吃成了食堂

亲子要闻

娃无效作业太多,要不要偷偷帮他写?

手机要闻

遮盖还能解锁 苹果:Face ID不用前置摄像头

无障碍浏览 进入关怀版