网易首页 > 网易号 > 正文 申请入驻

刚刚,OpenAI内部推理模型斩获IOI 2025金牌!所有AI选手中第一

0
分享至

新智元报道

编辑:定慧

【新智元导读】OpenAI的内部推理模型,又拿下了IOI 2025金牌,击败325名人类选手,总排名第6,AI组第1。该模型沿用IMO金牌版本,无专门训练,限时5小时、50次提交且无联网支持。

刚刚,OpenAI内部推理模型在获得IMO金牌后,又拿下了IOI金牌。

和上次IMO一样,OpenAI 使用了草莓形象来代表这个推理模型。

只不过这次的「草莓」不仅带上了IOI的金牌,而且更加的拟人,这个形象很有可能进化为OpenAI内部推理系统代表形象。

OpenAI宣言的这个「内部推理系统」就是上次拿下IMO金牌,惹出争议的同款模型。

IMO之后,OpenAI对IMO金牌模型进行了全面评估,发现除了数学竞赛之外,它在许多其他领域(包括编程)也是目前最好的模型。

因此,OpenAI决定直接使用完全相同的IMO金牌模型,不做任何更改,并将其应用于IOI的系统中。

OpenAI官方也发帖证实了这个消息。

这个内部推理模型的得分足够高,在今年的IOI线上竞赛中,和人类一起排名位列第6,与其他AI排名则是第1。

Sheryl Hsu表示,这次内部模型参加了IOI的在线AI竞赛项目,一共330位参赛选手。

前5位都是人类。

此次比赛,AI和人类参赛者一样,相同的5小时时间限制,以及最多50次的提交限制次数。

并且,和人类一样,这个推理系统没有「联网」,也没有「RAG」搜索,只能访问基本的终端工具。

这个推理模型并没有针对IOI进行特别训练。

也就是说,除了让模型连接到IOI API外,剩下的一切都靠AI自己推理。

其实去年,OpenAI就参加过IOI比赛,当时以略微低于铜牌分数线的成绩收尾。

仅仅过去一年时间,推理模型的排名就从第49百分位跃升到第98百分位。

OpenAI内部推理模型-IOI金牌团队

不过,就在该消息发布没有多久。

马斯克的Grok也来搅局了!

首先要明确的是,这个「内部推理模型」并不是To C的模型,除了OpenAI内部,没有人能够访问。

那像目前最顶级的商业模型,在IOI上表现如何?

答案是:惨不忍睹。

根据Vals AI的测试结果,目前能在IOI取得领先的商业模型,居然是Grok 4。

首先,目前所有的顶尖模型都存在明显不足,没有一个模型能在任意一年的比赛中获得奖牌。

Grok 4以26.2%的准确率领先,随后是GPT-5、Gemini 2.5 Pro和Claude Opus 4.1。

Vals AI通过其公开端点进行测试,所有商业模型在IOI上仍有很大的改进空间。

此外Vals AI这次测试中发现,「贵就是好」的道理也适用于大模型领域。

只有每道问题超过2美元的昂贵模型,才能取得有意义的表现。

也就是说,OpenAI实验室里的那个推理模型,要远远强过目前公众能够接触到的商业模型。

这可能给人们带来很多遐想,目前最顶尖实验室中的最先进的AI技术距离公众还有多远?

这引发了很多猜测和讨论。

从IMO金牌闹剧中可以看到,巨头们对于这种「领先地位」的追求非常强。

谷歌Gemini为了给自己正名为「首个获得IMO金牌的AI模型」,甚至有组委会出面宣布「OpenAI的宣布」是无效的。

甚至还有OpenAI被曝IMO金牌造假,陶哲轩揭露内幕的桥段。

目前GPT-5刚刚发布,OpenAI就马上宣布IOI金牌,可以预测,这应该就是给后来的Gork 5和Gemini 3等模型准备的挑战。

为何OpenAI、谷歌、Anthropic、Grok等巨头们痴迷于刷榜和竞赛通关?

巨头们对刷榜和竞赛排名的痴迷,根本上源自AI行业的高度竞争性和技术的快速迭代。

首先,刷榜是最直接有效的营销手段之一。

排名榜单上的领先位置不仅意味着技术优势,更代表了市场影响力和品牌认可度。一旦模型在权威比赛如IMO、IOI中斩获佳绩,企业便能迅速树立强大的品牌形象,吸引公众关注并提升用户信任。

其次,AI领域的竞赛排名通常与模型的通用性能和应用潜力高度相关。无论是IMO还是IOI,这些比赛考验的是模型的基础推理、逻辑推演和泛化能力。

换句话说,竞赛胜出代表着模型不仅在特定任务上表现优异,更意味着其在更广泛的应用场景中可能具有领先的技术优势。

最后,竞赛胜出能够大大提高对人才和资本的吸引力。

OpenAI团队前往玻利维亚亲自参加IOI

正因如此,OpenAI、谷歌DeepMind、Meta和Anthropic等AI巨头始终热衷于在竞赛上相互较量,每一次榜单的变动都可能影响AI行业未来的格局。

那么,谁是地表最强AI?

也许这个竞争会一直持续到我们实现AGI的那天吧。

参考资料:

https://x.com/SherylHsu02/status/1954966118680105150

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
今夏火了一条:“白裤子”,这样搭才高级又洋气,超好看!

今夏火了一条:“白裤子”,这样搭才高级又洋气,超好看!

何有强
2026-05-10 22:13:02
不服就干!杀叛徒,打美军无人机,2架F-35紧急降落,伊朗接着打

不服就干!杀叛徒,打美军无人机,2架F-35紧急降落,伊朗接着打

知法而形
2026-05-11 19:26:45
株洲26岁女士征婚!要求男方独生子、存款200万以上,称有前任9名

株洲26岁女士征婚!要求男方独生子、存款200万以上,称有前任9名

火山詩话
2026-05-11 13:50:23
入狱43天撕破蓝营遮羞布!蔡正元隐忍发声,马英九终酿大错

入狱43天撕破蓝营遮羞布!蔡正元隐忍发声,马英九终酿大错

爱看剧的阿峰
2026-05-10 20:00:34
四年食品学位,毕业后同宿舍四人竟无一人在食品行业!江南大学的真实现状

四年食品学位,毕业后同宿舍四人竟无一人在食品行业!江南大学的真实现状

户外阿毽
2026-04-27 08:31:47
孙颖莎逆转日本名将后,谁注意到日本教练的一个动作,耐人寻味

孙颖莎逆转日本名将后,谁注意到日本教练的一个动作,耐人寻味

丁丁鲤史纪
2026-05-11 16:21:08
特朗普举着孩子照片,对哭泣的母亲承诺:我相信中国会执行死刑的

特朗普举着孩子照片,对哭泣的母亲承诺:我相信中国会执行死刑的

博览历史
2025-07-21 17:59:30
49岁李小冉素颜曝光,皱纹眼袋拒绝打针,白到发光松弛感十足

49岁李小冉素颜曝光,皱纹眼袋拒绝打针,白到发光松弛感十足

喜欢历史的阿繁
2026-05-11 10:45:56
疑遭日本主帅批评!张本智和:不能全怪我 2年后看我在日本咋复仇

疑遭日本主帅批评!张本智和:不能全怪我 2年后看我在日本咋复仇

风过乡
2026-05-11 12:49:51
八路军最惨痛一战,看完牺牲高级将领名单,主席:取消政委决定权

八路军最惨痛一战,看完牺牲高级将领名单,主席:取消政委决定权

马捗在解说
2026-05-08 14:50:30
林诗栋抢王楚钦风头!险被逆转却跳球桌狂欢,把自己演成关键英雄

林诗栋抢王楚钦风头!险被逆转却跳球桌狂欢,把自己演成关键英雄

三十年莱斯特城球迷
2026-05-11 01:58:15
白人女性与黑人女性的体味差异,网友真实分享引发热议

白人女性与黑人女性的体味差异,网友真实分享引发热议

特约前排观众
2025-12-22 00:20:06
奇才会选迪班萨为状元? 从球队需求看2026年选秀前三甲怎么排?

奇才会选迪班萨为状元? 从球队需求看2026年选秀前三甲怎么排?

仰卧撑FTUer
2026-05-11 09:18:06
女足亚洲杯太残酷了:随着日本1-0,2大劲旅已经被送回家

女足亚洲杯太残酷了:随着日本1-0,2大劲旅已经被送回家

俯身冲顶
2026-05-11 17:03:48
脱离实际的报价遭冷遇,世界杯中国转播费从3亿美元腰斩到1.5亿美元;多国转播权的不明朗形势陷入罕见僵局

脱离实际的报价遭冷遇,世界杯中国转播费从3亿美元腰斩到1.5亿美元;多国转播权的不明朗形势陷入罕见僵局

大风新闻
2026-05-10 15:28:26
西红柿被点名!医生:吃得越多,糖尿病患者寿命或越短?真的吗?

西红柿被点名!医生:吃得越多,糖尿病患者寿命或越短?真的吗?

健身狂人
2026-05-11 20:01:48
WNBA:韩旭4+5拼到6犯毕业 自由人加时险胜神秘人获2连胜

WNBA:韩旭4+5拼到6犯毕业 自由人加时险胜神秘人获2连胜

醉卧浮生
2026-05-11 05:50:15
老白干酒董事长突然放弃连任,已掌舵10余年,去年营收创上市以来最大跌幅

老白干酒董事长突然放弃连任,已掌舵10余年,去年营收创上市以来最大跌幅

红星新闻
2026-05-11 20:59:10
蚕豆被点名!医生发现:吃得越多,血糖高患者寿命或越短?真的吗

蚕豆被点名!医生发现:吃得越多,血糖高患者寿命或越短?真的吗

路医生健康科普
2026-05-11 17:37:44
湖南农村学霸高考只考239,班主任不相信查监控,看到真相他哭了

湖南农村学霸高考只考239,班主任不相信查监控,看到真相他哭了

二十一号故事铺
2024-09-28 06:30:02
2026-05-11 22:19:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15185文章数 66862关注度
往期回顾 全部

科技要闻

黄仁勋:你们赶上了一代人一次的大机会

头条要闻

母女二人一年用水量高达400多吨 警方发现背后隐情

头条要闻

母女二人一年用水量高达400多吨 警方发现背后隐情

体育要闻

梁靖崑:可能是最后一届了,想让大家记住这个我

娱乐要闻

“孕妇坠崖案”王暖暖称被霸凌协商解约

财经要闻

宗馥莉罢免销售负责人 部分业务将外包

汽车要闻

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

时尚
游戏
亲子
家居
房产

夏天来了!还是这些穿搭最适合普通人照搬,简单舒适又日常

《天国拯救2》编剧、首席关卡设计师跳槽《巫师4》

亲子要闻

亚太生殖年会重磅发布LILY研究 科学循证守护母婴安全

家居要闻

多元生活 此处无声

房产要闻

产业赋能教育!翰林府与北师大的这场签约,绝不那么简单!

无障碍浏览 进入关怀版