网易首页 > 网易号 > 正文 申请入驻

刚刚,OpenAI内部推理模型斩获IOI 2025金牌!所有AI选手中第一

0
分享至


新智元报道

编辑:定慧

【新智元导读】OpenAI的内部推理模型,又拿下了IOI 2025金牌,击败325名人类选手,总排名第6,AI组第1。该模型沿用IMO金牌版本,无专门训练,限时5小时、50次提交且无联网支持。

刚刚,OpenAI内部推理模型在获得IMO金牌后,又拿下了IOI金牌。


和上次IMO一样,OpenAI 使用了草莓形象来代表这个推理模型。

只不过这次的「草莓」不仅带上了IOI的金牌,而且更加的拟人,这个形象很有可能进化为OpenAI内部推理系统代表形象。


OpenAI宣言的这个「内部推理系统」就是上次拿下IMO金牌,惹出争议的同款模型。

IMO之后,OpenAI对IMO金牌模型进行了全面评估,发现除了数学竞赛之外,它在许多其他领域(包括编程)也是目前最好的模型。

因此,OpenAI决定直接使用完全相同的IMO金牌模型,不做任何更改,并将其应用于IOI的系统中。


OpenAI官方也发帖证实了这个消息。

这个内部推理模型的得分足够高,在今年的IOI线上竞赛中,和人类一起排名位列第6,与其他AI排名则是第1。


Sheryl Hsu表示,这次内部模型参加了IOI的在线AI竞赛项目,一共330位参赛选手。

前5位都是人类。


此次比赛,AI和人类参赛者一样,相同的5小时时间限制,以及最多50次的提交限制次数。

并且,和人类一样,这个推理系统没有「联网」,也没有「RAG」搜索,只能访问基本的终端工具。

这个推理模型并没有针对IOI进行特别训练。

也就是说,除了让模型连接到IOI API外,剩下的一切都靠AI自己推理。

其实去年,OpenAI就参加过IOI比赛,当时以略微低于铜牌分数线的成绩收尾。

仅仅过去一年时间,推理模型的排名就从第49百分位跃升到第98百分位。


OpenAI内部推理模型-IOI金牌团队

不过,就在该消息发布没有多久。

马斯克的Grok也来搅局了!

首先要明确的是,这个「内部推理模型」并不是To C的模型,除了OpenAI内部,没有人能够访问。

那像目前最顶级的商业模型,在IOI上表现如何?

答案是:惨不忍睹。

根据Vals AI的测试结果,目前能在IOI取得领先的商业模型,居然是Grok 4。


首先,目前所有的顶尖模型都存在明显不足,没有一个模型能在任意一年的比赛中获得奖牌。

Grok 4以26.2%的准确率领先,随后是GPT-5、Gemini 2.5 Pro和Claude Opus 4.1。

Vals AI通过其公开端点进行测试,所有商业模型在IOI上仍有很大的改进空间。


此外Vals AI这次测试中发现,「贵就是好」的道理也适用于大模型领域。

只有每道问题超过2美元的昂贵模型,才能取得有意义的表现。


也就是说,OpenAI实验室里的那个推理模型,要远远强过目前公众能够接触到的商业模型。


这可能给人们带来很多遐想,目前最顶尖实验室中的最先进的AI技术距离公众还有多远?

这引发了很多猜测和讨论。

从IMO金牌闹剧中可以看到,巨头们对于这种「领先地位」的追求非常强。

谷歌Gemini为了给自己正名为「首个获得IMO金牌的AI模型」,甚至有组委会出面宣布「OpenAI的宣布」是无效的。


甚至还有OpenAI被曝IMO金牌造假,陶哲轩揭露内幕的桥段。

目前GPT-5刚刚发布,OpenAI就马上宣布IOI金牌,可以预测,这应该就是给后来的Gork 5和Gemini 3等模型准备的挑战。

为何OpenAI、谷歌、Anthropic、Grok等巨头们痴迷于刷榜和竞赛通关?

巨头们对刷榜和竞赛排名的痴迷,根本上源自AI行业的高度竞争性和技术的快速迭代。

首先,刷榜是最直接有效的营销手段之一。

排名榜单上的领先位置不仅意味着技术优势,更代表了市场影响力和品牌认可度。一旦模型在权威比赛如IMO、IOI中斩获佳绩,企业便能迅速树立强大的品牌形象,吸引公众关注并提升用户信任。

其次,AI领域的竞赛排名通常与模型的通用性能和应用潜力高度相关。无论是IMO还是IOI,这些比赛考验的是模型的基础推理、逻辑推演和泛化能力。

换句话说,竞赛胜出代表着模型不仅在特定任务上表现优异,更意味着其在更广泛的应用场景中可能具有领先的技术优势。

最后,竞赛胜出能够大大提高对人才和资本的吸引力。


OpenAI团队前往玻利维亚亲自参加IOI

正因如此,OpenAI、谷歌DeepMind、Meta和Anthropic等AI巨头始终热衷于在竞赛上相互较量,每一次榜单的变动都可能影响AI行业未来的格局。

那么,谁是地表最强AI?

也许这个竞争会一直持续到我们实现AGI的那天吧。

参考资料:

https://x.com/SherylHsu02/status/1954966118680105150


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
同是50多岁,看陶虹和陈松伶就知道,自然和医美老去的区别有多大

同是50多岁,看陶虹和陈松伶就知道,自然和医美老去的区别有多大

洲洲影视娱评
2026-01-25 14:23:43
中国的阳谋奏效!特朗普心态已崩,五角大楼:请33国防长迅速赴美

中国的阳谋奏效!特朗普心态已崩,五角大楼:请33国防长迅速赴美

林子说事
2026-01-25 05:37:21
屎山代码改不动!曝《时之砂RE》90%由印度团队开发

屎山代码改不动!曝《时之砂RE》90%由印度团队开发

游民星空
2026-01-24 11:11:19
三千外军考虑撤台,新加坡支持大陆立场,台当局警告勿乱讲话

三千外军考虑撤台,新加坡支持大陆立场,台当局警告勿乱讲话

快乐彼岸
2026-01-25 14:49:29
“玄学大师”隋广义等80人被公诉,千亿非法集资骗局进入末路!

“玄学大师”隋广义等80人被公诉,千亿非法集资骗局进入末路!

野马财经
2026-01-24 22:32:17
李湘被质疑利用王诗龄洗钱,其画成为她工具,与大和尚黑历史被挖

李湘被质疑利用王诗龄洗钱,其画成为她工具,与大和尚黑历史被挖

花哥扒娱乐
2026-01-19 20:15:26
收到梅西球衣后落泪,利马联盟前锋坎特罗:梅西是我的偶像

收到梅西球衣后落泪,利马联盟前锋坎特罗:梅西是我的偶像

懂球帝
2026-01-25 13:53:36
末节11分率队逆转,詹姆斯全场16中8拿下17分8板5助,正负值-8

末节11分率队逆转,詹姆斯全场16中8拿下17分8板5助,正负值-8

懂球帝
2026-01-25 12:18:46
央媒“点名”,暴露45岁宋佳真实处境,原来张艺谋一个字都没说错

央媒“点名”,暴露45岁宋佳真实处境,原来张艺谋一个字都没说错

胡一舸南游y
2026-01-25 14:40:13
豪华阵容在手,仅2中锋可用!火箭迎用人荒,放弃11+6高塔欠考虑

豪华阵容在手,仅2中锋可用!火箭迎用人荒,放弃11+6高塔欠考虑

熊哥爱篮球
2026-01-25 13:48:01
过渡芯片?特斯拉或将在HW5.0前推出HW4.5版本

过渡芯片?特斯拉或将在HW5.0前推出HW4.5版本

沙雕小琳琳
2026-01-25 14:24:15
特大冬季风暴来袭 美国三分之二人口面临冰雪灾害

特大冬季风暴来袭 美国三分之二人口面临冰雪灾害

新华社
2026-01-24 15:39:27
理发不可乱挑时辰,老道士讲述:每天只可在这几个时辰剪发

理发不可乱挑时辰,老道士讲述:每天只可在这几个时辰剪发

古怪奇谈录
2026-01-21 14:28:12
周末信息如何影响市场?明天是红色星期一?还是黑色星期一?

周末信息如何影响市场?明天是红色星期一?还是黑色星期一?

春江财富
2026-01-25 09:17:41
统一台湾的最大障碍,不是美国和台独,而是“中华民国”这个称号

统一台湾的最大障碍,不是美国和台独,而是“中华民国”这个称号

掉了颗大白兔糖
2025-12-06 07:17:04
肯德基,被迫改名PFK

肯德基,被迫改名PFK

设计癖
2026-01-24 12:13:41
国家体育总局、中国足协电贺U23国足创造历史最佳成绩

国家体育总局、中国足协电贺U23国足创造历史最佳成绩

新华社
2026-01-25 03:06:06
19岁李嫣跟老爸聚餐!手不离烟动作熟练,170cm身材干瘪太像王菲

19岁李嫣跟老爸聚餐!手不离烟动作熟练,170cm身材干瘪太像王菲

一娱三分地
2025-08-14 13:28:27
纪实:女子强迫情夫老公三人同床,逼丈夫看两人苟合,结局酿惨案

纪实:女子强迫情夫老公三人同床,逼丈夫看两人苟合,结局酿惨案

谈史论天地
2026-01-23 10:04:14
疯狂6-0!法布雷加斯制造惨案,超越尤文图斯,逼近欧冠区

疯狂6-0!法布雷加斯制造惨案,超越尤文图斯,逼近欧冠区

足球狗说
2026-01-24 23:54:02
2026-01-25 15:20:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14407文章数 66527关注度
往期回顾 全部

科技要闻

黄仁勋在上海逛菜市场,可能惦记着三件事

头条要闻

霉霉翻车了:短信中爆粗辱骂闺蜜的导演 口碑急剧下跌

头条要闻

霉霉翻车了:短信中爆粗辱骂闺蜜的导演 口碑急剧下跌

体育要闻

中国足球不会一夜变强,但他们已经创造历史

娱乐要闻

王玉雯方严正声明 剧方回应:涉事人员已被开除

财经要闻

隋广义等80人被公诉 千亿骗局进入末路

汽车要闻

别克至境E7内饰图曝光 新车将于一季度正式发布

态度原创

本地
艺术
数码
家居
时尚

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

艺术要闻

全认识这13个字的人,能否复印王羲之的作品?

数码要闻

消息称带屏版苹果HomePod今年春季发布

家居要闻

在家度假 160平南洋混搭宅

2025年度榜单|| 真金白银票选出来的“真爱”,今天破价1.6折!

无障碍浏览 进入关怀版