网易首页 > 网易号 > 正文 申请入驻

创历史!GPT-5全球顶尖大赛夺冠,人类屈居第二,北交大团队国内第一

0
分享至

智东西9月18日消息,今天凌晨,OpenAI和谷歌前后脚宣布,自家模型在全球知名编程竞赛ICPC 2025获得金牌级别的表现。

OpenAI推理系统答对了全部12道题目,并且一次性答对11道题,最难的题目提交了9次后成功,与人类团队相比可排第一Gemini 2.5 Deep Think高级版本在677分钟内解出10道题,与人类团队相比可位列第二

ICPC的要求是参赛者在5个小时内解出12道复杂算法问题,解题方案是否完美、解题耗时都会影响积分。

最终139支队伍中获得金牌的只有前四名,分别为圣彼得堡国立大学、东京大学、北京交通大学、清华大学,解出题目最多的是圣彼得堡国立大学,共11道。

▲ICPC拿下金牌的人类团队

这是继2个月前,OpenAI推理系统、谷歌Gemini 2.5 Deep Think在国际数学奥林匹克竞赛(IMO)之后,又一次在顶尖国际竞赛中证明了自己的实力。

谷歌Gemini 2.5 Deep Think高级版本参加ICPC总决赛的代码已经在GitHub开源。

GitHub地址:https://github.com/google-deepmind/gemini_icpc2025

一、OpenAI拿下满分,谷歌错两道

ICPC是全球公认的历史最悠久、规模最大、最负盛名的大学级算法编程竞赛,每年来自近3000所大学和超过103个国家的参与者竞相解决现实世界的编程问题。

OpenAI和谷歌都参与并获得金牌级别表现,OpenAI推理系统解答了12道题,谷歌Gemini 2.5 Deep Think高级版本答出10道题,最好的人类团队答出11道题

1、OpenAI:拿下满分,11道题一次就做对

OpenAI推理系统获得满分。

OpenAI提到并没有专门为ICPC训练模型,其采用通用推理模型组合的方式参赛。

比赛中,GPT-5与一款实验性推理模型共同生成解题方案,由该实验性推理模型负责筛选待提交的方案。最终,GPT-5正确解答了11道题目,而最后一道也是难度最高的一道题目由这款实验性推理模型解决。

其模型一次性答对了11道题,最难的问题在第9次提交时成功了。

2、谷歌:答对10道题,45分钟解出8道题

Gemini 2.5 Deep Think高级版本按照ICPC规则在远程在线环境中进行现场比赛,比人类参赛者晚10分钟开始。Gemini总共花费677分钟,解决了12个问题中的10个,其中8个花费45分钟,另外2个问题花费3个小时。

下图是2025年ICPC总决赛中解决每个问题所用的时间,Gemini所花的时间以蓝色显示,最快的大学生团队的时间以灰色显示。

Gemini在3道题目上的解题时间都超过了人类

▲ICPC总决赛中解决每个问题所用的时间

此外,谷歌DeepMind还提到一道困住所有人类团队的难题,被Gemini在半小时内成功解答。

问题C要求团队设计一套解决方案,通过相互连接的管道网络将液体输送至一组储液罐,目标是找到一种管道配置,以最快速度将所有储液罐注满。

该问题存在无限多种可能的配置,因为每条管道均可处于开启、关闭甚至部分开启的状态,这使得寻找最优配置的难度极大。

▲问题C简介

Gemini找到了有效的解决方案:它首先假设每个水库都有一个“优先级值”,代表每个水库与其他水库相比应该获得的优先程度。

当给定一组优先级值时,可以使用动态规划算法找到管道的最佳配置。

Gemini发现,通过应用极小极大定理(Minimax Theorem),原问题可转化为寻找能使最终流量受到最大约束的优先级数值。

借助优先级数值与最优流量之间的关联,Gemini在类似碗状的凸性解空间中,通过嵌套三分搜索(Nested Ternary Searches)快速找到最优优先级数值,最终解决了C题。

目前订阅Google AI Ultra的Gemini用户已经可以在Gemini App中使用轻量级版本的Gemini 2.5 Deep Think。

二、ICPC金牌水平,展现大模型抽象推理能力

谷歌DeepMind的博客中提到,Gemini的表现得益于其在预训练、训练后、强化学习技术、多步骤推理和平行思维方面的技术创新。

例如,在强化学习过程中,研究人员训练Gemini为编程人员面临的一些最困难的问题进行推理和生成代码,从结果反馈中学习并改进其方法。为了解决一个问题,多个Gemini Agent会各自提出自己的解决方案,使用终端执行代码和测试,然后根据所有尝试迭代解决方案。

谷歌DeepMind的内部研究表明,Gemini 2.5 Deep Think高级版本也能在2023年和2024年ICPC世界总决赛中取得金牌级别的表现,表现不亚于全球前20名竞技开发者

在ICPC上获得金牌水平对软件开发具有直接的实际影响,如果将比赛中最好的AI和人类解决方案结合起来,所有12个问题都会得到彻底和正确的解决。这表明AI有潜力提供独特思路,为人类专家提供补充。

除了数学和编程外,Gemini 2.5 Deep Think高级版本还展示了在抽象推理方面的能力。

这是因为,ICPC的问题需要模型理解复杂的问题、设计多步骤的逻辑计划、完美实施,这一过程与许多科学和工程领域所需的技能相同,包括设计新药或微芯片等领域。

OpenAI的研究人员在X上发布帖子称,他们采用同一组模型参加IMO和IOI竞赛,展示了模型性能以及通用型。

结语:大模型复杂抽象问题解决能力提升

从国际数学奥林匹克竞赛(IMO)到此次的编程竞赛,OpenAI以及谷歌的模型在解决更具挑战的数学、推理难题上迸发出巨大潜力。ICPC全球执行董事Bill Poucher博士称,ICPC一直致力于在解决问题方面设定最高标准,Gemini在这一领域取得的成绩,标志着定义下一代所需AI工具和学术标准的关键时刻。

这些在竞争性编程和数学推理方面的突破共同证明了大模型在抽象推理问题解决方面的性能飞跃,或能与人类专家结合,解决更加复杂的难题。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
广东3消息!大外仍未到队,徐杰被曝患肠胃炎,球迷怀念黑山外教

广东3消息!大外仍未到队,徐杰被曝患肠胃炎,球迷怀念黑山外教

多特体育说
2026-04-19 11:21:28
她因长得漂亮,被日本兵拖进炮楼,一晚上遭受50多个鬼子的折磨

她因长得漂亮,被日本兵拖进炮楼,一晚上遭受50多个鬼子的折磨

凡人聊史
2026-04-11 03:06:57
广东人请客吃饭,为什么从不当众说“我买单”?

广东人请客吃饭,为什么从不当众说“我买单”?

西莫的艺术宫殿
2026-04-18 09:44:38
10亿违建豪宅一夜推平,背后“大人物”被扒,官媒:一点都不冤!

10亿违建豪宅一夜推平,背后“大人物”被扒,官媒:一点都不冤!

网络易不易
2026-04-19 06:05:07
西伯利亚:吃不完的鹿肉,收不完的粮;砍不完的森林,挖不完的矿

西伯利亚:吃不完的鹿肉,收不完的粮;砍不完的森林,挖不完的矿

小莜读史
2026-04-17 20:53:45
埃梅里三年半实验:一支中游球队的欧冠野望

埃梅里三年半实验:一支中游球队的欧冠野望

赛场名场面
2026-04-19 11:52:01
苹果首次成为全球手机市场第一!份额21%,三星20%,这回是真的了

苹果首次成为全球手机市场第一!份额21%,三星20%,这回是真的了

数码Antenna
2026-04-16 11:52:53
4月21日油价调整!不是近5毛,别被忽悠

4月21日油价调整!不是近5毛,别被忽悠

沙雕小琳琳
2026-04-18 20:41:21
郑丽文:访陆前后像变了一个人?是大陆给予了她定力与底气

郑丽文:访陆前后像变了一个人?是大陆给予了她定力与底气

浪子阿邴聊体育
2026-04-19 04:57:38
王思聪女儿成留守儿童!黄一鸣直言人各有命,把女儿送回安徽老家

王思聪女儿成留守儿童!黄一鸣直言人各有命,把女儿送回安徽老家

八卦王者
2026-04-19 11:35:47
民进党,极有可能在下一届台湾地区选举后,成为长期一家独大政党

民进党,极有可能在下一届台湾地区选举后,成为长期一家独大政党

李橑在北漂
2026-04-02 10:22:26
81年宋庆龄病重住院,邓小平特意前去探望后,当即下达了一道命令

81年宋庆龄病重住院,邓小平特意前去探望后,当即下达了一道命令

谈古论今历史有道
2026-04-18 19:20:03
英超教练市场疯了:官宣离队24小时,水晶宫砸重金抢人

英超教练市场疯了:官宣离队24小时,水晶宫砸重金抢人

赛场名场面
2026-04-19 11:39:15
蒋介石私生活有多混乱?贴身秘书晚年才敢说破,宋美龄的做法绝了

蒋介石私生活有多混乱?贴身秘书晚年才敢说破,宋美龄的做法绝了

芊芊子吟
2026-04-12 21:20:03
咽不下委国肥肉,美国尝尽苦果:中国一滴不买,特朗普降价求接盘

咽不下委国肥肉,美国尝尽苦果:中国一滴不买,特朗普降价求接盘

杰丝聊古今
2026-04-18 16:10:19
国家工作人员巨额财产来源不明罪新规立案标准从30万提高到300万

国家工作人员巨额财产来源不明罪新规立案标准从30万提高到300万

深度报
2026-04-17 22:54:19
有没有人敢爆自己的瓜?网友:确定玩这么大吗?

有没有人敢爆自己的瓜?网友:确定玩这么大吗?

夜深爱杂谈
2026-02-18 20:55:58
沉默2天后,中方通告全球,藏南是中国领土,并送给印度一个忠告

沉默2天后,中方通告全球,藏南是中国领土,并送给印度一个忠告

通文知史
2026-04-19 11:55:07
生涯19次打进季后赛有多难!NBA仅三人做到,41岁老詹比肩2大传奇

生涯19次打进季后赛有多难!NBA仅三人做到,41岁老詹比肩2大传奇

大卫的篮球故事
2026-04-18 12:29:48
网签零成交!北京建国门九号搁浅21年入市后,面临盈利大考

网签零成交!北京建国门九号搁浅21年入市后,面临盈利大考

中国房地产报官方号
2026-04-17 11:51:16
2026-04-19 12:44:49
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
11630文章数 117035关注度
往期回顾 全部

科技要闻

50分26秒破人类纪录!300台机器人狂飙半马

头条要闻

牛弹琴:伊朗遭到特朗普"羞辱"被激怒 结果印度遭了殃

头条要闻

牛弹琴:伊朗遭到特朗普"羞辱"被激怒 结果印度遭了殃

体育要闻

掘金擒狼开门红:五花肉与小辣椒

娱乐要闻

张天爱评论区沦陷!被曝卷入小三风波

财经要闻

华谊兄弟,8年亏光85亿

汽车要闻

29分钟大定破万 极氪8X为什么这么多人买?

态度原创

家居
亲子
游戏
数码
公开课

家居要闻

法式线条 时光静淌

亲子要闻

不能隐瞒爸爸妈妈的四件事儿

Switch 2第一方打骨折!三款大作价格直接腰斩

数码要闻

小米REDMI Buds 8预热:11mm高性能动圈单元,单耳轻至5g

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版