网易首页 > 网易号 > 正文 申请入驻

创历史!GPT-5全球顶尖大赛夺冠,人类屈居第二,北交大团队国内第一

0
分享至


智东西
编译 程茜
编辑 李水青

智东西9月18日消息,今天凌晨,OpenAI和谷歌前后脚宣布,自家模型在全球知名编程竞赛ICPC 2025获得金牌级别的表现。

OpenAI推理系统答对了全部12道题目,并且一次性答对11道题,最难的题目提交了9次后成功,与人类团队相比可排第一Gemini 2.5 Deep Think高级版本在677分钟内解出10道题,与人类团队相比可位列第二



ICPC的要求是参赛者在5个小时内解出12道复杂算法问题,解题方案是否完美、解题耗时都会影响积分。

最终139支队伍中获得金牌的只有前四名,分别为圣彼得堡国立大学、东京大学、北京交通大学、清华大学,解出题目最多的是圣彼得堡国立大学,共11道。


▲ICPC拿下金牌的人类团队

这是继2个月前,OpenAI推理系统、谷歌Gemini 2.5 Deep Think在国际数学奥林匹克竞赛(IMO)之后,又一次在顶尖国际竞赛中证明了自己的实力。

谷歌Gemini 2.5 Deep Think高级版本参加ICPC总决赛的代码已经在GitHub开源。

GitHub地址:https://github.com/google-deepmind/gemini_icpc2025

一、OpenAI拿下满分,谷歌错两道

ICPC是全球公认的历史最悠久、规模最大、最负盛名的大学级算法编程竞赛,每年来自近3000所大学和超过103个国家的参与者竞相解决现实世界的编程问题。

OpenAI和谷歌都参与并获得金牌级别表现,OpenAI推理系统解答了12道题,谷歌Gemini 2.5 Deep Think高级版本答出10道题,最好的人类团队答出11道题

1、OpenAI:拿下满分,11道题一次就做对

OpenAI推理系统获得满分。


OpenAI提到并没有专门为ICPC训练模型,其采用通用推理模型组合的方式参赛。

比赛中,GPT-5与一款实验性推理模型共同生成解题方案,由该实验性推理模型负责筛选待提交的方案。最终,GPT-5正确解答了11道题目,而最后一道也是难度最高的一道题目由这款实验性推理模型解决。

其模型一次性答对了11道题,最难的问题在第9次提交时成功了。

2、谷歌:答对10道题,45分钟解出8道题

Gemini 2.5 Deep Think高级版本按照ICPC规则在远程在线环境中进行现场比赛,比人类参赛者晚10分钟开始。Gemini总共花费677分钟,解决了12个问题中的10个,其中8个花费45分钟,另外2个问题花费3个小时。

下图是2025年ICPC总决赛中解决每个问题所用的时间,Gemini所花的时间以蓝色显示,最快的大学生团队的时间以灰色显示。

Gemini在3道题目上的解题时间都超过了人类


▲ICPC总决赛中解决每个问题所用的时间

此外,谷歌DeepMind还提到一道困住所有人类团队的难题,被Gemini在半小时内成功解答。

问题C要求团队设计一套解决方案,通过相互连接的管道网络将液体输送至一组储液罐,目标是找到一种管道配置,以最快速度将所有储液罐注满。

该问题存在无限多种可能的配置,因为每条管道均可处于开启、关闭甚至部分开启的状态,这使得寻找最优配置的难度极大。


▲问题C简介

Gemini找到了有效的解决方案:它首先假设每个水库都有一个“优先级值”,代表每个水库与其他水库相比应该获得的优先程度。

当给定一组优先级值时,可以使用动态规划算法找到管道的最佳配置。

Gemini发现,通过应用极小极大定理(Minimax Theorem),原问题可转化为寻找能使最终流量受到最大约束的优先级数值。

借助优先级数值与最优流量之间的关联,Gemini在类似碗状的凸性解空间中,通过嵌套三分搜索(Nested Ternary Searches)快速找到最优优先级数值,最终解决了C题。

目前订阅Google AI Ultra的Gemini用户已经可以在Gemini App中使用轻量级版本的Gemini 2.5 Deep Think。

二、ICPC金牌水平,展现大模型抽象推理能力

谷歌DeepMind的博客中提到,Gemini的表现得益于其在预训练、训练后、强化学习技术、多步骤推理和平行思维方面的技术创新。

例如,在强化学习过程中,研究人员训练Gemini为编程人员面临的一些最困难的问题进行推理和生成代码,从结果反馈中学习并改进其方法。为了解决一个问题,多个Gemini Agent会各自提出自己的解决方案,使用终端执行代码和测试,然后根据所有尝试迭代解决方案。

谷歌DeepMind的内部研究表明,Gemini 2.5 Deep Think高级版本也能在2023年和2024年ICPC世界总决赛中取得金牌级别的表现,表现不亚于全球前20名竞技开发者

在ICPC上获得金牌水平对软件开发具有直接的实际影响,如果将比赛中最好的AI和人类解决方案结合起来,所有12个问题都会得到彻底和正确的解决。这表明AI有潜力提供独特思路,为人类专家提供补充。

除了数学和编程外,Gemini 2.5 Deep Think高级版本还展示了在抽象推理方面的能力。

这是因为,ICPC的问题需要模型理解复杂的问题、设计多步骤的逻辑计划、完美实施,这一过程与许多科学和工程领域所需的技能相同,包括设计新药或微芯片等领域。

OpenAI的研究人员在X上发布帖子称,他们采用同一组模型参加IMO和IOI竞赛,展示了模型性能以及通用型。

结语:大模型复杂抽象问题解决能力提升

从国际数学奥林匹克竞赛(IMO)到此次的编程竞赛,OpenAI以及谷歌的模型在解决更具挑战的数学、推理难题上迸发出巨大潜力。ICPC全球执行董事Bill Poucher博士称,ICPC一直致力于在解决问题方面设定最高标准,Gemini在这一领域取得的成绩,标志着定义下一代所需AI工具和学术标准的关键时刻。

这些在竞争性编程和数学推理方面的突破共同证明了大模型在抽象推理问题解决方面的性能飞跃,或能与人类专家结合,解决更加复杂的难题。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
金靖自曝过完年胖了6斤,怎么工作啊,网友调侃年味都长身上了

金靖自曝过完年胖了6斤,怎么工作啊,网友调侃年味都长身上了

韩小娱
2026-03-01 09:57:40
这是宋美龄年轻时的真实样貌,不是演员饰演,是货真价实的老照片

这是宋美龄年轻时的真实样貌,不是演员饰演,是货真价实的老照片

陈意小可爱
2026-03-02 04:16:33
特朗普:美国开始实施重大作战行动

特朗普:美国开始实施重大作战行动

环球时报国际
2026-02-28 15:56:45
1988年王震怒批纪录片《河殇》:骂共产党,骂公有制,连女排也骂

1988年王震怒批纪录片《河殇》:骂共产党,骂公有制,连女排也骂

阿器谈史
2026-03-01 20:07:33
斯诺克最新积分排名!希金斯升至第9,肖国栋跌出前12,赵心童第2

斯诺克最新积分排名!希金斯升至第9,肖国栋跌出前12,赵心童第2

越岭寻踪
2026-03-01 08:41:27
丹·凯恩将军下命令:暂停联合参谋部主任弗雷德·库彻海军中将职务

丹·凯恩将军下命令:暂停联合参谋部主任弗雷德·库彻海军中将职务

安安说
2026-02-28 09:22:18
渝昆直通线马上开工,重庆真的有必要在巴南再建一个重庆南站吗

渝昆直通线马上开工,重庆真的有必要在巴南再建一个重庆南站吗

金哥说新能源车
2026-03-02 01:07:58
斯诺克赛程:诞生新冠军,吴宜泽终结者2优势,小司机名利双收?

斯诺克赛程:诞生新冠军,吴宜泽终结者2优势,小司机名利双收?

刘姚尧的文字城堡
2026-03-01 09:13:00
59岁宋祖英现身活动状态惊艳!短发利落大气,黑色套装优雅端庄

59岁宋祖英现身活动状态惊艳!短发利落大气,黑色套装优雅端庄

琴声飞扬
2026-02-12 11:51:25
美军航母突然爆炸,中国导弹未能击沉,竟被美国厕纸搞定

美军航母突然爆炸,中国导弹未能击沉,竟被美国厕纸搞定

阿芒娱乐说
2026-03-01 17:03:19
马斯克长子首登Gucci秀场:台步拉满争议,全靠爹的流量撑场

马斯克长子首登Gucci秀场:台步拉满争议,全靠爹的流量撑场

述家娱记
2026-02-28 08:54:00
震撼!曾精确预言911的盲眼神婆预测今年8大事件,有一条暗指中国

震撼!曾精确预言911的盲眼神婆预测今年8大事件,有一条暗指中国

刀刃故事
2024-11-22 01:55:03
荷兰半导体专家:ASML花费40年钻研光刻机,中国企业竟比ASML还狠

荷兰半导体专家:ASML花费40年钻研光刻机,中国企业竟比ASML还狠

策略述
2026-02-28 17:11:40
550万一张机票,携程在发战争财?

550万一张机票,携程在发战争财?

不正确
2026-03-01 14:53:30
“凌晨3点被它嚎醒!”最近,不少深圳人被吵到!网友:又开始了

“凌晨3点被它嚎醒!”最近,不少深圳人被吵到!网友:又开始了

南方都市报
2026-02-27 14:29:30
【专访】秦天:伊朗局势可参考委内瑞拉,警惕全球反美力量进一步削弱

【专访】秦天:伊朗局势可参考委内瑞拉,警惕全球反美力量进一步削弱

界面新闻
2026-03-01 14:44:10
我发现,越来越多的人,在过一种次要生活

我发现,越来越多的人,在过一种次要生活

中产先生
2026-02-26 14:17:45
美军严重误判,五角大楼认为不管咋轰炸中国,解放军都不敢还手

美军严重误判,五角大楼认为不管咋轰炸中国,解放军都不敢还手

空谷幽幽蓝
2026-02-20 21:47:25
姐姐摸了下弟弟的小脚丫,我直接破防了!这画面也太暖了吧!

姐姐摸了下弟弟的小脚丫,我直接破防了!这画面也太暖了吧!

风起见你
2026-03-01 19:49:51
成都小米SU7事故细节进一步曝光,小米汽车再陷安全争议

成都小米SU7事故细节进一步曝光,小米汽车再陷安全争议

澎湃新闻
2026-02-27 19:14:26
2026-03-02 07:07:00
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11274文章数 116984关注度
往期回顾 全部

科技要闻

荣耀发布机器人手机、折叠屏、人形机器人

头条要闻

伊朗多位军事指挥官确认死亡 名单公布

头条要闻

伊朗多位军事指挥官确认死亡 名单公布

体育要闻

火箭输给热火:乌度卡又输斯波教练

娱乐要闻

黄景瑜 李雪健坐镇!38集犯罪大剧来袭

财经要闻

中东局势升级 如何影响A股、黄金和原油

汽车要闻

理想汽车2月交付26421辆 历史累计交付超159万辆

态度原创

旅游
房产
亲子
健康
教育

旅游要闻

春雨落瘦西湖,梅花一开,才是江南真春天!

房产要闻

滨江九小也来了!集齐海侨北+哈罗、寰岛...江东教育要炸了!

亲子要闻

带娃看医生,听懂这几句话少走90%弯路!

转头就晕的耳石症,能开车上班吗?

教育要闻

宁夏大学外国语学院揭秘!96.2%高落实率

无障碍浏览 进入关怀版