网易首页 > 网易科技 > IT业界 > 正文

"编程奥赛"谷歌OpenAI双双"夺金",高管高喊"历史性时刻"

0
分享至
核心提示
  • 01 谷歌DeepMind和OpenAI的人工智能模型,在被称为“编程界奥运会”的国际大学生程序设计竞赛(ICPC)中,取得了“金牌级”表现。OpenAI的模型解出全部12道题,DeepMind的模型则解出10道,并破解了一道人类选手未能完成的难题。
  • 02 谷歌DeepMind副总裁称其为“迈向通用人工智能(AGI)的历史性时刻”,有望改变诸多科学与工程学科。ICPC执行主任认为,这标志着在定义下一代AI工具和学术标准方面迎来了“关键时刻”。
  • 03 这项成就被认为是继AI在围棋、数学奥赛后取得的又一进展。但也有评论指出,AI公司面临“持续宣称取得突破的巨大压力”,该说法可能“言过其实”。

918日消息,谷歌DeepMind和OpenAI的人工智能模型在素有“编程界奥运会”之称的比赛中展现出了“金牌级”的表现,标志着人工智能技术的发展迎来了一个重要里程碑。

今年9月初,在国际大学生程序设计竞赛(ICPC)全球总决赛上,这些人工智能模型在与全球顶尖人类选手的比拼中取得了上述优异成绩。

该项赛事被公认为全球最负盛名的编程竞赛。谷歌联合创始人谢尔盖·布林(Sergey Brin)和OpenAI首席科学家雅各布·帕乔基(Jakub Pachocki)等知名人士都曾参加过这项赛事。

尽管OpenAI和DeepMind都并非正式参赛者,但OpenAI于周三表示,其人工智能模型的成绩本可以在比赛中拔得头筹。据称,公司最新的GPT-5模型解出了全部12道难题,其中11道是一次性通过的。

由英国诺贝尔奖得主丹米斯·哈萨比斯爵士(Sir Demis Hassabis)领导、总部位于伦敦的DeepMind实验室则表示,其人工智能推理模型Gemini 2.5 Deep Think的总体表现可以在竞赛中位列第二。据悉,该模型解出了12道难题中的10道,还破解了一道所有人类选手都未能完成的难题。

在软件工程师越来越依赖新一代人工智能模型辅助编程的大背景下,这一突破应运而生。

DeepMind的技术已在多项顶级赛事中战胜人类,比如击败世界顶尖围棋选手以及在国际数学奥林匹克竞赛中摘金。今年夏天,OpenAI同样在国际数学奥赛中夺得金牌。

谷歌DeepMind副总裁、谷歌会士(Google Fellow)黎曰国表示:“这是迈向通用人工智能(AGI)的历史性时刻。”他所指的通用人工智能是超越人类能力的系统,数十年来,人工智能研究人员一直在追求这一重大目标。

加州大学伯克利分校电气工程与计算机科学系主任杰拉尼·尼尔森(Jelani Nelson)评价道:“一个纯人工智能系统在没有人类介入的情况下能取得如此成绩,令人惊叹。”尼尔森曾指导过麻省理工学院、哈佛大学和加州大学伯克利分校的多支ICPC参赛队。他补充说,“如果几年前有人告诉我,新技术能在数学和计算机科学领域达到如此水平,我绝不会相信。”

在这场编程竞赛中,三人小组需在5小时内共用一台电脑解决12道高难度编程题,排名依据解题速度、准确性和数量综合评定。本届竞赛中,人类选手最多解出10道题,139支参赛队伍中仅有4支获得金牌。

要解决这些问题,参赛者必须理解复杂的问题,制定逻辑清晰的解题计划,并确保执行过程零失误。解答这种高难度问题还离不开抽象推理能力和创造力。

人工智能相比人类有一个关键优势:无需团队协作。

牛津大学计算机科学副教授、ICPC教练巴尔泰克·克林(Bartek Klin)说:“我指导队伍时,默认他们已经懂得如何解题……我能给的建议只是如何在高压环境下协同合作。”

DeepMind团队使用了“强化学习”技术,即通过奖励期望结果来训练人工智能系统,并用高难度的数学、推理和编程问题对Gemini模型开展了强化训练。

OpenAI则使用其最新的GPT-5模型解决了所有问题,其中最难的一道题是GPT-5和一个实验性推理模型共同破解的。

谷歌DeepMind研究总监兼首席科学家郑恒之(Heng-Tze Cheng)表示,编程竞赛是“终极思维博弈”,因为它要求模型提出新方法并将学习成果泛化,而非简单地记忆解题方法。

但牛津大学的克林认为,在注重速度的编程竞赛环境中取得成功,未必能转化为实际工作中出色的软件开发能力。他说:“在现实世界里,最棘手的问题往往需要花上半年时间去思考。”

虽然Gemini模型解出一道人类选手未能攻克的难题,但也未能解答出所有人类选手完成的题目。DeepMind表示,此次实验表明人工智能模型可以“提供独特新颖的贡献,与人类专家的技能知识形成互补”。

黎曰国表示,这一进步还有望改变需要数学理解和编程能力的诸多科学与工程学科,例如新药研发和计算机芯片设计等。

他说,“解决数学和编程竞赛中的难题是理解人类智能运作方式的关键一步。”

外界评论:是历史性突破还是言过其实?

英国《卫报》撰文称,谷歌DeepMind宣称取得的这项“历史性”人工智能突破,其意义堪比1997年“深蓝”计算机击败国际象棋大师加里·卡斯帕罗夫(Garry Kasparov),以及2016年人工智能战胜人类围棋冠军的里程碑事件。

文章援引黎曰国的话说,“对我而言,这个时刻等同于国际象棋领域的‘深蓝’和围棋领域的AlphaGo时刻,甚至意义更为重大,因为它更接近于解决现实世界的问题,而不仅限于国际象棋和围棋这类受限环境。”

但也有声音给这种说法降温。加州大学伯克利分校计算机科学教授斯图尔特·罗素(Stuart Russell)评论称,“所谓划时代意义的说法似乎有些夸大其词”。他指出人工智能系统在编程任务方面本就表现出色,而当年“深蓝”在国际象棋上的突破“对应用人工智能的现实世界基本没有产生实际影响”。

不过罗素也承认,“要想答对ICPC的题目,代码必须能正确运行(至少要通过有限的测试用例),所以这次的表现可能标志着人工智能编程系统在生成高质量代码的准确性上有所提高。”

罗素提醒道:“人工智能公司持续宣称取得突破的压力巨大。”

牛津大学人工智能基础学Ashall教授迈克尔·伍尔德里奇(Michael Wooldridge)认为,这听起来确实令人振奋,但对其所需计算资源提出了质疑。谷歌拒绝透露具体数据,只是简单提到其解题所用算力超过了普通用户每月250美元订阅谷歌AI Ultra服务、在Gemini应用中所能使用的轻量版Gemini 2.5 Deep Think模型。

ICPC执行主任比尔·鲍彻博士(Dr. Bill Poucher)则这样总结:“Gemini成功进入这一竞技场并取得金牌级成绩,标志着在定义下一代所需的人工智能工具和学术标准方面,我们迎来了关键时刻。”辰辰

延伸阅读
相关推荐
热点推荐
中日战争还没打响,中国可能就先“输”了。

中日战争还没打响,中国可能就先“输”了。

别人都叫我阿腈
2026-03-26 08:03:09
马斯克花440亿买Twitter,2年后估值只剩94亿

马斯克花440亿买Twitter,2年后估值只剩94亿

报错免疫体
2026-03-26 00:32:36
越南5年免签新政策4.1开始实施

越南5年免签新政策4.1开始实施

创作者_cLg1
2026-03-26 09:42:32
炸了!樊振东获德甲天价年薪,1个决定改写世界乒乓格局

炸了!樊振东获德甲天价年薪,1个决定改写世界乒乓格局

乒乓助手
2026-03-24 00:05:50
三甲医院“接管”细胞治疗,80%企业即将退潮

三甲医院“接管”细胞治疗,80%企业即将退潮

深蓝观
2026-03-25 11:21:02
43分6板7助!东契奇一战刷爆多项NBA纪录,追平哈登,致敬乔丹

43分6板7助!东契奇一战刷爆多项NBA纪录,追平哈登,致敬乔丹

世界体育圈
2026-03-26 11:49:39
特朗普支持率公布

特朗普支持率公布

第一财经资讯
2026-03-25 08:31:57
A股:周四中午传来4大消息!A股或开启更大级别调整行情?

A股:周四中午传来4大消息!A股或开启更大级别调整行情?

股市皆大事
2026-03-26 12:24:53
韩媒臆想:中国队欢呼吧,国际足联同意他们替补世界杯

韩媒臆想:中国队欢呼吧,国际足联同意他们替补世界杯

体坛风之子
2026-03-26 07:00:06
Altman发感谢信,16000名被裁程序员集体破防

Altman发感谢信,16000名被裁程序员集体破防

Ping值焦虑
2026-03-25 17:02:40
解禁复出,乔治22中11取28分6板4助4断1帽&下半场23分

解禁复出,乔治22中11取28分6板4助4断1帽&下半场23分

懂球帝
2026-03-26 10:15:03
杜富国的待遇有多高?再多优待,都配不上他的牺牲

杜富国的待遇有多高?再多优待,都配不上他的牺牲

安安说
2026-03-25 11:29:29
5种“夺命花”不要养,家里要有赶快扔,谁不听劝谁吃亏

5种“夺命花”不要养,家里要有赶快扔,谁不听劝谁吃亏

三农老历
2026-03-26 09:42:30
离谱!火箭创NBA历史耻辱!这加时太让人破防了!!

离谱!火箭创NBA历史耻辱!这加时太让人破防了!!

柚子说球
2026-03-26 13:06:33
张雪峰早就防着这一天了:为女儿注册40枚商标,防亲戚父爱太沉重

张雪峰早就防着这一天了:为女儿注册40枚商标,防亲戚父爱太沉重

墨染时光
2026-03-26 07:50:31
明日二月初八是“凶日”,牢记3个忌讳:1不拜、2不问、3不吃

明日二月初八是“凶日”,牢记3个忌讳:1不拜、2不问、3不吃

阿龙美食记
2026-03-25 06:17:12
王皓一家近照,43岁成金牌教练,不缺钱,老婆很漂亮,儿子也打球

王皓一家近照,43岁成金牌教练,不缺钱,老婆很漂亮,儿子也打球

大西体育
2026-03-26 14:24:29
《雍正王朝》演员现状:有人住千万豪宅,有人晚节不保,有人离世

《雍正王朝》演员现状:有人住千万豪宅,有人晚节不保,有人离世

小徐讲八卦
2026-03-24 17:10:05
前球探:切尔西担忧加纳乔的表现,他在曼联的问题又出现了

前球探:切尔西担忧加纳乔的表现,他在曼联的问题又出现了

懂球帝
2026-03-26 12:27:11
人为造神:被推上神坛的郑成功

人为造神:被推上神坛的郑成功

浪子说
2026-03-24 07:13:53
2026-03-26 15:03:00

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

教育
时尚
本地
公开课
军事航空

教育要闻

高考地理中的花海经济

2026年了,最好看的还是“这件针织”!

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版
×