网易首页 > 网易号 > 正文 申请入驻

谷歌AI获IMO“唯一金牌”,硅谷夹道祝贺,奥特曼丢人又丢人

0
分享至

  • 克雷西 发自 凹非寺
    量子位 | 公众号 QbitAI

谷歌Gemini拿下了IMO金牌,而且是官方认证的那种。

经过IMO官方裁判评分,Gemini新模型答对了6道题中的5道,以35分的成绩斩获金牌。

斩获金牌的是Gemini的一个进阶版本,搭载了新的思考模式,后期会开放给Google AI Ultra订阅用户——也就月付1400元那种。

去年三天摘银,今年4.5小时夺金,DeepMind的数学成绩可以说是突飞猛进。

除了DeepMind CEO哈萨比斯、谷歌CEO劈柴哥给团队发来贺电,马斯克也发推表示了祝贺。

DeepMind这波可谓是被各界夹道祝贺,做得体面又周到。

但DeepMind被夸得越好,OpenAI就越发相形见绌,同样是AI参赛IMO,秘密搞事情也就算了,还为了营销跟人类青少年抢风头。

奥特曼治下的OpenAI,最近除了丢人就丢人了。

DeepMind官宣AI拿下IMO金牌

DeepMind公告显示,Gemini新模型做对了今年IMO六道题中的五道,获得了35分。

并且这一成绩,也获得了IMO主席Gregor Dolinar的亲自认证:

  • 我们可以确认,谷歌DeepMind已达到人们梦寐以求的里程碑,获得了35分(满分42分)——堪称金牌。
    他们的解决方案在很多方面都令人惊叹。IMO评分员认为这些解决方案清晰、精准,而且大多数都易于理解。

不仅评分遵循IMO未公开的规则,所用时间标准也和人类选手完全一致——4.5小时之内答完交卷。

而去年DeepMind的银牌成绩,是用AlphaProof和AlphaGeometry一起做了三天才获得的。

这次不仅用时更短,答题过程也是全程自然语言、端到端完成,不再像去年那样专门修改题目格式。

DeepMind高级科学家兼IMO团队负责人Thang Luong表示,这与去年相比是一个范式转变。

此外,DeepMind研究员、布朗大学教授Junehyuk Jung介绍,在今年的第三题中,很多人类选手使用了研究生水平的方案(IMO为高中竞赛),但Gemini仅使用了初等数论知识就给出了自洽的证明。

Jung还表示,Gemini没答对的最后一题,是一开始方向就错了,不过人类选手中做对这道题的也只有五个人。

顺便说一下,谷歌已经将Gemini做对的五道题的答案完整公开(链接见文末),有兴趣的话可以验证一下~

这次DeepMind用来参赛的,是一款暂未公开的全新模型,搭载了Deep Think推理模式。

DeepMind介绍,Gemini Deep Think是一种针对复杂问题的增强型推理模式,融合了其最新的一些研究技术,包括并行思维。

这种模式使模型能够同时探索并组合多种可能的解决方案,最终得出最终答案,而不是追求单一的线性思维链。

为了充分利用Deep Think的推理能力,DeepMind额外训练了 Gemini 的这一版本,使其能够利用更多多步推理、问题求解和定理证明数据。

此外DeepMind还为Gemini提供了精选的高质量数学题库,并在其指令中添加了一些关于如何解答IMO题目的通用提示和技巧。

如哈萨比斯所说,该模型已经提供给数学家等人群进行小范围测试,后续会开放给Google AI Ultra订阅用户使用。

当然,DeepMind今天的官宣,也是获得了各种称赞。

DeepMind宣布成绩,被硅谷夹道欢迎

包括来自友商的称赞在内,DeepMind获得了整个硅谷的夹道欢迎。

除了开头马斯克那句简单的Congrats之外,还有Meta AI科学家称赞Gemini给出了清晰、精准、非常适合自学的解决方案。

受欢迎的原因,不仅是表现优秀,也包括谷歌对IMO规则的尊重。

Gemini参加挑战是受到了IMO官方邀请,所有规则标准都和人类一致。

并且,DeepMind也遵守了IMO官方的要求,没有急于宣布结果。

仔细研究哈萨比斯的推文,只字未提OpenAI,但又处处在针对OpenAI。

哈萨比斯的三条回复,主要强调了这么几点:官宣是没有抢跑的,成绩是IMO认证的,模型也是未来可用的。

这三点,刚好和抢先宣布夺金结果被锤的OpenAI形成了鲜明对比。

IMO评审团和协调员们普遍认为,AI开发商在IMO期间(尤其是闭幕式之前)宣布成绩是“粗鲁且不恰当的”。

除了公告发布时间的问题,OpenAI到底得没得金牌也有争议。

领导DeepMind超级推理团队的Thang Luong补充,IMO内部其实有一份官方评分指南,外部无法获取。没有基于该指南的评分就没有资格获得奖牌。

这届IMO共6道题,每题7分。金牌线35分,OpenAI自报的成绩也刚刚过线,即使是解答过程中微小的扣分都可能让OpenAI从金牌跌到银牌。

有网友评价:OpenAI一如既往的为了炒作什么都干得出来。没有官方分数,没有耐心,也没有羞耻心。

此外,OpenAI参赛用的模型也是未公开版本,并且可能以后也不会公开。

总之是处处和谷歌对比鲜明。

OpenAI研究员回应质疑

针对以上这些质疑,OpenAI研究员Noam在给谷歌送出祝福后,也顺带进行了回应:

首先,Noam解释OpenAI没和IMO官方合作不是没收到邀请,而是OpenAI自己拒绝了。

其次是关于作答过程和评分的权威性,Noam表示没有使用RAG或者任何工具,而打分是由3位IMO获奖者给出的。

同时Noam还公开了OpenAI模型的回答,表示任何人都可以检查。

最后是关于宣发时间,Noam表示公布成绩之前和IMO董事会成员进行过沟通,后者要求等到颁奖仪式之后再发布,OpenAI表示接受。

而OpenAI官宣的时间是在太平洋时间凌晨1点,彼时颁奖已经结束,OpenAI没有被要求需要等到更晚的时间再发布。

虽然Noam的解释获得了部分网友的认可,但说一千道一万,网友还是表示倾向于站在谷歌这一边。

总之最近的OpenAI,除了丢人还是丢人。

小扎磨刀霍霍,奥特曼人丢了。

谷歌同场竞技,奥特曼丢人了。

Gemini回答:
https://storage.googleapis.com/deepmind-media/gemini/IMO_2025.pdf
OpenAI回答:
https://github.com/aw31/openai-imo-2025-proofs/
[1]https://deepmind.google/discover/blog/advanced-version-of-gemini-with-deep-think-officially-achieves-gold-medal-standard-at-the-international-mathematical-olympiad/
[2]https://arstechnica.com/ai/2025/07/google-deepmind-earns-gold-in-international-math-olympiad-with-new-gemini-ai/
[3]https://x.com/demishassabis/status/1947337615054671882
[4]https://x.com/polynoamial/status/1947398531259523481

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
医院揭秘:一台10万的手术,主刀医生能拿多少?三甲医生告诉你

医院揭秘:一台10万的手术,主刀医生能拿多少?三甲医生告诉你

谈史论天地
2026-01-31 16:39:54
简直是离谱!马斯克宣布将年产 1000 万台人形机器人

简直是离谱!马斯克宣布将年产 1000 万台人形机器人

XCiOS俱乐部
2026-02-01 13:44:39
中东国家都意识到了:就算中国高端武器再多,也没办法保护他们

中东国家都意识到了:就算中国高端武器再多,也没办法保护他们

肖兹探秘说
2026-01-01 20:16:34
央视最新曝光:中美疑似爆发激烈海上交锋,外舰挑衅被我052D锁定

央视最新曝光:中美疑似爆发激烈海上交锋,外舰挑衅被我052D锁定

壹知眠羊
2026-01-27 20:03:05
退货误寄奔驰钥匙后续:商家回应没看到 知情人曝内幕,果然不简单

退货误寄奔驰钥匙后续:商家回应没看到 知情人曝内幕,果然不简单

阿莱美食汇
2026-02-01 15:15:02
英超杀疯了!已100%锁定第五个欧冠名额,八队血拼争五仅差5分!

英超杀疯了!已100%锁定第五个欧冠名额,八队血拼争五仅差5分!

田先生篮球
2026-01-31 14:33:15
斯塔默访华5大意外,最后1条中英网友全懵了

斯塔默访华5大意外,最后1条中英网友全懵了

生活魔术专家
2026-01-31 15:24:13
2月将有4波冷空气,今年春节广州冷吗?最新预报

2月将有4波冷空气,今年春节广州冷吗?最新预报

番禺台
2026-02-01 13:09:36
苏起直言:两岸五年内或将摊牌,被动等待等于死路一条?

苏起直言:两岸五年内或将摊牌,被动等待等于死路一条?

健身狂人
2026-02-01 15:11:24
今晚!CBA战6场,CCTV5直播北京首钢,广东男篮+上海男篮隔空暗战

今晚!CBA战6场,CCTV5直播北京首钢,广东男篮+上海男篮隔空暗战

晚池
2026-02-01 03:17:42
普通人最有效的省钱方式:控糖!

普通人最有效的省钱方式:控糖!

增肌减脂
2026-01-26 15:45:10
克林顿披露:当年为了打赢朝鲜战争,美国共投入了将近200万军队

克林顿披露:当年为了打赢朝鲜战争,美国共投入了将近200万军队

墨兰史书
2026-01-31 07:30:07
演员刘子瑞官宣退出演艺圈!去年刚与李心艾领证,疑似原因曝光

演员刘子瑞官宣退出演艺圈!去年刚与李心艾领证,疑似原因曝光

蒂蒂茱家
2026-02-01 11:32:22
具俊跪在大S墓前哭泣,葛斯齐爆他放弃遗产,是因为交不起遗产税

具俊跪在大S墓前哭泣,葛斯齐爆他放弃遗产,是因为交不起遗产税

无人倾听无人倾听
2026-02-01 03:33:39
老挝放弃中国提案,效仿韩国抄袭三峡大坝技术,大坝溃决后中国持何态度?

老挝放弃中国提案,效仿韩国抄袭三峡大坝技术,大坝溃决后中国持何态度?

史海孤雁
2026-01-30 16:20:15
这就是赤裸裸的差距!国家电网正式员工还有哪些不为人知的福利?

这就是赤裸裸的差距!国家电网正式员工还有哪些不为人知的福利?

原广工业
2026-02-01 15:09:07
26年央视春晚嘉宾名单曝光,牛鬼蛇神混子引争议

26年央视春晚嘉宾名单曝光,牛鬼蛇神混子引争议

杜鱂手工制作
2026-01-06 18:48:05
6岁女孩随家人回老家打扫卫生,吸入大量霉变粉尘,确诊烟曲霉感染,发烧17天,脑子被“啃”20多个洞

6岁女孩随家人回老家打扫卫生,吸入大量霉变粉尘,确诊烟曲霉感染,发烧17天,脑子被“啃”20多个洞

观威海
2026-02-01 10:14:08
惊!2026年立春不一般!2月4日这4类人必须躲春,做错白忙一场

惊!2026年立春不一般!2月4日这4类人必须躲春,做错白忙一场

老特有话说
2026-01-30 22:51:04
白人女性与黑人女性的体味差异,网友真实分享引发热议

白人女性与黑人女性的体味差异,网友真实分享引发热议

特约前排观众
2025-12-22 00:20:06
2026-02-01 16:27:00
量子位 incentive-icons
量子位
追踪人工智能动态
12092文章数 176369关注度
往期回顾 全部

科技要闻

腾讯元宝宣布:10亿现金红包,今日开抢

头条要闻

马斯克曾问爱泼斯坦:岛上哪一晚会有"最疯狂的派对"

头条要闻

马斯克曾问爱泼斯坦:岛上哪一晚会有"最疯狂的派对"

体育要闻

锁喉吃红牌+扇耳光 英超15人打群架

娱乐要闻

马年春晚第三次联排,多位明星现身

财经要闻

黄仁勋台北"夜宴":汇聚近40位台企高管

汽车要闻

岚图汽车1月交付10515辆 同比增长31%

态度原创

手机
旅游
游戏
本地
公开课

手机要闻

不忘中端机!华为畅享70X获鸿蒙OS 6公测,功能不输旗舰

旅游要闻

视界|探访格鲁吉亚哥里城堡

Faker晒照配文:LCK杯加油!

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版