网易首页 > 网易号 > 正文 申请入驻

谷歌Deep Think八语奥赛屠榜!自主攻克4大未解难题,科研壁垒崩塌

0
分享至


新智元报道

编辑:元宇

【新智元导读】谷歌Deep Think横扫亚欧多语种竞赛,AI科研工具的语言壁垒正在被拆掉,数学与科学发现进入AI驱动新时代。

「Deep Think」在所有竞赛中都击败/媲美竞争对手」!

刚刚,Google DeepMind高级研究员Conglong Li在X平台连发12条帖子,甩出了一张前所未见的成绩单。



一个AI,同一个大脑,八张不同语言的试卷,全部高分交卷。

在任何一个模型身上,这样的成绩实属罕见。

从IMO金牌到区域赛全覆盖

这次Deep Think拿下多个榜单高分,并非突然的单点爆发,而是一条已经持续了近一年的能力演进曲线。

首先登顶最硬核的推理赛场。

2025年7月,Gemini Deep Think首次在国际数学奥林匹克(IMO)达到金牌标准,42分拿下35分。同期在ICPC世界决赛也取得类似高水平表现。

这两个成绩,DeepMind官方博客已经正式公布。

Google DeepMind随后把这两项成绩都写进了官方博客,作为Deep Think迈过数学与编程「世界级竞赛门槛」的标志。

接着,Deep Think开始从「世界冠军级单项突破」,走向「跨语言、跨学科、跨场景的系统验证」。

2026年2月,Google连发三篇博客。

一篇介绍Gemini 3.1 Pro模型本体,一篇介绍Deep Think专用推理模式的重大升级,一篇来自DeepMind科学发现团队,直接把Deep Think定位成「人类智力倍增器」。

升级后的Deep Think交出了一串硬指标:

Humanity's Last Exam拿下48.4%(无工具辅助),ARC-AGI-2达到84.6%(ARC Prize基金会官方验证),Codeforces竞赛编程Elo评分3455,2025国际物理奥赛和化学奥赛笔试部分达到金牌水平。


这条路线非常清楚:先用IMO、ICPC这样的世界级竞赛,证明它的强大推理能力,然后再用多语种、区域赛和跨学科奥赛成绩,证明它的跨语言、跨领域稳定迁移的通用深度推理能力。


Gemini Deep Think从IMO金牌到PhD级科研加速的能力演进

8语言成绩单逐项细看

现在,把这张成绩单真正摊开来看。

日语最亮眼。

2025年第35回日本数学奥赛本选(JMO Finals),满分。

ICPC亚洲日本初赛,满分。


其中,JMO本选这项成绩甚至超过了当届最高得分对应的80%水平,达到官方所说的「金奖相当」标准。

法语同样满分,100%。

中文就有意思了。

第41届中国数学奥林匹克(CMO),Deep Think拿到86.3%,相当出色。但中国信息学奥赛(NOI)只有63.3%。

86.3%和63.3%之间的落差,画出了AI推理能力的真实边界。

在数学竞赛里,模型面对的是抽象推导、证明构造和多步演绎,这恰好是Deep Think最擅长的能力带。

但到了信息学竞赛,问题就不只是「想明白」,还包括把逻辑翻译成可执行代码、控制边界条件、兼顾复杂度约束,并且在实现层面避免失误。

前者更接近纯推理,后者则要求「推理+算法设计+工程化实现」同时过关。

其它语种,韩语、印地语、越南语、俄语、葡萄牙语对应的竞赛结果里,Deep Think 也都实现了击败对手或至少持平。

如果把日语、法语、中文再合起来看,这次最不寻常的一点其实不是某一门单科刷到满分,而是同一个模型、同一种Deep Think推理系统,在多种语言的竞赛试卷上,都交出了第一梯队的成绩。

这份成绩单可靠吗?

但这里有一个关键的缺失:

Conglong Li并没有列出竞品的具体对比数据:所有成绩,全部来自Google内部评测。没有第三方独立复现,没有竞赛官方认证,评测方法完全没有公开。

每道题是做一次还是做很多次取最优?推理时用了多少算力?有没有人工提示工程介入?

这些直接影响成绩含金量的细节,也都没提。

还有一点容易被忽略:这些考试全部是各国区域选拔赛,不是国际决赛。

区域赛的题目难度和国际决赛之间,隔着一个量级。

研究员明确说了,这些成绩「将被纳入模型卡」,截至发稿,模型卡尚未正式更新。

所以,目前这仍然好像是一张由考生自己打分、自己公布、尚未交给教务处盖章的成绩单。

多语言科研公平性

被忽视的真正战场

为什么Google要专门花精力做8种语言的区域赛评测?

当前AI推理能力的评测,几乎全部基于英语。

MATH、GSM8K、HumanEval、ARC-AGI……这些都是英语。

全世界的数学家、物理学家、工程师,只要母语不是英语,在使用AI科研工具时都要先过一道语言关。

Google选的这8种语言不是随机的。

日语、韩语、中文覆盖东亚科研重镇,印地语、越南语覆盖新兴市场,法语、俄语、葡萄牙语覆盖欧洲和南美。

加在一起,这是全球科研产出的大半壁江山。

DeepMind在官方博客里把Deep Think定位为「人类智力倍增器」,说它能「处理知识检索和严格验证,让科学家专注于概念深度和创造性方向」。

结合这次的多语言成绩,这句话的潜台词不难理解:这个倍增器,不仅限英语的科学家用。

更值得注意的是Deep Think在科研落地上已经走了多远。

DeepMind公布了一个叫Aletheia的数学研究智能体,基于Deep Think驱动,能自主生成、验证、修订研究级数学问题的解法。


Aletheia由Deep Think驱动,能够对研究级数学问题进行迭代式生成、验证与修正

Aletheia已经参与产出了多篇研究论文,其中一篇完全由AI自主完成,计算了算术几何中的特定结构常数。


另外,在700个开放数学问题的半自主评估中,它还独立解决了4个此前未解的问题。

Gemini Deep Think模式在计算机科学、物理学、经济学等领域也展现出巨大潜力。

在计算机科学领域,Deep Think帮助推翻了一个悬而未决十年的猜想,在物理学领域找到了宇宙弦引力辐射的新型解析解,在经济学领域扩展了一个拍卖理论定理。


AI推理流程的示意图,展示了在网络层进行的大规模解空间探索如何被汇聚为结构化推理,并通过自动化与人工验证加以确认。

通过与专家合作解决18个研究难题,Gemini Deep Think的高级版本帮助突破了算法、机器学习与组合优化、信息论以及经济学领域长期存在的瓶颈。

这已经远远超出了「做竞赛题」的范畴。

当竞品还在卷英文benchmark排行榜的时候,Google已经在「AI科研加速器」领域找到了新战场。

这件事请最重要的东西其实不是分数,它背后真正的信号是:AI科研工具的语言壁垒正在被当作一个工程问题来解决。

如果这条路走通了,全世界用日语、韩语、中文、印地语做研究的科学家,将第一次和英语母语者站在同一条起跑线上。

这一次,Google已经把牌摊在了桌上。

至于竞争对手谁会跟牌,相信我们很快也将看到。

参考资料:

https://blog.google/intl/ja-jp/company-news/technology/gemini-31-pro-gemini-31-pro-deep-think/%20

https://deepmind.google/blog/accelerating-mathematical-and-scientific-discovery-with-gemini-deep-think/%20

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/%20

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-deep-think/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
郑丽文刚抵沪,沉默8天的赖清德重申愿和大陆交流,但有一个前提

郑丽文刚抵沪,沉默8天的赖清德重申愿和大陆交流,但有一个前提

李健政观察
2026-04-07 18:22:06
伊朗发现重大惊喜,打向以色列的导弹,竟然一颗都没被拦截

伊朗发现重大惊喜,打向以色列的导弹,竟然一颗都没被拦截

策略述
2026-04-08 13:54:01
越南选出新领导层,哪些变与不变?

越南选出新领导层,哪些变与不变?

新民周刊
2026-04-08 09:10:05
郑丽文书法争议:她的字真的不是自己写的吗?

郑丽文书法争议:她的字真的不是自己写的吗?

书画相约
2026-04-08 08:19:04
郑丽文刚落地上海,就传出不寻常信号!6天后,两岸会有大动作?

郑丽文刚落地上海,就传出不寻常信号!6天后,两岸会有大动作?

闫树军论评
2026-04-07 16:29:13
iPhone信号差!苹果官方实锤:关掉这2个默认开关,立刻稳回满格

iPhone信号差!苹果官方实锤:关掉这2个默认开关,立刻稳回满格

小兔子发现大事情
2026-04-07 07:13:58
1978年,陈丽华丈夫迟重瑞的留影,这年迟重瑞26岁

1978年,陈丽华丈夫迟重瑞的留影,这年迟重瑞26岁

有态度网友19uQxk
2026-04-08 07:24:14
“我争的不是名额,是规则”:39岁落榜大叔,实名举报复试第1

“我争的不是名额,是规则”:39岁落榜大叔,实名举报复试第1

教师吧
2026-04-07 22:08:29
全网泪目!张雪峰团队正式复播,人气爆棚

全网泪目!张雪峰团队正式复播,人气爆棚

雷科技
2026-04-08 10:36:59
陈丽华辞世遗产落定,“唐僧” 迟重瑞的养老安排令人意外

陈丽华辞世遗产落定,“唐僧” 迟重瑞的养老安排令人意外

皮蛋儿电影
2026-04-07 22:28:39
被认定辱骂浙江外援!曝22岁重庆国脚遭追加处罚 至少禁2场+罚2万

被认定辱骂浙江外援!曝22岁重庆国脚遭追加处罚 至少禁2场+罚2万

我爱英超
2026-04-08 15:23:11
夺冠背后,新和成与张雪的同频回答

夺冠背后,新和成与张雪的同频回答

新和成
2026-04-08 14:01:18
价格腰斩,300万跌至150万!以前中产眼里的稀缺资产已成烫手山芋

价格腰斩,300万跌至150万!以前中产眼里的稀缺资产已成烫手山芋

小熊侃史
2026-04-08 09:49:28
“霍尔木兹决战”,紧急叫停了

“霍尔木兹决战”,紧急叫停了

中国新闻周刊
2026-04-08 11:48:29
山东新和成的春天朋友圈这样发!

山东新和成的春天朋友圈这样发!

新和成
2026-04-08 14:03:31
尘埃落定!世乒赛大名单确定,樊振东做出牺牲,温瑞博被寄予厚望

尘埃落定!世乒赛大名单确定,樊振东做出牺牲,温瑞博被寄予厚望

曹说体育
2026-04-08 12:12:29
零缓冲!全国一刀切!6月1日起,车主自己去车管所“横着走”!

零缓冲!全国一刀切!6月1日起,车主自己去车管所“横着走”!

混沌录
2026-04-07 22:00:19
陈光标又闹笑话了,火速删掉博文!

陈光标又闹笑话了,火速删掉博文!

葱哥说
2026-04-08 13:12:40
西部季后赛直通6席全部确定!森林狼搭上末班车,太阳将战附加赛

西部季后赛直通6席全部确定!森林狼搭上末班车,太阳将战附加赛

全景体育V
2026-04-08 13:55:16
女子自助餐一次吃12个汉堡,第三次光顾被老板拒绝接待后发帖吐槽,老板称对方引导舆论遭网友骚扰,已报警

女子自助餐一次吃12个汉堡,第三次光顾被老板拒绝接待后发帖吐槽,老板称对方引导舆论遭网友骚扰,已报警

极目新闻
2026-04-08 11:40:06
2026-04-08 16:19:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14925文章数 66754关注度
往期回顾 全部

科技要闻

造出地表最强AI,却死活不给你用!

头条要闻

达里奥:新世界大战正在"酝酿"中 美伊战争只是一部分

头条要闻

达里奥:新世界大战正在"酝酿"中 美伊战争只是一部分

体育要闻

40岁,但实力倒退12年

娱乐要闻

杨颖邓超低调现身观众席 支持陈赫话剧

财经要闻

天津海河乳业回应直播间涉黄

汽车要闻

5门5座/新复古造型 缤果Pro将于4月14日开启预售

态度原创

亲子
游戏
家居
时尚
军事航空

亲子要闻

拉屎操分享来啦,缓解孕期便秘

Apex、GTA免费加速器再添一员!每天0-16点永久免费加速!

家居要闻

自在恣意 侘寂风别墅

防晒专场|| 几十块到手,回购一年多才来推荐

军事要闻

文化符号当“弹药” 美伊将信息战带入新阶段

无障碍浏览 进入关怀版