网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

谷歌Deep Think八语奥赛屠榜！自主攻克4大未解难题，科研壁垒崩塌

2026-04-08 12:05:15　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：元宇

【新智元导读】谷歌Deep Think横扫亚欧多语种竞赛，AI科研工具的语言壁垒正在被拆掉，数学与科学发现进入AI驱动新时代。

「Deep Think」在所有竞赛中都击败/媲美竞争对手」！

刚刚，Google DeepMind高级研究员Conglong Li在X平台连发12条帖子，甩出了一张前所未见的成绩单。

一个AI，同一个大脑，八张不同语言的试卷，全部高分交卷。

在任何一个模型身上，这样的成绩实属罕见。

从IMO金牌到区域赛全覆盖

这次Deep Think拿下多个榜单高分，并非突然的单点爆发，而是一条已经持续了近一年的能力演进曲线。

首先登顶最硬核的推理赛场。

2025年7月，Gemini Deep Think首次在国际数学奥林匹克（IMO）达到金牌标准，42分拿下35分。同期在ICPC世界决赛也取得类似高水平表现。

这两个成绩，DeepMind官方博客已经正式公布。

Google DeepMind随后把这两项成绩都写进了官方博客，作为Deep Think迈过数学与编程「世界级竞赛门槛」的标志。

接着，Deep Think开始从「世界冠军级单项突破」，走向「跨语言、跨学科、跨场景的系统验证」。

2026年2月，Google连发三篇博客。

一篇介绍Gemini 3.1 Pro模型本体，一篇介绍Deep Think专用推理模式的重大升级，一篇来自DeepMind科学发现团队，直接把Deep Think定位成「人类智力倍增器」。

升级后的Deep Think交出了一串硬指标：

Humanity's Last Exam拿下48.4%（无工具辅助），ARC-AGI-2达到84.6%（ARC Prize基金会官方验证），Codeforces竞赛编程Elo评分3455，2025国际物理奥赛和化学奥赛笔试部分达到金牌水平。

这条路线非常清楚：先用IMO、ICPC这样的世界级竞赛，证明它的强大推理能力，然后再用多语种、区域赛和跨学科奥赛成绩，证明它的跨语言、跨领域稳定迁移的通用深度推理能力。

Gemini Deep Think从IMO金牌到PhD级科研加速的能力演进

8语言成绩单逐项细看

现在，把这张成绩单真正摊开来看。

日语最亮眼。

2025年第35回日本数学奥赛本选（JMO Finals），满分。

ICPC亚洲日本初赛，满分。

其中，JMO本选这项成绩甚至超过了当届最高得分对应的80%水平，达到官方所说的「金奖相当」标准。

法语同样满分，100%。

中文就有意思了。

第41届中国数学奥林匹克（CMO），Deep Think拿到86.3%，相当出色。但中国信息学奥赛（NOI）只有63.3%。

86.3%和63.3%之间的落差，画出了AI推理能力的真实边界。

在数学竞赛里，模型面对的是抽象推导、证明构造和多步演绎，这恰好是Deep Think最擅长的能力带。

但到了信息学竞赛，问题就不只是「想明白」，还包括把逻辑翻译成可执行代码、控制边界条件、兼顾复杂度约束，并且在实现层面避免失误。

前者更接近纯推理，后者则要求「推理+算法设计+工程化实现」同时过关。

其它语种，韩语、印地语、越南语、俄语、葡萄牙语对应的竞赛结果里，Deep Think 也都实现了击败对手或至少持平。

如果把日语、法语、中文再合起来看，这次最不寻常的一点其实不是某一门单科刷到满分，而是同一个模型、同一种Deep Think推理系统，在多种语言的竞赛试卷上，都交出了第一梯队的成绩。

这份成绩单可靠吗？

但这里有一个关键的缺失：

Conglong Li并没有列出竞品的具体对比数据：所有成绩，全部来自Google内部评测。没有第三方独立复现，没有竞赛官方认证，评测方法完全没有公开。

每道题是做一次还是做很多次取最优？推理时用了多少算力？有没有人工提示工程介入？

这些直接影响成绩含金量的细节，也都没提。

还有一点容易被忽略：这些考试全部是各国区域选拔赛，不是国际决赛。

区域赛的题目难度和国际决赛之间，隔着一个量级。

研究员明确说了，这些成绩「将被纳入模型卡」，截至发稿，模型卡尚未正式更新。

所以，目前这仍然好像是一张由考生自己打分、自己公布、尚未交给教务处盖章的成绩单。

多语言科研公平性

被忽视的真正战场

为什么Google要专门花精力做8种语言的区域赛评测？

当前AI推理能力的评测，几乎全部基于英语。

MATH、GSM8K、HumanEval、ARC-AGI……这些都是英语。

全世界的数学家、物理学家、工程师，只要母语不是英语，在使用AI科研工具时都要先过一道语言关。

Google选的这8种语言不是随机的。

日语、韩语、中文覆盖东亚科研重镇，印地语、越南语覆盖新兴市场，法语、俄语、葡萄牙语覆盖欧洲和南美。

加在一起，这是全球科研产出的大半壁江山。

DeepMind在官方博客里把Deep Think定位为「人类智力倍增器」，说它能「处理知识检索和严格验证，让科学家专注于概念深度和创造性方向」。

结合这次的多语言成绩，这句话的潜台词不难理解：这个倍增器，不仅限英语的科学家用。

更值得注意的是Deep Think在科研落地上已经走了多远。

DeepMind公布了一个叫Aletheia的数学研究智能体，基于Deep Think驱动，能自主生成、验证、修订研究级数学问题的解法。

Aletheia由Deep Think驱动，能够对研究级数学问题进行迭代式生成、验证与修正

Aletheia已经参与产出了多篇研究论文，其中一篇完全由AI自主完成，计算了算术几何中的特定结构常数。

另外，在700个开放数学问题的半自主评估中，它还独立解决了4个此前未解的问题。

Gemini Deep Think模式在计算机科学、物理学、经济学等领域也展现出巨大潜力。

在计算机科学领域，Deep Think帮助推翻了一个悬而未决十年的猜想，在物理学领域找到了宇宙弦引力辐射的新型解析解，在经济学领域扩展了一个拍卖理论定理。

AI推理流程的示意图，展示了在网络层进行的大规模解空间探索如何被汇聚为结构化推理，并通过自动化与人工验证加以确认。

通过与专家合作解决18个研究难题，Gemini Deep Think的高级版本帮助突破了算法、机器学习与组合优化、信息论以及经济学领域长期存在的瓶颈。

这已经远远超出了「做竞赛题」的范畴。

当竞品还在卷英文benchmark排行榜的时候，Google已经在「AI科研加速器」领域找到了新战场。

这件事请最重要的东西其实不是分数，它背后真正的信号是：AI科研工具的语言壁垒正在被当作一个工程问题来解决。

如果这条路走通了，全世界用日语、韩语、中文、印地语做研究的科学家，将第一次和英语母语者站在同一条起跑线上。

这一次，Google已经把牌摊在了桌上。

至于竞争对手谁会跟牌，相信我们很快也将看到。

参考资料：

https://blog.google/intl/ja-jp/company-news/technology/gemini-31-pro-gemini-31-pro-deep-think/%20

https://deepmind.google/blog/accelerating-mathematical-and-scientific-discovery-with-gemini-deep-think/%20

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/%20

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-deep-think/

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

DeepMind科学家愤然离职，万字长文揭露谷歌罪恶！

新智元 2026-07-18 10:43:58
3 跟贴 3
从上海的热闹，看世界的前途

新民周刊 2026-07-18 09:12:49
4215 跟贴 4215

100多万人围观！没头没腿，神似充电宝的机器人全网走红？

机器之心Pro 2026-06-17 18:52:08
0 跟贴 0

3步推理生成加速20+倍！CoLT教会多模态大模型用「潜思维链」思考

机器之心Pro 2026-07-15 10:08:27
0 跟贴 0
Agent终于长出了身体：Jiuwen Symbiosis背后的思考与实践

量子位 2026-06-13 16:08:07
0 跟贴 0

视频生成模型会「推理」吗？303道题全面揭示世界模型的推理短板

机器之心Pro 2026-06-28 18:29:07
0 跟贴 0

中国铁塔精彩亮相2026世界人工智能大会

环球网资讯 2026-07-18 17:07:24
2 跟贴 2
距离预产期仅两天时，收到裁员通知

中国新闻周刊 2026-07-18 19:26:06
2 跟贴 2

WAIC2026的三个关键信号：算力重组、Agent交付与AI硬件闭环

36氪 2026-07-18 18:23:53
0 跟贴 0
AI颠覆「旧手机」，阶跃创造「新物种」

华尔街见闻官方 2026-07-18 18:22:46
0 跟贴 0
AI正在重新预测天气，但有人开始攻击天气数据

DeepTech深科技 2026-07-18 19:02:56
0 跟贴 0
直击WAIC｜“手掌大小的设备驱动千亿参数” 告别参数内卷，AI红利走向实际落地

每日经济新闻 2026-07-18 18:28:07
0 跟贴 0
筑基AI·光联智算：长飞登陆WAIC，打造AI算力全光底座

经济观察报 2026-07-18 18:52:04
0 跟贴 0
端侧AI成WAIC大热门！后摩要用这颗芯把千亿大模型塞进口袋

雷科技 2026-07-18 18:48:47
0 跟贴 0
150分不是这小伙子的上限，而是试卷的上限！

三华李LONGER 2026-07-16 04:30:40
66 跟贴 66
20多个"天才少年"卡在清华门口：丘成桐最狠的一句话，家长都该听听

学习不费妈 2026-07-17 16:40:49
4 跟贴 4
函数的性质一对称性到底难不难？一节课清哳告诉你

顽皮狐狸 2026-07-14 03:09:31
0 跟贴 0
家长给孩子打印暑假作业，一晚上全写完了，真是让人省心的好孩子

大红爱搞笑 2026-07-17 13:56:44
1 跟贴 1
暑假坚持 3 件事，孩子思维开窍、后劲十足，开学直接拉开差距

胡萝卜妈妈育儿说 2026-07-17 07:08:53
1 跟贴 1
后悔小时候没早知道小学必会解方程哪种方法更厉害

瑾瑜爸育儿 2026-07-17 10:04:30
4 跟贴 4
这才是真正的好老师

草莓味巧克力 2026-07-16 01:54:48
1 跟贴 1
数学老师讲解6÷11×99的简便算法

农村丑爸记录生活 2026-07-14 05:21:00
1 跟贴 1
保送清北、直通名校？当NOI奖牌成招生招牌：培训机构的话术里藏着多少水分？

消费者报道 2026-07-16 22:30:34
0 跟贴 0
数学题，9999的平方加19999等于多少？数学思维，家长必读

半夏余醉 2026-07-14 02:50:44
3 跟贴 3
家长没想到的是，现在小学就开始卷了

公考客栈店小二 2026-07-14 11:00:00
0 跟贴 0
啤酒两元1瓶，10元能喝几瓶

公考客栈店小二 2026-07-17 18:00:00
0 跟贴 0
三年级的小朋友说太难了，不会做

公考客栈店小二 2026-07-18 08:00:00
0 跟贴 0
3步倒推法，轻松计算油桶原有重量，绝对实用！

秒懂奥数李菁老师 2026-07-14 14:55:12
6 跟贴 6
奥数几何这样解？按比例求绿色部分面积！

奥数轻松学 2026-07-16 11:55:02
5 跟贴 5
甲乙丙面积相等，梯形面积是20，求阴影面积

公考客栈店小二 2026-07-14 17:00:00
0 跟贴 0
9点1氪丨ofo停更5年突然发文，运营主体仍处存续状态；苹果市值重返全球第一；乐事回应“蓝色薯片”来源

36氪 2026-07-18 09:15:50
1 跟贴 1
看到这样的题目，大学生家长都脑壳痛！

公考客栈店小二 2026-07-17 18:00:00
8 跟贴 8
小升初考试题，九宫格填数字

大力小学数学 2026-07-18 13:23:00
0 跟贴 0
数学逆袭记：5句顺口溜助你数学涨30分

食趣社Taste 2026-07-16 01:22:55
1 跟贴 1
家长看到题目后，迟迟不知道怎么下手

公考客栈店小二 2026-07-16 12:00:00
0 跟贴 0
中考数学几何：题干很简洁，却有很多学生不会求解

大力小学数学 2026-07-14 21:38:00
1 跟贴 1
花几十万刷题进清华数学系，结果预科班考核没过被“退货”

燕子向往远方 2026-07-17 01:00:43
18 跟贴 18
在幼年时期优先学习英语而不是母语是危险的，脑科学家发出警告，“过早的英语教育”会从孩子那里夺走东西

人间清醒局 2026-07-18 17:11:34
0 跟贴 0
求数列前40000项和的整数部分

天天数理学习分享 2026-07-18 17:11:28
3 跟贴 3
外交宴上翻译迟到，服务生脱口秀救场，谁想她却因此一夜成名

热点一触即发 2026-07-14 15:18:31
0 跟贴 0

白宫世界杯负责人：阿根廷队有权在美国展示马岛争议横幅

白宫世界杯负责人：阿根廷队有权在美国展示马岛争议横幅

懂球帝

2026-07-18 08:33:09

07年我被辞退，问厂长：你认识我爸吗？厂长：你爷来了我也不怕！

07年我被辞退，问厂长：你认识我爸吗？厂长：你爷来了我也不怕！

磊子讲史

2025-06-17 16:32:53

乌军近期部分战果盘点！斯塔默卸任前访问基辅：感谢英国，也感谢朋友们

乌军近期部分战果盘点！斯塔默卸任前访问基辅：感谢英国，也感谢朋友们

鹰眼Defence

2026-07-18 16:39:47

委代总统回应特朗普“美国第51州”提议

委代总统回应特朗普“美国第51州”提议

参考消息

2026-07-18 14:13:06

688500，董事长被刑拘

新浪财经

2026-07-18 08:53:02

谭权已任重庆市领导

新京报

2026-07-18 10:59:07

俄一物流中心遭无人机袭击7人死亡

俄一物流中心遭无人机袭击7人死亡

环球网资讯

2026-07-18 13:10:15

队报：世界杯年未夺冠仍有机会拿金球，此前C罗和梅西便是

队报：世界杯年未夺冠仍有机会拿金球，此前C罗和梅西便是

懂球帝

2026-07-18 18:59:06

相差26岁闪婚！湖南单亲妈妈嫁香港富商，婚前收下600万豪宅

相差26岁闪婚！湖南单亲妈妈嫁香港富商，婚前收下600万豪宅

小影的娱乐

2026-07-18 16:07:35

争议拉满！世界杯决赛主裁出炉！球迷炸锅

争议拉满！世界杯决赛主裁出炉！球迷炸锅

一隅非生

2026-07-18 07:17:16

西班牙王室启程看世界杯决赛，粉装莱昂诺尔美翻，二公主那身扔了

西班牙王室启程看世界杯决赛，粉装莱昂诺尔美翻，二公主那身扔了

夜深爱杂谈

2026-07-18 19:20:28

欠薪400万，厂里人去楼空，创始人玩消失，中国饮料巨头破产了？

欠薪400万，厂里人去楼空，创始人玩消失，中国饮料巨头破产了？

梦史

2026-07-16 22:06:54

孙海洋油坊今日在湖北老家开业，网上已现多个高仿号卖油，夫妻双双紧急辟谣：仅在本人账号上架

孙海洋油坊今日在湖北老家开业，网上已现多个高仿号卖油，夫妻双双紧急辟谣：仅在本人账号上架

极目新闻

2026-07-18 16:16:15

申花vs津门虎：三外援PK四外援；杨帅、谢鹏飞、谢维军首发

申花vs津门虎：三外援PK四外援；杨帅、谢鹏飞、谢维军首发

懂球帝

2026-07-18 18:27:20

春秋战国为什么叫“春秋战国”？春秋和战国有啥区别？

春秋战国为什么叫“春秋战国”？春秋和战国有啥区别？

长风文史

2026-07-16 21:06:53

泽连斯基当着全球媒体的面，承认搞砸了，乌克兰全国爆发抗议游行

泽连斯基当着全球媒体的面，承认搞砸了，乌克兰全国爆发抗议游行

面包夹知识

2026-07-18 14:22:06

CBA最新消息！广东锋线大将回归，山东和高诗岩续约有分歧，北京放弃麦基

CBA最新消息！广东锋线大将回归，山东和高诗岩续约有分歧，北京放弃麦基

中国篮坛快讯

2026-07-18 16:59:37

竹篮打水一场空！大S海外资产被曝光，汪小菲出手、S妈具俊晔慌了

竹篮打水一场空！大S海外资产被曝光，汪小菲出手、S妈具俊晔慌了

小疯子耶

2026-07-17 06:38:06

买家网购40多万金条寄深圳，遭平台强制退货！期间金价疯涨！双方闹上法庭

买家网购40多万金条寄深圳，遭平台强制退货！期间金价疯涨！双方闹上法庭

南方都市报

2026-07-18 18:53:06

世界上最穷国：一辈子没见过肉，自行车是豪车，连跑步都不允许

世界上最穷国：一辈子没见过肉，自行车是豪车，连跑步都不允许

哄动一时啊

2026-06-07 14:23:50

AI产业主平台领航智能+时代

15722文章数 66961关注度

往期回顾全部

科技要闻

WAIC2026看什么？这份"不迷路"攻略请收好

头条要闻

美巨头今年大裁员约8000人女员工距预产期仅2天被裁

头条要闻

美巨头今年大裁员约8000人女员工距预产期仅2天被裁

体育要闻

德尚是非典型法国人 14年执教留下丰厚遗产

娱乐要闻

大S给具俊晔留遗产是昏头？实际上她清醒得很

财经要闻

股民当街砍博主！韩国股市终极大屠杀

汽车要闻

把中国超跑卖到英国，比亚迪正在被世界看见

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

健康

教育

亲子

手机

房产

刮痧也会刮出脑梗？讲个真实案例

教育要闻

顶着天才精英光环，藏着普通人看不懂的捷径#蒋方舟 #燃起来了大国重器 #真财实学计划

亲子要闻

神奇的水，神奇的跳跳糖

手机要闻

iQOO首款小平板疑入网，预计搭载第六代骁龙8至尊版芯片

房产要闻

炸场！十五五定调黄埔！科学城真正的红利赢家，藏不住了

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版