姚顺宇参与，谷歌最强Gemini推理模型发布！测评碾压Opus 4.6、GPT-5.2|编程|大模型|opus|知名企业|gemini

姚顺宇参与，谷歌最强Gemini推理模型发布！测评碾压Opus 4.6、GPT-5.2

2026-02-13 12:27:47　来源: 智东西

北京举报

分享至

智东西
作者云鹏
编辑李水青

智东西2月13日消息，今天凌晨，谷歌发布了Gemini 3 Deep Think专用推理模式的重磅升级，其在“人类终极测试”、竞技编程测试、国际数学奥林匹克竞赛，以及国际物理、化学等多领域奥赛中均创下新记录，全面超越了Claude Opus 4.6和GPT-5.2，也超越了自家Gemini 3 Pro Preview。

▲Gemini 3 Deep Think在ARC-AGI-2、人类终极测试（Humanity’s Last Exam）竞技编程基准测试Codeforces、2025年国际数学奥林匹克竞赛四项测试中的成绩，得分均超过Claude Opus 4.6和GPT-5.2

毫无疑问，谷歌祭出了当前地表最强AI推理大模型。在Deep Think模式下，一张设计草图可以快速转化为3D打印文件，图纸分析、复杂三维建模一气呵成，用户将3D打印文件交付给打印机就可以完成实体生产：

▲在Deep Think模式下，一张设计草图可以快速转化为3D打印文件

谷歌CEO Sundar Pichai和相关高管都在X平台发文宣布了这一重磅发布，此前于去年9月加入谷歌DeepMind的清华物理系传奇人物姚顺宇（Shunyu Yao）也发文号召大家体验他们开发的新模式。

▲谷歌CEO（左）、姚顺宇（右）X平台发文

此姚顺宇非彼姚顺雨，后者是姚班出身、今年刚刚加入腾讯混元担任首席AI科学家的另一位“学神”。前一位姚顺宇现任谷歌DeepMind高级研究员，曾在Anthropic的Claude团队担任研究员，是拿过清华物理系传奇特奖的另一位“学神”。

此次的Deep Think模式升级也是姚顺宇加入后参与的首个重磅项目。

▲姚顺宇（左）和姚顺雨（右）

总体来看，Deep Think模式主要用于解决科学、研究和工程领域的挑战，目前只向Google AI Ultra订阅用户开放，不过科研人员、工程师和企业可以提交申请加入早期测试。

一、高难度基准测试猛刷记录，碾压Claude Opus 4.6、GPT-5.2

去年，谷歌已证实Deep Think模式的定制版本能攻克诸多高难度推理难题，在国际数学和编程锦标赛中达到金牌水准。而这次升级则让Deep Think模式更进一步支持研发人员开展研究级（research-level）的数学探索工作。

升级的Deep Think模式在各类高难度学术基准测试中创下了新纪录，具体包括：

·在“人类终极测试（Humanity’s Last Exam）”基准测试中，无工具辅助状态下取得48.4%的成绩，刷新该测试的最佳纪录（该测试专为检验前沿大模型的能力极限设计）；

·在ARC-AGI-2基准测试中获84.6%高正确率，成绩经ARC奖基金会认证；

·在竞技编程基准测试平台Codeforces中，Elo评分3455分；

·在2025年国际数学奥林匹克竞赛中，达到金牌水准；

从排名中我们看到，Deep Think模式在上述四项基准测试中，全部领先于Claude Opus 4.6和GPT-5.2。

除数学和竞技编程领域外，升级后的Gemini 3 Deep Think在化学、物理等众多科学领域同样表现不错。

▲Gemini 3 Deep Think在各类测试中的成绩表现，所有测试项目均优于Claude Opus 4.6和GPT-5.2

根据谷歌公布测试成绩，Deep Think在2025年国际物理奥林匹克竞赛和国际化学奥林匹克竞赛的笔试环节中，均取得金牌水准的成绩；在高等理论物理领域也具备出色的应用能力，在凝聚态理论基准测试CMT-Benchmark中取得50.5%的成绩。

同样，在这些测试项目中，Deep Think的成绩全部高于Claude Opus 4.6和GPT-5.2。

二、推动实际应用落地，成为深度专业研究领域的最强助手

谷歌提到，除了强劲性能表现，Deep Think模式的研发核心目的是推动实际应用，也就是助力研究人员解析复杂数据、帮助工程师通过代码构建物理系统模型。

简单来说，这些领域的问题往往缺乏明确的指导原则或唯一的正确答案，数据也通常是杂乱无章或不完整的。Deep Think可以将深厚的科学知识与日常工程实践相结合，去解决这些复杂难题。

目前，谷歌正致力于让Deep Think模式覆盖科研和从业者的核心工作场景。

借助升级后的Deep Think模式，用户可以很快将一张设计草图转化为可3D打印的实体模型——Deep Think能自动分析图纸内容、构建复杂的三维形状模型，并生成对应的3D打印文件，实现实体物件的制作。

▲从文件草图到3D实体模型

此外，从谷歌给出的演示中我们看到，Deep Think可以识别出高专业度数学论文中一个此前人工同行评审从未发现的细微逻辑缺陷。

▲科学家利用Deep Think识别专业论文中的细节逻辑缺陷

Deep Think还可以用来优化复杂晶体生长的制备方法，用来探索新的半导体材料，在杜克大学的案例中，其设计的方案培育出了尺寸超过100微米的薄膜，技术指标超过此前所有方法。

谷歌研发主管、前Liftware CEO也用Deep Think来加速物理组件的设计。

可以说，Deep Think是真能搞定复杂的科学、研究和工程领域挑战。

结语：推理大模型专业化进一步加深，AI冲向科研最前线

Gemini 3 Deep Think模式的升级，重点提升了其在诸多科研专业学术领域解决复杂专业问题的能力，令其在顶尖专业领域加速技术研发的价值进一步凸显。

目前，AI模型与产业融合进一步加深，行业都在思索如何让模型能更好地在专业领域提升生产力，AI推理大模型的竞争，跑在了技术与学术的最前沿。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.