网易首页 > 网易号 > 正文 申请入驻

姚顺宇参与,谷歌最强Gemini推理模型发布!测评碾压Opus 4.6、GPT-5.2

0
分享至


智东西
作者 云鹏
编辑 李水青

智东西2月13日消息,今天凌晨,谷歌发布了Gemini 3 Deep Think专用推理模式的重磅升级,其在“人类终极测试”、竞技编程测试、国际数学奥林匹克竞赛,以及国际物理、化学等多领域奥赛中均创下新记录,全面超越了Claude Opus 4.6和GPT-5.2,也超越了自家Gemini 3 Pro Preview。


▲Gemini 3 Deep Think在ARC-AGI-2、人类终极测试(Humanity’s Last Exam)竞技编程基准测试Codeforces、2025年国际数学奥林匹克竞赛四项测试中的成绩,得分均超过Claude Opus 4.6和GPT-5.2

毫无疑问,谷歌祭出了当前地表最强AI推理大模型。在Deep Think模式下,一张设计草图可以快速转化为3D打印文件,图纸分析、复杂三维建模一气呵成,用户将3D打印文件交付给打印机就可以完成实体生产:


▲在Deep Think模式下,一张设计草图可以快速转化为3D打印文件

谷歌CEO Sundar Pichai和相关高管都在X平台发文宣布了这一重磅发布,此前于去年9月加入谷歌DeepMind的清华物理系传奇人物姚顺宇(Shunyu Yao)也发文号召大家体验他们开发的新模式。


▲谷歌CEO(左)、姚顺宇(右)X平台发文

此姚顺宇非彼姚顺雨,后者是姚班出身、今年刚刚加入腾讯混元担任首席AI科学家的另一位“学神”。前一位姚顺宇现任谷歌DeepMind高级研究员,曾在Anthropic的Claude团队担任研究员,是拿过清华物理系传奇特奖的另一位“学神”。

此次的Deep Think模式升级也是姚顺宇加入后参与的首个重磅项目。


▲姚顺宇(左)和姚顺雨(右)

总体来看,Deep Think模式主要用于解决科学、研究和工程领域的挑战,目前只向Google AI Ultra订阅用户开放,不过科研人员、工程师和企业可以提交申请加入早期测试。


一、高难度基准测试猛刷记录,碾压Claude Opus 4.6、GPT-5.2

去年,谷歌已证实Deep Think模式的定制版本能攻克诸多高难度推理难题,在国际数学和编程锦标赛中达到金牌水准。而这次升级则让Deep Think模式更进一步支持研发人员开展研究级(research-level)的数学探索工作。

升级的Deep Think模式在各类高难度学术基准测试中创下了新纪录,具体包括:

·在“人类终极测试(Humanity’s Last Exam)”基准测试中,无工具辅助状态下取得48.4%的成绩,刷新该测试的最佳纪录(该测试专为检验前沿大模型的能力极限设计);

·在ARC-AGI-2基准测试中获84.6%高正确率,成绩经ARC奖基金会认证;

·在竞技编程基准测试平台Codeforces中,Elo评分3455分;

·在2025年国际数学奥林匹克竞赛中,达到金牌水准;

从排名中我们看到,Deep Think模式在上述四项基准测试中,全部领先于Claude Opus 4.6和GPT-5.2。

除数学和竞技编程领域外,升级后的Gemini 3 Deep Think在化学、物理等众多科学领域同样表现不错。


▲Gemini 3 Deep Think在各类测试中的成绩表现,所有测试项目均优于Claude Opus 4.6和GPT-5.2

根据谷歌公布测试成绩,Deep Think在2025年国际物理奥林匹克竞赛和国际化学奥林匹克竞赛的笔试环节中,均取得金牌水准的成绩;在高等理论物理领域也具备出色的应用能力,在凝聚态理论基准测试CMT-Benchmark中取得50.5%的成绩。

同样,在这些测试项目中,Deep Think的成绩全部高于Claude Opus 4.6和GPT-5.2。

二、推动实际应用落地,成为深度专业研究领域的最强助手

谷歌提到,除了强劲性能表现,Deep Think模式的研发核心目的是推动实际应用,也就是助力研究人员解析复杂数据、帮助工程师通过代码构建物理系统模型。

简单来说,这些领域的问题往往缺乏明确的指导原则或唯一的正确答案,数据也通常是杂乱无章或不完整的。Deep Think可以将深厚的科学知识与日常工程实践相结合,去解决这些复杂难题。

目前,谷歌正致力于让Deep Think模式覆盖科研和从业者的核心工作场景。

借助升级后的Deep Think模式,用户可以很快将一张设计草图转化为可3D打印的实体模型——Deep Think能自动分析图纸内容、构建复杂的三维形状模型,并生成对应的3D打印文件,实现实体物件的制作。


▲从文件草图到3D实体模型

此外,从谷歌给出的演示中我们看到,Deep Think可以识别出高专业度数学论文中一个此前人工同行评审从未发现的细微逻辑缺陷。


▲科学家利用Deep Think识别专业论文中的细节逻辑缺陷

Deep Think还可以用来优化复杂晶体生长的制备方法,用来探索新的半导体材料,在杜克大学的案例中,其设计的方案培育出了尺寸超过100微米的薄膜,技术指标超过此前所有方法。

谷歌研发主管、前Liftware CEO也用Deep Think来加速物理组件的设计。

可以说,Deep Think是真能搞定复杂的科学、研究和工程领域挑战。

结语:推理大模型专业化进一步加深,AI冲向科研最前线

Gemini 3 Deep Think模式的升级,重点提升了其在诸多科研专业学术领域解决复杂专业问题的能力,令其在顶尖专业领域加速技术研发的价值进一步凸显。

目前,AI模型与产业融合进一步加深,行业都在思索如何让模型能更好地在专业领域提升生产力,AI推理大模型的竞争,跑在了技术与学术的最前沿。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
处长把我踢出工作群还标“编外”,隔天求我救急?我:没权限!

处长把我踢出工作群还标“编外”,隔天求我救急?我:没权限!

晓艾故事汇
2026-03-21 15:19:51
别再说微胖的女生穿紧身牛仔裤显胖了!这身材谁看了不迷糊

别再说微胖的女生穿紧身牛仔裤显胖了!这身材谁看了不迷糊

牛弹琴123456
2026-03-22 13:59:13
1981年,彭真狱中见江青,江青出言不逊提出:我要见华国锋邓小平

1981年,彭真狱中见江青,江青出言不逊提出:我要见华国锋邓小平

微野谈写作
2026-01-27 06:00:03
杜月笙的识人术:只看对方的一个站姿,就能知道他是龙还是虫

杜月笙的识人术:只看对方的一个站姿,就能知道他是龙还是虫

千秋文化
2026-03-23 20:09:06
张雪峰:如果你不好好学习,一旦掉入社会底层,和一群没有素质的人混在一起.....

张雪峰:如果你不好好学习,一旦掉入社会底层,和一群没有素质的人混在一起.....

山东教育
2026-01-27 11:38:18
你知道我在床上有多厉害吗?

你知道我在床上有多厉害吗?

果粉之家
2026-03-20 12:35:16
公积金新调整!4月1日起,职工可自愿提高缴存比例

公积金新调整!4月1日起,职工可自愿提高缴存比例

另子维爱读史
2026-03-25 22:28:47
顺德女老板,叫板国际巨头,一年卖出5个亿

顺德女老板,叫板国际巨头,一年卖出5个亿

最华人
2026-03-25 12:33:15
4000吨稀土被转运美国?大陆停供台湾稀土!台学者:不如直接统一

4000吨稀土被转运美国?大陆停供台湾稀土!台学者:不如直接统一

小舟谈历史
2026-03-19 17:27:44
第六险来了!一文读懂“长护险”

第六险来了!一文读懂“长护险”

极目新闻
2026-03-26 07:21:00
大反转!U23国足球员劝架染红原因终于找到了,球迷曝光现场视频

大反转!U23国足球员劝架染红原因终于找到了,球迷曝光现场视频

侃球熊弟
2026-03-26 00:36:57
短短1年,灵活就业者暴增4千万

短短1年,灵活就业者暴增4千万

深度报
2026-03-23 21:47:58
姐弟闹掰?李鑫拒绝录口供,直言这样下去姐弟没得做,李林哭了!

姐弟闹掰?李鑫拒绝录口供,直言这样下去姐弟没得做,李林哭了!

李橑在北漂
2026-03-26 01:56:27
谭瑞松,被判死缓

谭瑞松,被判死缓

新京报政事儿
2026-03-25 17:17:03
致命围堵!7500人强攻哈尔克岛,伊朗生死线告急

致命围堵!7500人强攻哈尔克岛,伊朗生死线告急

孤城落叶
2026-03-25 14:06:37
52年岳飞后人找毛主席求安排工作,主席听完沉默片刻,说了句话让他当场愣住

52年岳飞后人找毛主席求安排工作,主席听完沉默片刻,说了句话让他当场愣住

老杉说历史
2026-03-13 23:00:06
6岁男孩躲避母亲殴打离家22年,长大方知母亲悲惨人生

6岁男孩躲避母亲殴打离家22年,长大方知母亲悲惨人生

孤酒老巷QA
2026-03-25 20:19:35
姆巴佩:说我在皇马遭误诊是假的,也怪我留下了可解读的空间

姆巴佩:说我在皇马遭误诊是假的,也怪我留下了可解读的空间

懂球帝
2026-03-26 04:09:06
雷军晒成绩:小米SU7、YU7双双第一!

雷军晒成绩:小米SU7、YU7双双第一!

快科技
2026-03-26 13:09:04
还有谁!杨瀚森100%命中率!20+9+5打出完美一战!

还有谁!杨瀚森100%命中率!20+9+5打出完美一战!

柚子说球
2026-03-26 13:07:05
2026-03-26 14:00:49
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11433文章数 117015关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

家居
本地
时尚
公开课
军事航空

家居要闻

傍海而居 静观蝴蝶海

本地新闻

春日吃花第三站——广东

2026年了,最好看的还是“这件针织”!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版