网易首页 > 网易号 > 正文 申请入驻

姚顺宇参与,谷歌最强Gemini推理模型发布!测评碾压Opus 4.6、GPT-5.2

0
分享至


智东西
作者 云鹏
编辑 李水青

智东西2月13日消息,今天凌晨,谷歌发布了Gemini 3 Deep Think专用推理模式的重磅升级,其在“人类终极测试”、竞技编程测试、国际数学奥林匹克竞赛,以及国际物理、化学等多领域奥赛中均创下新记录,全面超越了Claude Opus 4.6和GPT-5.2,也超越了自家Gemini 3 Pro Preview。


▲Gemini 3 Deep Think在ARC-AGI-2、人类终极测试(Humanity’s Last Exam)竞技编程基准测试Codeforces、2025年国际数学奥林匹克竞赛四项测试中的成绩,得分均超过Claude Opus 4.6和GPT-5.2

毫无疑问,谷歌祭出了当前地表最强AI推理大模型。在Deep Think模式下,一张设计草图可以快速转化为3D打印文件,图纸分析、复杂三维建模一气呵成,用户将3D打印文件交付给打印机就可以完成实体生产:


▲在Deep Think模式下,一张设计草图可以快速转化为3D打印文件

谷歌CEO Sundar Pichai和相关高管都在X平台发文宣布了这一重磅发布,此前于去年9月加入谷歌DeepMind的清华物理系传奇人物姚顺宇(Shunyu Yao)也发文号召大家体验他们开发的新模式。


▲谷歌CEO(左)、姚顺宇(右)X平台发文

此姚顺宇非彼姚顺雨,后者是姚班出身、今年刚刚加入腾讯混元担任首席AI科学家的另一位“学神”。前一位姚顺宇现任谷歌DeepMind高级研究员,曾在Anthropic的Claude团队担任研究员,是拿过清华物理系传奇特奖的另一位“学神”。

此次的Deep Think模式升级也是姚顺宇加入后参与的首个重磅项目。


▲姚顺宇(左)和姚顺雨(右)

总体来看,Deep Think模式主要用于解决科学、研究和工程领域的挑战,目前只向Google AI Ultra订阅用户开放,不过科研人员、工程师和企业可以提交申请加入早期测试。


一、高难度基准测试猛刷记录,碾压Claude Opus 4.6、GPT-5.2

去年,谷歌已证实Deep Think模式的定制版本能攻克诸多高难度推理难题,在国际数学和编程锦标赛中达到金牌水准。而这次升级则让Deep Think模式更进一步支持研发人员开展研究级(research-level)的数学探索工作。

升级的Deep Think模式在各类高难度学术基准测试中创下了新纪录,具体包括:

·在“人类终极测试(Humanity’s Last Exam)”基准测试中,无工具辅助状态下取得48.4%的成绩,刷新该测试的最佳纪录(该测试专为检验前沿大模型的能力极限设计);

·在ARC-AGI-2基准测试中获84.6%高正确率,成绩经ARC奖基金会认证;

·在竞技编程基准测试平台Codeforces中,Elo评分3455分;

·在2025年国际数学奥林匹克竞赛中,达到金牌水准;

从排名中我们看到,Deep Think模式在上述四项基准测试中,全部领先于Claude Opus 4.6和GPT-5.2。

除数学和竞技编程领域外,升级后的Gemini 3 Deep Think在化学、物理等众多科学领域同样表现不错。


▲Gemini 3 Deep Think在各类测试中的成绩表现,所有测试项目均优于Claude Opus 4.6和GPT-5.2

根据谷歌公布测试成绩,Deep Think在2025年国际物理奥林匹克竞赛和国际化学奥林匹克竞赛的笔试环节中,均取得金牌水准的成绩;在高等理论物理领域也具备出色的应用能力,在凝聚态理论基准测试CMT-Benchmark中取得50.5%的成绩。

同样,在这些测试项目中,Deep Think的成绩全部高于Claude Opus 4.6和GPT-5.2。

二、推动实际应用落地,成为深度专业研究领域的最强助手

谷歌提到,除了强劲性能表现,Deep Think模式的研发核心目的是推动实际应用,也就是助力研究人员解析复杂数据、帮助工程师通过代码构建物理系统模型。

简单来说,这些领域的问题往往缺乏明确的指导原则或唯一的正确答案,数据也通常是杂乱无章或不完整的。Deep Think可以将深厚的科学知识与日常工程实践相结合,去解决这些复杂难题。

目前,谷歌正致力于让Deep Think模式覆盖科研和从业者的核心工作场景。

借助升级后的Deep Think模式,用户可以很快将一张设计草图转化为可3D打印的实体模型——Deep Think能自动分析图纸内容、构建复杂的三维形状模型,并生成对应的3D打印文件,实现实体物件的制作。


▲从文件草图到3D实体模型

此外,从谷歌给出的演示中我们看到,Deep Think可以识别出高专业度数学论文中一个此前人工同行评审从未发现的细微逻辑缺陷。


▲科学家利用Deep Think识别专业论文中的细节逻辑缺陷

Deep Think还可以用来优化复杂晶体生长的制备方法,用来探索新的半导体材料,在杜克大学的案例中,其设计的方案培育出了尺寸超过100微米的薄膜,技术指标超过此前所有方法。

谷歌研发主管、前Liftware CEO也用Deep Think来加速物理组件的设计。

可以说,Deep Think是真能搞定复杂的科学、研究和工程领域挑战。

结语:推理大模型专业化进一步加深,AI冲向科研最前线

Gemini 3 Deep Think模式的升级,重点提升了其在诸多科研专业学术领域解决复杂专业问题的能力,令其在顶尖专业领域加速技术研发的价值进一步凸显。

目前,AI模型与产业融合进一步加深,行业都在思索如何让模型能更好地在专业领域提升生产力,AI推理大模型的竞争,跑在了技术与学术的最前沿。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
气笑了!李家诚告周秀娜,不到半天就被打脸,好在周秀娜早有预防

气笑了!李家诚告周秀娜,不到半天就被打脸,好在周秀娜早有预防

离离言几许
2026-02-13 18:34:28
夫妻开车回安徽老家过年,带了一锅焖饭在路上吃,还把厕所也带上

夫妻开车回安徽老家过年,带了一锅焖饭在路上吃,还把厕所也带上

水晶的视界
2026-02-13 07:24:35
亲哥去世弟弟请假未获批去奔丧被辞,公司:丧假主要适用于直系亲属,且其未经同意请假;法院判了

亲哥去世弟弟请假未获批去奔丧被辞,公司:丧假主要适用于直系亲属,且其未经同意请假;法院判了

极目新闻
2026-02-08 23:54:17
造73年耻辱纪录!新援建功,阿尔瓦雷斯传射,马竞4-0血洗巴萨

造73年耻辱纪录!新援建功,阿尔瓦雷斯传射,马竞4-0血洗巴萨

钉钉陌上花开
2026-02-13 06:05:03
大孤山风波愈演愈烈!超50位明星扎堆前往,名单曝光网友呼吁深挖

大孤山风波愈演愈烈!超50位明星扎堆前往,名单曝光网友呼吁深挖

萌神木木
2026-02-11 15:37:43
确认了!明天抵达沈阳!请提前准备

确认了!明天抵达沈阳!请提前准备

沈阳生活圈i
2026-02-13 16:39:10
4599 元!新iPhone 价格再次下调!

4599 元!新iPhone 价格再次下调!

科技堡垒
2026-02-11 11:52:55
立陶宛政府举白旗,全面接受中国条件,恶斗5年,中方大获全胜

立陶宛政府举白旗,全面接受中国条件,恶斗5年,中方大获全胜

吴欣纯Deborah
2026-02-12 14:15:05
霍勒迪31分9板7助开拓者战胜爵士,克林根23分18板杨瀚森2分

霍勒迪31分9板7助开拓者战胜爵士,克林根23分18板杨瀚森2分

湖人崛起
2026-02-13 12:33:42
曾仅存13只!佛山男子买甲鱼苗竟混进4只,科学家花40年培育926只

曾仅存13只!佛山男子买甲鱼苗竟混进4只,科学家花40年培育926只

狸猫之一的动物圈
2026-02-12 10:36:20
1973年曾志给毛主席写信诉苦:“我是最早的红军战士,如今却没有军装穿。”

1973年曾志给毛主席写信诉苦:“我是最早的红军战士,如今却没有军装穿。”

文史明鉴
2026-01-20 15:11:14
湖北女子感染HPV,回家过年的第一批“受害者”出现了……

湖北女子感染HPV,回家过年的第一批“受害者”出现了……

桌子的生活观
2026-02-12 01:15:30
外界猜测:不出意外,中国未来超过一半人口,或会流入到这些地方

外界猜测:不出意外,中国未来超过一半人口,或会流入到这些地方

钦点历史
2026-02-13 15:50:37
内蒙古自治区政府原主席王莉霞被“双开”:贪慕虚荣追求享乐,对家属失管失教

内蒙古自治区政府原主席王莉霞被“双开”:贪慕虚荣追求享乐,对家属失管失教

界面新闻
2026-02-12 13:48:35
高市动手了!日本扣押中国渔船,抓走47岁船长,给的理由荒唐至极

高市动手了!日本扣押中国渔船,抓走47岁船长,给的理由荒唐至极

社会日日鲜
2026-02-13 13:40:59
菲律宾经济濒临崩溃,喊话中国希望伸出援手,我国回应大快人心

菲律宾经济濒临崩溃,喊话中国希望伸出援手,我国回应大快人心

东风寄的千愁
2026-02-13 06:54:35
高铁时代,绿皮车却火了,大巴车都要起死回生了

高铁时代,绿皮车却火了,大巴车都要起死回生了

历史总在押韵
2026-02-12 23:53:10
爱泼斯坦档案中的猛料:特朗普是傀儡,伊万卡是“肉票”大小姐?

爱泼斯坦档案中的猛料:特朗普是傀儡,伊万卡是“肉票”大小姐?

阿柒的讯
2026-02-13 18:18:42
中兴通讯前总经理:中国用无选择的穷举法跟美国打科技战,把所有技术一起发展,整个产业链全干了

中兴通讯前总经理:中国用无选择的穷举法跟美国打科技战,把所有技术一起发展,整个产业链全干了

芯火相承
2026-02-12 20:54:30
最孤独婚车后续:新郎新娘颜值高,别克正式回应大格局送上祝福

最孤独婚车后续:新郎新娘颜值高,别克正式回应大格局送上祝福

社会日日鲜
2026-02-12 12:33:40
2026-02-13 20:24:49
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11229文章数 116970关注度
往期回顾 全部

科技要闻

独家探访蔡磊:答不完的卷子 死磕最后一程

头条要闻

首次访华前 德国总理默茨在发言中将中欧对比引发关注

头条要闻

首次访华前 德国总理默茨在发言中将中欧对比引发关注

体育要闻

这张照片背后,是米兰冬奥最催泪的故事

娱乐要闻

米兰冬奥摘银 谷爱凌再遭美国网友网暴

财经要闻

华莱士母公司退市 疯狂扩张下的食安隐忧

汽车要闻

探秘比亚迪巴西工厂 居然是这个画风!

态度原创

本地
亲子
游戏
旅游
公开课

本地新闻

下一站是嘉禾望岗,请各位乘客做好哭泣准备

亲子要闻

抽宝为什么长得慢

国内评价褒贬不一的游戏,却在国外杀疯了?

旅游要闻

“来我们这里过大年……”,上海16个区拼了!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版