网易首页 > 网易号 > 正文 申请入驻

姚顺宇参与,谷歌最强Gemini推理模型发布!测评碾压Opus 4.6、GPT-5.2

0
分享至


智东西
作者 云鹏
编辑 李水青

智东西2月13日消息,今天凌晨,谷歌发布了Gemini 3 Deep Think专用推理模式的重磅升级,其在“人类终极测试”、竞技编程测试、国际数学奥林匹克竞赛,以及国际物理、化学等多领域奥赛中均创下新记录,全面超越了Claude Opus 4.6和GPT-5.2,也超越了自家Gemini 3 Pro Preview。


▲Gemini 3 Deep Think在ARC-AGI-2、人类终极测试(Humanity’s Last Exam)竞技编程基准测试Codeforces、2025年国际数学奥林匹克竞赛四项测试中的成绩,得分均超过Claude Opus 4.6和GPT-5.2

毫无疑问,谷歌祭出了当前地表最强AI推理大模型。在Deep Think模式下,一张设计草图可以快速转化为3D打印文件,图纸分析、复杂三维建模一气呵成,用户将3D打印文件交付给打印机就可以完成实体生产:


▲在Deep Think模式下,一张设计草图可以快速转化为3D打印文件

谷歌CEO Sundar Pichai和相关高管都在X平台发文宣布了这一重磅发布,此前于去年9月加入谷歌DeepMind的清华物理系传奇人物姚顺宇(Shunyu Yao)也发文号召大家体验他们开发的新模式。


▲谷歌CEO(左)、姚顺宇(右)X平台发文

此姚顺宇非彼姚顺雨,后者是姚班出身、今年刚刚加入腾讯混元担任首席AI科学家的另一位“学神”。前一位姚顺宇现任谷歌DeepMind高级研究员,曾在Anthropic的Claude团队担任研究员,是拿过清华物理系传奇特奖的另一位“学神”。

此次的Deep Think模式升级也是姚顺宇加入后参与的首个重磅项目。


▲姚顺宇(左)和姚顺雨(右)

总体来看,Deep Think模式主要用于解决科学、研究和工程领域的挑战,目前只向Google AI Ultra订阅用户开放,不过科研人员、工程师和企业可以提交申请加入早期测试。


一、高难度基准测试猛刷记录,碾压Claude Opus 4.6、GPT-5.2

去年,谷歌已证实Deep Think模式的定制版本能攻克诸多高难度推理难题,在国际数学和编程锦标赛中达到金牌水准。而这次升级则让Deep Think模式更进一步支持研发人员开展研究级(research-level)的数学探索工作。

升级的Deep Think模式在各类高难度学术基准测试中创下了新纪录,具体包括:

·在“人类终极测试(Humanity’s Last Exam)”基准测试中,无工具辅助状态下取得48.4%的成绩,刷新该测试的最佳纪录(该测试专为检验前沿大模型的能力极限设计);

·在ARC-AGI-2基准测试中获84.6%高正确率,成绩经ARC奖基金会认证;

·在竞技编程基准测试平台Codeforces中,Elo评分3455分;

·在2025年国际数学奥林匹克竞赛中,达到金牌水准;

从排名中我们看到,Deep Think模式在上述四项基准测试中,全部领先于Claude Opus 4.6和GPT-5.2。

除数学和竞技编程领域外,升级后的Gemini 3 Deep Think在化学、物理等众多科学领域同样表现不错。


▲Gemini 3 Deep Think在各类测试中的成绩表现,所有测试项目均优于Claude Opus 4.6和GPT-5.2

根据谷歌公布测试成绩,Deep Think在2025年国际物理奥林匹克竞赛和国际化学奥林匹克竞赛的笔试环节中,均取得金牌水准的成绩;在高等理论物理领域也具备出色的应用能力,在凝聚态理论基准测试CMT-Benchmark中取得50.5%的成绩。

同样,在这些测试项目中,Deep Think的成绩全部高于Claude Opus 4.6和GPT-5.2。

二、推动实际应用落地,成为深度专业研究领域的最强助手

谷歌提到,除了强劲性能表现,Deep Think模式的研发核心目的是推动实际应用,也就是助力研究人员解析复杂数据、帮助工程师通过代码构建物理系统模型。

简单来说,这些领域的问题往往缺乏明确的指导原则或唯一的正确答案,数据也通常是杂乱无章或不完整的。Deep Think可以将深厚的科学知识与日常工程实践相结合,去解决这些复杂难题。

目前,谷歌正致力于让Deep Think模式覆盖科研和从业者的核心工作场景。

借助升级后的Deep Think模式,用户可以很快将一张设计草图转化为可3D打印的实体模型——Deep Think能自动分析图纸内容、构建复杂的三维形状模型,并生成对应的3D打印文件,实现实体物件的制作。


▲从文件草图到3D实体模型

此外,从谷歌给出的演示中我们看到,Deep Think可以识别出高专业度数学论文中一个此前人工同行评审从未发现的细微逻辑缺陷。


▲科学家利用Deep Think识别专业论文中的细节逻辑缺陷

Deep Think还可以用来优化复杂晶体生长的制备方法,用来探索新的半导体材料,在杜克大学的案例中,其设计的方案培育出了尺寸超过100微米的薄膜,技术指标超过此前所有方法。

谷歌研发主管、前Liftware CEO也用Deep Think来加速物理组件的设计。

可以说,Deep Think是真能搞定复杂的科学、研究和工程领域挑战。

结语:推理大模型专业化进一步加深,AI冲向科研最前线

Gemini 3 Deep Think模式的升级,重点提升了其在诸多科研专业学术领域解决复杂专业问题的能力,令其在顶尖专业领域加速技术研发的价值进一步凸显。

目前,AI模型与产业融合进一步加深,行业都在思索如何让模型能更好地在专业领域提升生产力,AI推理大模型的竞争,跑在了技术与学术的最前沿。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
李彦宏最大IPO来了

李彦宏最大IPO来了

华尔街见闻官方
2026-07-04 20:15:45
一场令人心痛的意外,让一个22岁云南大学生的人生永久定格

一场令人心痛的意外,让一个22岁云南大学生的人生永久定格

花小猫的美食日常
2026-07-04 10:02:01
71年毛主席南巡返京突停丰台,留李德生密令:速调38军1个师进京

71年毛主席南巡返京突停丰台,留李德生密令:速调38军1个师进京

小豫讲故事
2026-07-05 00:35:05
C罗:替补比被换下更难受!我赛前就预感有点球踢!

C罗:替补比被换下更难受!我赛前就预感有点球踢!

大嘴说台球
2026-07-04 06:25:02
他曾任北京军区司令员,1955年授中将,56岁被免职,儿子也是中将

他曾任北京军区司令员,1955年授中将,56岁被免职,儿子也是中将

新一说史
2026-07-05 01:36:19
7月买菜,少买豆角和茄子,多吃4种应季“黄金菜”,营养又便宜

7月买菜,少买豆角和茄子,多吃4种应季“黄金菜”,营养又便宜

秀厨娘
2026-07-02 16:30:15
女人送你这样东西,就是暗示想越界了,男人别太老实

女人送你这样东西,就是暗示想越界了,男人别太老实

新时代的两性情感
2026-07-05 02:53:21
最新确认:上海一区开始试点,逐步覆盖全市!

最新确认:上海一区开始试点,逐步覆盖全市!

新浪财经
2026-07-04 17:02:32
俄媒女主持人曾言:若中国愿出兵300万,俄军很快就能打败乌克兰

俄媒女主持人曾言:若中国愿出兵300万,俄军很快就能打败乌克兰

南宗历史
2026-03-17 16:53:10
让-克劳德:红牌发生后,对我们来说比赛已被“杀死”

让-克劳德:红牌发生后,对我们来说比赛已被“杀死”

懂球帝
2026-07-04 22:21:59
男子一觉醒来枕巾长“多肉”,吓得把枕巾丢了,紧急提醒:近期大量出现,别用手摸!

男子一觉醒来枕巾长“多肉”,吓得把枕巾丢了,紧急提醒:近期大量出现,别用手摸!

新浪财经
2026-07-04 21:40:05
中资拆除生产线,连夜回国!日本印度马上宣称要与印尼搞镍矿合作

中资拆除生产线,连夜回国!日本印度马上宣称要与印尼搞镍矿合作

阿龙聊军事
2026-07-04 09:25:21
霉霉世纪婚礼落幕!体育馆变童话城堡,穿着迪奥婚纱,听着自己的歌走过红毯

霉霉世纪婚礼落幕!体育馆变童话城堡,穿着迪奥婚纱,听着自己的歌走过红毯

英国那些事儿
2026-07-04 23:13:52
俄宣布占领康斯坦丁尼夫卡,国际权威媒体:俄军仅控制了37%

俄宣布占领康斯坦丁尼夫卡,国际权威媒体:俄军仅控制了37%

史政先锋
2026-07-04 13:25:19
心理学上说:一个人如果妙语连珠、善于接话、从不冷场,这并不是沟通能力强。真正的沟通能力强,是这个人坐在对面,能无限做这两件事

心理学上说:一个人如果妙语连珠、善于接话、从不冷场,这并不是沟通能力强。真正的沟通能力强,是这个人坐在对面,能无限做这两件事

心理观察局
2026-07-01 07:16:08
专家一句大实话火了:睡一人百次才是本事,放纵那叫本能

专家一句大实话火了:睡一人百次才是本事,放纵那叫本能

游戏收藏指南
2026-07-04 09:32:37
索尼13年前推文被扒出!回旋镖正中眉心

索尼13年前推文被扒出!回旋镖正中眉心

游民星空
2026-07-02 11:13:36
我买房后,父母在隔壁买套小两居给弟弟,隔天回家看房本我傻了!

我买房后,父母在隔壁买套小两居给弟弟,隔天回家看房本我傻了!

麦子情感故事
2026-07-05 00:23:10
哈佛大学研究发现:人生回报率最高的,是每天坚持这两个习惯

哈佛大学研究发现:人生回报率最高的,是每天坚持这两个习惯

心理观察局
2026-07-01 07:37:28
名媛不帮郭富城夫妻P图被骂!方媛又肿又僵,郭富城是花甲老爷爷

名媛不帮郭富城夫妻P图被骂!方媛又肿又僵,郭富城是花甲老爷爷

草莓解说体育
2026-07-03 15:28:20
2026-07-05 04:12:49
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
12176文章数 117119关注度
往期回顾 全部

科技要闻

韬定律论文V2版,充工程细节和实测数据

头条要闻

老人被一次拔12颗牙种10颗:能刷的钱都刷走 只剩30块

头条要闻

老人被一次拔12颗牙种10颗:能刷的钱都刷走 只剩30块

体育要闻

揭法国锋线最大优势 有人比姆巴佩还快?

娱乐要闻

白鹿打戏抠图惹非议 连累丞磊遭扒皮

财经要闻

韩国股市杠杆失控:450亿美元资金狂飙

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

时尚
数码
教育
亲子
家居

别再说"露肩衣服 "难驾驭!看看这几组日常穿搭,大方有回头率

数码要闻

苏姿丰签名同款!极摩客EVO-X3 AI工作站全球开卖:国行版21699元起

教育要闻

两个孩子拾金不昧,没想到换来全套练习题

亲子要闻

短到捏不住的铅笔头,写下的满是懂事和感恩。老师问:“怎么用这么短呀?”男孩安静鞠了一躬

家居要闻

传奇筑 日常诗

无障碍浏览 进入关怀版