网易首页 > 网易号 > 正文 申请入驻

清华姚顺宇跳槽谷歌后首秀:Gemini 3 Deep Think重大升级

0
分享至

2 月 12 日,谷歌上线 Gemini 3 Deep Think 的重大升级。这次升级的背后,也站着一位在 2025 年 9 月因为不满前东家 Anthropic 言论而辞职加入谷歌的清华物理系传奇校友姚顺宇


图 | 姚顺宇(来源:资料图)

作为一款推理模型,Gemini 3 Deep Think 在多项基准测试中刷新纪录:ARC-AGI-2 测试达 84.6%,Codeforces 编程平台获 3,455 分(世界排名第 8,仅 7 人能超越),并在数学、物理、化学奥赛中达金牌水平。然而,其每项任务成本仅为 13.62 美元,比 OpenAI o3 降低大约 280-420 倍。目前,新模型已被用于数学论文审阅、晶体生长工艺优化等科研场景,现已通过 Gemini 应用和 API 向订阅用户及部分研究者开放。


(来源:Google)

如果你对 2025 年 Gemini Deep Think 在 IMO 摘金的印象还停留在这是一个很会解题的学霸,那么这次升级可能会让你重新认识它。学霸和科学家的区别在于:前者擅长回答带有标准答案的问题,但是后者敢于跳进没有边界、数据残缺、甚至没有人知道终点在哪里的浑水。这正是此次 Deep Think 升级最本质的跨越。


(来源:Google)

谷歌在官方博客中反复强调的关键词是:“messy or incomplete。”现实世界的科研难题,从来不像奥数题那样会给你完美的已知条件。一个凝聚态物理的实验数据可能包含无法复现的噪声,一个化学生物学交叉课题的文献综述可能需要横跨几十年的几十个互斥的假说。新版 Deep Think 的核心突破,则是学会了在这种混沌之中保持推理的优雅。

有这样一组数据也许足以让同行沉默。在被称为人类最后考试(Humanity‘s Last Exam)的极限基准测试中,Deep Think 在不借助任何外部工具的情况下拿下 48.4% 的准确率。这个数字的厉害之处在于,它不仅甩开了 GPT-5.2(34.5%)和 Claude Opus 4.6(40.0%),也意味着 AI 首次在横跨数百个尖端学科的长尾难题中,逼近了人类博士候选人的中位线。

而在 ARC-AGI-2 这个被公认为是抽象推理试金石的测试中,84.6% 的得分是一个代际断层的表现。ARC Prize Foundation 的独立验证,更是让这个数字褪去了营销成分。

可能会让一部分人感到脊背发凉的是 Codeforces 那行小小的数字:3455Elo。关注竞技编程的读者知道,2,700 分已经是国际特级大师的表现,3,000 分是人类穷尽职业生涯也难以触摸的神域。更可怕的是,3,455 分这个分数是不借助任何工具取得的,既不是纯文本生成,也没有代码执行辅助。这意味着 Deep Think 对于算法本质的理解,已经内化成为某种超越代码本身的直觉。


(来源:Google)

然而,如果把这次升级仅仅解读为跑分更强,就完全错过了谷歌布下的那盘大棋。这个棋局藏在两个看似不抬起眼的场景描述里。

第一个场景是把手绘草图直接生成 3D 打印文件。从模糊的线条到精密的物理模型,中间横亘着几何建模、结构力学分析、打印路径优化等多道专业壁垒。Deep Think 做到了在理解绘图这意图的基础之上,主动补全了那些草图上没有画出来的受力逻辑。

第二个场景是罗格斯大学的数学家 Lisa Carbone 用它审稿,Deep Think 发现了一处人类审稿人集体遗漏的微秒逻辑漏洞,这意味着 AI 能在前沿研究的模糊地带捕捉到推理链的断裂,也意味着 AI 告别了只是复述教科书式的错误的阶段。

这两件事的共同点在于,AI 不再只是等待指令,开始主动介入创造与验证的闭环。这也正是姚顺宇在那篇广为流传的离职博文中反复提到的命题。这位当年清华物理系的特奖得主,大二开始选修研究生课程,先后成为美国斯坦福大学博士和美国加州大学伯克利分校博士后,却在传统理论物理最光鲜的学术坦途选择了转弯。他曾在博文里写道,一个没有实验指引的领域,很难客观评判理论工作的价值。他看到的困局,其实也是 AI 行业自身的影像。

过去两年,有时人们沉迷于在封闭基准上比拼小数点后的精度,却越来越远离使用智能解决真实问题的初心。姚顺宇把当下的 AI 研究比作 17 世纪的热力学。那时,人们甚至不知道热是什么,燃素说依然是主流,但是这并不妨碍波义尔通过系统实验总结出定律,并最终催生了蒸汽机。Deep Think 此次升级的野望,或许正是要成为AI世界的波义尔。

因此,与其说 Gemini 3 Deep Think 是一个模型,不如说它是一个正在快速进化的科研操作系统。3455 Elo 是它的左脑,84.6% 的抽象推理是它的右脑,而从草图到实物的 3D 打印能力是它伸向物理世界的一只手臂。几百年前,牛顿用自己在苹果树下的思考解释宇宙,AI 时代的今天,无论如何都得换种方法了。

参考资料:

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-deep-think/

https://the-decoder.com/google-deepmind-upgrades-gemini-3-deep-think-for-complex-science-and-engineering-tasks/

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
研究表明:男性嫖娼率6.4%,女性出轨率15%,且越有钱越开放!

研究表明:男性嫖娼率6.4%,女性出轨率15%,且越有钱越开放!

黯泉
2026-04-01 17:28:39
为啥说准备考公不宜到处说?网友:我妈也是,气得我快要冒烟

为啥说准备考公不宜到处说?网友:我妈也是,气得我快要冒烟

带你感受人间冷暖
2026-03-30 00:10:09
00后擦边主播月入30万,高喊“我是好女孩”,直播内幕比想象更脏

00后擦边主播月入30万,高喊“我是好女孩”,直播内幕比想象更脏

戗词夺理
2026-03-14 11:33:32
中小学生迎来好消息!4月11日后开始执行,双职工家庭纷纷表支持

中小学生迎来好消息!4月11日后开始执行,双职工家庭纷纷表支持

复转这些年
2026-04-07 17:55:41
“生娃率”持续走低,厦门教授给出建议:不生孩子就下调养老金

“生娃率”持续走低,厦门教授给出建议:不生孩子就下调养老金

大果小果妈妈
2026-04-02 13:16:39
安庆6岁失联女童确认遇害,嫌疑人柳某某(女,35岁)被抓,指认现场引围观一度交通堵塞,女童父亲不愿多言,镇政府:一直在安抚家属情绪

安庆6岁失联女童确认遇害,嫌疑人柳某某(女,35岁)被抓,指认现场引围观一度交通堵塞,女童父亲不愿多言,镇政府:一直在安抚家属情绪

极目新闻
2026-04-07 12:16:29
拒挂国旗、订单全给日韩,被停止合作封锁航线的长荣,今咎由自取

拒挂国旗、订单全给日韩,被停止合作封锁航线的长荣,今咎由自取

阿尢说历史
2026-04-07 04:16:52
股价3元横盘4个月遭冷落,17家机构却暗中抢筹上亿筹码

股价3元横盘4个月遭冷落,17家机构却暗中抢筹上亿筹码

慧眼看世界哈哈
2026-04-07 09:18:52
一路走好!清明假期3位名人离世,最年轻者仅26岁,孩子才一岁

一路走好!清明假期3位名人离世,最年轻者仅26岁,孩子才一岁

叨唠
2026-04-06 19:36:29
突发 | 食其家创始人,心梗去世!

突发 | 食其家创始人,心梗去世!

天津广播
2026-04-07 12:29:11
大量游客被困山顶:有人裹垃圾袋、呕吐、失温,景区回应

大量游客被困山顶:有人裹垃圾袋、呕吐、失温,景区回应

最江阴
2026-04-06 13:03:05
不再隐瞒!畸形儿传闻后,阚清子哭得一塌糊涂,章小蕙的话暴隐情

不再隐瞒!畸形儿传闻后,阚清子哭得一塌糊涂,章小蕙的话暴隐情

一盅情怀
2026-04-05 16:29:22
“晚打不如早打,小打不如大打,打一个,不如拉日本一起打”。

“晚打不如早打,小打不如大打,打一个,不如拉日本一起打”。

安安说
2026-03-14 18:50:59
海豚疯狂的繁殖行为!它们和人类一样,不以生育为目的进行性行为

海豚疯狂的繁殖行为!它们和人类一样,不以生育为目的进行性行为

怪罗
2026-04-05 22:14:48
国乒男队:不管大头拿不拿世界杯,樊振东回归都是板上钉钉

国乒男队:不管大头拿不拿世界杯,樊振东回归都是板上钉钉

林子说事
2026-04-07 12:25:06
1980年,“大法官”伍修权去探视了江青,对她评价:有点穷讲究

1980年,“大法官”伍修权去探视了江青,对她评价:有点穷讲究

凉州辞
2026-04-07 16:55:03
一辆无法上牌的布加迪威航竟拍出1305万元,辅拍机构:买家只能用拖车拖走,作收藏或展示等用途

一辆无法上牌的布加迪威航竟拍出1305万元,辅拍机构:买家只能用拖车拖走,作收藏或展示等用途

极目新闻
2026-04-06 11:33:54
韩国政府就特朗普涉韩不满言论作出回应:已向美方询问其有关言论的真实意图

韩国政府就特朗普涉韩不满言论作出回应:已向美方询问其有关言论的真实意图

环球网资讯
2026-04-07 18:05:58
特朗普:美国不需要北约

特朗普:美国不需要北约

俄罗斯卫星通讯社
2026-04-07 15:18:32
新冠后遗症的长期侵袭,无数人在不知不觉中深陷困境

新冠后遗症的长期侵袭,无数人在不知不觉中深陷困境

律法刑道
2026-04-01 10:15:47
2026-04-07 18:43:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16547文章数 514851关注度
往期回顾 全部

科技要闻

满嘴谎言!OpenAI奥特曼黑料大起底

头条要闻

英媒:伊朗最高领袖病重昏迷 无法参与任何国家决策

头条要闻

英媒:伊朗最高领袖病重昏迷 无法参与任何国家决策

体育要闻

官宣签约“AI球员”,这支球队被骂惨了...

娱乐要闻

女首富陈丽华离世 被曝生前已分好遗产

财经要闻

10万亿财政转移支付,被谁拿走了?

汽车要闻

不止是大 极狐首款MPV问道V9静态体验

态度原创

家居
本地
亲子
游戏
旅游

家居要闻

雅致惬意 感知生活之美

本地新闻

跟着歌声游安徽,听古村回响

亲子要闻

妈妈们,犯错不可怕,可怕的是你对自我的评判、打压!

劲爆大雷新作与你共探神秘小树林 面红娇羞白天可别玩

旅游要闻

2026年清明节假期国内出游1.35亿人次

无障碍浏览 进入关怀版