网易首页 > 网易号 > 正文 申请入驻

清华姚顺宇跳槽谷歌后首秀:Gemini 3 Deep Think重大升级

0
分享至

2 月 12 日,谷歌上线 Gemini 3 Deep Think 的重大升级。这次升级的背后,也站着一位在 2025 年 9 月因为不满前东家 Anthropic 言论而辞职加入谷歌的清华物理系传奇校友姚顺宇


图 | 姚顺宇(来源:资料图)

作为一款推理模型,Gemini 3 Deep Think 在多项基准测试中刷新纪录:ARC-AGI-2 测试达 84.6%,Codeforces 编程平台获 3,455 分(世界排名第 8,仅 7 人能超越),并在数学、物理、化学奥赛中达金牌水平。然而,其每项任务成本仅为 13.62 美元,比 OpenAI o3 降低大约 280-420 倍。目前,新模型已被用于数学论文审阅、晶体生长工艺优化等科研场景,现已通过 Gemini 应用和 API 向订阅用户及部分研究者开放。


(来源:Google)

如果你对 2025 年 Gemini Deep Think 在 IMO 摘金的印象还停留在这是一个很会解题的学霸,那么这次升级可能会让你重新认识它。学霸和科学家的区别在于:前者擅长回答带有标准答案的问题,但是后者敢于跳进没有边界、数据残缺、甚至没有人知道终点在哪里的浑水。这正是此次 Deep Think 升级最本质的跨越。


(来源:Google)

谷歌在官方博客中反复强调的关键词是:“messy or incomplete。”现实世界的科研难题,从来不像奥数题那样会给你完美的已知条件。一个凝聚态物理的实验数据可能包含无法复现的噪声,一个化学生物学交叉课题的文献综述可能需要横跨几十年的几十个互斥的假说。新版 Deep Think 的核心突破,则是学会了在这种混沌之中保持推理的优雅。

有这样一组数据也许足以让同行沉默。在被称为人类最后考试(Humanity‘s Last Exam)的极限基准测试中,Deep Think 在不借助任何外部工具的情况下拿下 48.4% 的准确率。这个数字的厉害之处在于,它不仅甩开了 GPT-5.2(34.5%)和 Claude Opus 4.6(40.0%),也意味着 AI 首次在横跨数百个尖端学科的长尾难题中,逼近了人类博士候选人的中位线。

而在 ARC-AGI-2 这个被公认为是抽象推理试金石的测试中,84.6% 的得分是一个代际断层的表现。ARC Prize Foundation 的独立验证,更是让这个数字褪去了营销成分。

可能会让一部分人感到脊背发凉的是 Codeforces 那行小小的数字:3455Elo。关注竞技编程的读者知道,2,700 分已经是国际特级大师的表现,3,000 分是人类穷尽职业生涯也难以触摸的神域。更可怕的是,3,455 分这个分数是不借助任何工具取得的,既不是纯文本生成,也没有代码执行辅助。这意味着 Deep Think 对于算法本质的理解,已经内化成为某种超越代码本身的直觉。


(来源:Google)

然而,如果把这次升级仅仅解读为跑分更强,就完全错过了谷歌布下的那盘大棋。这个棋局藏在两个看似不抬起眼的场景描述里。

第一个场景是把手绘草图直接生成 3D 打印文件。从模糊的线条到精密的物理模型,中间横亘着几何建模、结构力学分析、打印路径优化等多道专业壁垒。Deep Think 做到了在理解绘图这意图的基础之上,主动补全了那些草图上没有画出来的受力逻辑。

第二个场景是罗格斯大学的数学家 Lisa Carbone 用它审稿,Deep Think 发现了一处人类审稿人集体遗漏的微秒逻辑漏洞,这意味着 AI 能在前沿研究的模糊地带捕捉到推理链的断裂,也意味着 AI 告别了只是复述教科书式的错误的阶段。

这两件事的共同点在于,AI 不再只是等待指令,开始主动介入创造与验证的闭环。这也正是姚顺宇在那篇广为流传的离职博文中反复提到的命题。这位当年清华物理系的特奖得主,大二开始选修研究生课程,先后成为美国斯坦福大学博士和美国加州大学伯克利分校博士后,却在传统理论物理最光鲜的学术坦途选择了转弯。他曾在博文里写道,一个没有实验指引的领域,很难客观评判理论工作的价值。他看到的困局,其实也是 AI 行业自身的影像。

过去两年,有时人们沉迷于在封闭基准上比拼小数点后的精度,却越来越远离使用智能解决真实问题的初心。姚顺宇把当下的 AI 研究比作 17 世纪的热力学。那时,人们甚至不知道热是什么,燃素说依然是主流,但是这并不妨碍波义尔通过系统实验总结出定律,并最终催生了蒸汽机。Deep Think 此次升级的野望,或许正是要成为AI世界的波义尔。

因此,与其说 Gemini 3 Deep Think 是一个模型,不如说它是一个正在快速进化的科研操作系统。3455 Elo 是它的左脑,84.6% 的抽象推理是它的右脑,而从草图到实物的 3D 打印能力是它伸向物理世界的一只手臂。几百年前,牛顿用自己在苹果树下的思考解释宇宙,AI 时代的今天,无论如何都得换种方法了。

参考资料:

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-deep-think/

https://the-decoder.com/google-deepmind-upgrades-gemini-3-deep-think-for-complex-science-and-engineering-tasks/

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
许昕:竟有这么多人希望王楚钦输!他独守半区 你却盼外国人赢?

许昕:竟有这么多人希望王楚钦输!他独守半区 你却盼外国人赢?

念洲
2026-04-05 06:27:07
马英九被批“暗独”之后做出表示:“反对武统,不代表支持独立”

马英九被批“暗独”之后做出表示:“反对武统,不代表支持独立”

小冠说娱
2026-04-05 23:57:13
人民日报13字锐评全红婵事件,国家体育总局果断行动

人民日报13字锐评全红婵事件,国家体育总局果断行动

吃青菜长高
2026-04-04 06:08:45
首例胜诉!小米法务部:超2万人参�...

首例胜诉!小米法务部:超2万人参�...

新浪财经
2026-04-06 00:25:22
女子假信佛与多位高僧发生不当关系,秘密录制5600段视频。

女子假信佛与多位高僧发生不当关系,秘密录制5600段视频。

特约前排观众
2026-02-09 00:05:05
金价彻底变天!2026年4月5日最新报价,全国金价价差全解析

金价彻底变天!2026年4月5日最新报价,全国金价价差全解析

三农老历
2026-04-06 05:18:22
确认离队!广东队迎来换帅最佳人选,比李春江更适合取代杜锋?

确认离队!广东队迎来换帅最佳人选,比李春江更适合取代杜锋?

绯雨儿
2026-04-05 15:13:41
伊朗军方:美军营救飞行员“任务失败” 多架飞机被击落

伊朗军方:美军营救飞行员“任务失败” 多架飞机被击落

界面新闻
2026-04-05 14:37:11
白人女性与黑人女性的体味差异,网友真实分享引发热议

白人女性与黑人女性的体味差异,网友真实分享引发热议

特约前排观众
2025-12-22 00:20:06
田曦薇从小就是班花级别,这美貌不要太出众!

田曦薇从小就是班花级别,这美貌不要太出众!

动物奇奇怪怪
2026-04-05 17:08:34
活久见!苏州业主反向收定金3000,这波操作把纱窗老板直接干跑路

活久见!苏州业主反向收定金3000,这波操作把纱窗老板直接干跑路

火山詩话
2026-04-05 06:43:20
一个人养活一座城,这次我是真开眼了。

一个人养活一座城,这次我是真开眼了。

小光侃娱乐
2026-02-11 05:15:05
两名军工院士栽了,被中科院除名

两名军工院士栽了,被中科院除名

张嘴说财经
2026-04-05 19:28:46
事态严重了!中方接到日媒消息,日本远导锁定东海,俄已选边站

事态严重了!中方接到日媒消息,日本远导锁定东海,俄已选边站

策略述
2026-04-02 18:20:07
心源性猝死的人越来越多?医生强调:宁可打打牌,建议别做这7事

心源性猝死的人越来越多?医生强调:宁可打打牌,建议别做这7事

医学原创故事会
2026-03-29 23:50:13
中超综述:3强不败仅1队不胜 2豪门翻车 5队仍负分 下轮3场焦点战

中超综述:3强不败仅1队不胜 2豪门翻车 5队仍负分 下轮3场焦点战

我爱英超
2026-04-05 21:39:42
《冬去春来》女演员颜值排名:曾黎仅排第三,榜首甜到观众心坎里

《冬去春来》女演员颜值排名:曾黎仅排第三,榜首甜到观众心坎里

落雪听梅a
2026-04-05 21:43:38
换了5台车才明白:家用车最没用的,就是车企吹爆的这6个“配置”

换了5台车才明白:家用车最没用的,就是车企吹爆的这6个“配置”

侃故事的阿庆
2026-04-04 18:06:46
郑丽文访陆前夕突生变数,美方信函曝光,局势反转有着什么信号

郑丽文访陆前夕突生变数,美方信函曝光,局势反转有着什么信号

阿芒娱乐说
2026-04-05 17:30:43
张雪峰猝然离世,妻子李丽婧的选择,撕开了多少女人的生存真相

张雪峰猝然离世,妻子李丽婧的选择,撕开了多少女人的生存真相

青梅侃史啊
2026-04-05 14:39:09
2026-04-06 06:56:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16541文章数 514841关注度
往期回顾 全部

科技要闻

花200薅5千算力,Claude冷血断供“龙虾”

头条要闻

伊朗军方:过去两天击落美军12架战机

头条要闻

伊朗军方:过去两天击落美军12架战机

体育要闻

CBA最老球员,身价7500万美元

娱乐要闻

王灿兮否认婆媳不和 晒与杜淳妈合影

财经要闻

谁造出了优思益这头“怪物”?

汽车要闻

家用SUV没驾驶乐趣?极氪8X第一个不同意

态度原创

数码
本地
艺术
手机
公开课

数码要闻

大胆复古美学,海盗船推出原子紫配色K65 PLUS WIRELESS机械键盘

本地新闻

跟着歌声游安徽,听古村回响

艺术要闻

绝了!东西方两幅神画,一眼就上瘾

手机要闻

OPPO Find X9s Pro银色哈苏专业增距镜亮相:观赛神器 颜值拉满

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版