网易首页 > 网易号 > 正文 申请入驻

清华姚顺宇跳槽谷歌后首秀:Gemini 3 Deep Think重大升级

0
分享至

2 月 12 日,谷歌上线 Gemini 3 Deep Think 的重大升级。这次升级的背后,也站着一位在 2025 年 9 月因为不满前东家 Anthropic 言论而辞职加入谷歌的清华物理系传奇校友姚顺宇。


图 | 姚顺宇(来源:资料图)

作为一款推理模型,Gemini 3 Deep Think 在多项基准测试中刷新纪录:ARC-AGI-2 测试达 84.6%,Codeforces 编程平台获 3,455 分(世界排名第 8,仅 7 人能超越),并在数学、物理、化学奥赛中达金牌水平。然而,其每项任务成本仅为 13.62 美元,比 OpenAI o3 降低大约 280-420 倍。目前,新模型已被用于数学论文审阅、晶体生长工艺优化等科研场景,现已通过 Gemini 应用和 API 向订阅用户及部分研究者开放。


(来源:Google)

如果你对 2025 年 Gemini Deep Think 在 IMO 摘金的印象还停留在这是一个很会解题的学霸,那么这次升级可能会让你重新认识它。学霸和科学家的区别在于:前者擅长回答带有标准答案的问题,但是后者敢于跳进没有边界、数据残缺、甚至没有人知道终点在哪里的浑水。这正是此次 Deep Think 升级最本质的跨越。


(来源:Google)

谷歌在官方博客中反复强调的关键词是:“messy or incomplete。”现实世界的科研难题,从来不像奥数题那样会给你完美的已知条件。一个凝聚态物理的实验数据可能包含无法复现的噪声,一个化学生物学交叉课题的文献综述可能需要横跨几十年的几十个互斥的假说。新版 Deep Think 的核心突破,则是学会了在这种混沌之中保持推理的优雅。

有这样一组数据也许足以让同行沉默。在被称为人类最后考试(Humanity‘s Last Exam)的极限基准测试中,Deep Think 在不借助任何外部工具的情况下拿下 48.4% 的准确率。这个数字的厉害之处在于,它不仅甩开了 GPT-5.2(34.5%)和 Claude Opus 4.6(40.0%),也意味着 AI 首次在横跨数百个尖端学科的长尾难题中,逼近了人类博士候选人的中位线。

而在 ARC-AGI-2 这个被公认为是抽象推理试金石的测试中,84.6% 的得分是一个代际断层的表现。ARC Prize Foundation 的独立验证,更是让这个数字褪去了营销成分。

可能会让一部分人感到脊背发凉的是 Codeforces 那行小小的数字:3455Elo。关注竞技编程的读者知道,2,700 分已经是国际特级大师的表现,3,000 分是人类穷尽职业生涯也难以触摸的神域。更可怕的是,3,455 分这个分数是不借助任何工具取得的,既不是纯文本生成,也没有代码执行辅助。这意味着 Deep Think 对于算法本质的理解,已经内化成为某种超越代码本身的直觉。


(来源:Google)

然而,如果把这次升级仅仅解读为跑分更强,就完全错过了谷歌布下的那盘大棋。这个棋局藏在两个看似不抬起眼的场景描述里。

第一个场景是把手绘草图直接生成 3D 打印文件。从模糊的线条到精密的物理模型,中间横亘着几何建模、结构力学分析、打印路径优化等多道专业壁垒。Deep Think 做到了在理解绘图这意图的基础之上,主动补全了那些草图上没有画出来的受力逻辑。

第二个场景是罗格斯大学的数学家 Lisa Carbone 用它审稿,Deep Think 发现了一处人类审稿人集体遗漏的微秒逻辑漏洞,这意味着 AI 能在前沿研究的模糊地带捕捉到推理链的断裂,也意味着 AI 告别了只是复述教科书式的错误的阶段。

这两件事的共同点在于,AI 不再只是等待指令,开始主动介入创造与验证的闭环。这也正是姚顺宇在那篇广为流传的离职博文中反复提到的命题。这位当年清华物理系的特奖得主,大二开始选修研究生课程,先后成为美国斯坦福大学博士和美国加州大学伯克利分校博士后,却在传统理论物理最光鲜的学术坦途选择了转弯。他曾在博文里写道,一个没有实验指引的领域,很难客观评判理论工作的价值。他看到的困局,其实也是 AI 行业自身的影像。

过去两年,有时人们沉迷于在封闭基准上比拼小数点后的精度,却越来越远离使用智能解决真实问题的初心。姚顺宇把当下的 AI 研究比作 17 世纪的热力学。那时,人们甚至不知道热是什么,燃素说依然是主流,但是这并不妨碍波义尔通过系统实验总结出定律,并最终催生了蒸汽机。Deep Think 此次升级的野望,或许正是要成为AI世界的波义尔。

因此,与其说 Gemini 3 Deep Think 是一个模型,不如说它是一个正在快速进化的科研操作系统。3455 Elo 是它的左脑,84.6% 的抽象推理是它的右脑,而从草图到实物的 3D 打印能力是它伸向物理世界的一只手臂。几百年前,牛顿用自己在苹果树下的思考解释宇宙,AI 时代的今天,无论如何都得换种方法了。

参考资料:

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-deep-think/

https://the-decoder.com/google-deepmind-upgrades-gemini-3-deep-think-for-complex-science-and-engineering-tasks/

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
差58席独裁!阿努廷向为泰党递刀:入伙或滚出政坛

差58席独裁!阿努廷向为泰党递刀:入伙或滚出政坛

风信子的花
2026-02-13 11:49:32
落袋为安?60亿,“跑了”

落袋为安?60亿,“跑了”

中国基金报
2026-02-13 13:46:29
马龙迪拜度假,夏露小腹隆起被疑怀二胎,高价麻布袋吸睛

马龙迪拜度假,夏露小腹隆起被疑怀二胎,高价麻布袋吸睛

悦君兮君不知
2026-02-12 15:32:45
狐狸尾巴藏不住了!以为能"毁掉"樊振东,不料自己先被扒个底朝天

狐狸尾巴藏不住了!以为能"毁掉"樊振东,不料自己先被扒个底朝天

观察鉴娱
2025-12-27 10:02:21
中国扣押往台岛运送武器船只信号发出?欧洲大国搞定了,中俄通话

中国扣押往台岛运送武器船只信号发出?欧洲大国搞定了,中俄通话

百态人间
2026-02-09 15:36:57
再论高尧参加韩日世界杯

再论高尧参加韩日世界杯

K唐伯虎
2026-02-12 07:43:47
老人去世后存款取不出?2026年新政落地,这些凭证比密码还管用

老人去世后存款取不出?2026年新政落地,这些凭证比密码还管用

复转这些年
2026-01-28 16:34:00
夸美国空气香甜的杨舒平,已被美驱逐出境,如今回国下场怎么样了

夸美国空气香甜的杨舒平,已被美驱逐出境,如今回国下场怎么样了

谈史论天地
2026-02-07 13:20:03
千万不要找太漂亮的另一半

千万不要找太漂亮的另一半

加油丁小文
2026-02-12 09:00:15
大布宣布与贝克汉姆“断亲”后亮相!与妮可拉抱4只狗街头秀恩爱

大布宣布与贝克汉姆“断亲”后亮相!与妮可拉抱4只狗街头秀恩爱

明星私服穿搭daily
2026-02-12 08:27:45
有钱人低调起来有多惊人?网友:简直颠覆认知。

有钱人低调起来有多惊人?网友:简直颠覆认知。

另子维爱读史
2025-12-28 17:43:40
邮报:曼联球员对拉爵言论感到震惊;俱乐部声明历经反复修改

邮报:曼联球员对拉爵言论感到震惊;俱乐部声明历经反复修改

懂球帝
2026-02-13 04:14:36
克林顿不是男人!要用雪茄助兴?莱温斯基:他把我当成“自助餐”

克林顿不是男人!要用雪茄助兴?莱温斯基:他把我当成“自助餐”

老蝣说体育
2026-01-05 14:59:04
中国出了一口气,巴基斯坦欠咱们300亿美元外债,终于可以还清了

中国出了一口气,巴基斯坦欠咱们300亿美元外债,终于可以还清了

百态人间
2026-01-26 15:30:27
真不敢去北方过年了,广东女子吐槽东北春节,直呼男人见了都怕

真不敢去北方过年了,广东女子吐槽东北春节,直呼男人见了都怕

笔墨V
2026-02-13 14:24:35
连续跌停!又一超级大妖股崩了?

连续跌停!又一超级大妖股崩了?

财经锐眼
2026-02-12 16:35:08
网友胖东来买车厘子放一个月后全坏了,一番沟通后同意退款

网友胖东来买车厘子放一个月后全坏了,一番沟通后同意退款

映射生活的身影
2026-02-13 14:36:46
大孤山风波愈演愈烈!超50位明星扎堆前往,名单曝光网友呼吁深挖

大孤山风波愈演愈烈!超50位明星扎堆前往,名单曝光网友呼吁深挖

萌神木木
2026-02-11 15:37:43
太意外!38岁中国教练率意大利击败中国队夺金牌,曾婉拒回国执教

太意外!38岁中国教练率意大利击败中国队夺金牌,曾婉拒回国执教

不写散文诗
2026-02-12 19:27:19
万万没想到!那个“指望不上”的王思聪,如今竟能为家族打头阵了

万万没想到!那个“指望不上”的王思聪,如今竟能为家族打头阵了

冷峻视角下的世界
2026-02-05 23:02:57
2026-02-13 17:23:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16262文章数 514607关注度
往期回顾 全部

科技要闻

DeepSeek更新后被吐槽变冷变傻?

头条要闻

俄驻日大使:俄日关系跌至"战后最低点"

头条要闻

俄驻日大使:俄日关系跌至"战后最低点"

体育要闻

这张照片背后,是米兰冬奥最催泪的故事

娱乐要闻

米兰冬奥摘银 谷爱凌再遭美国网友网暴

财经要闻

华莱士母公司退市 疯狂扩张下的食安隐忧

汽车要闻

探秘比亚迪巴西工厂 居然是这个画风!

态度原创

艺术
时尚
亲子
教育
数码

艺术要闻

书法大师的神作现身,引发网友热议!

50+女人怎么穿更好看?过来人告诉你答案,越老越美赢麻了

亲子要闻

今儿整个白菜酿肉,寓意百财来聚,看家人这反应,挺成功!

教育要闻

小升初求面积,很多学生不会

数码要闻

雷蛇旋风黑鲨V3 (Xbox授权)无线电竞耳麦新增白色版本

无障碍浏览 进入关怀版