网易首页 > 网易号 > 正文 申请入驻

清华姚顺宇跳槽谷歌后首秀:Gemini 3 Deep Think重大升级

0
分享至

2 月 12 日,谷歌上线 Gemini 3 Deep Think 的重大升级。这次升级的背后,也站着一位在 2025 年 9 月因为不满前东家 Anthropic 言论而辞职加入谷歌的清华物理系传奇校友姚顺宇


图 | 姚顺宇(来源:资料图)

作为一款推理模型,Gemini 3 Deep Think 在多项基准测试中刷新纪录:ARC-AGI-2 测试达 84.6%,Codeforces 编程平台获 3,455 分(世界排名第 8,仅 7 人能超越),并在数学、物理、化学奥赛中达金牌水平。然而,其每项任务成本仅为 13.62 美元,比 OpenAI o3 降低大约 280-420 倍。目前,新模型已被用于数学论文审阅、晶体生长工艺优化等科研场景,现已通过 Gemini 应用和 API 向订阅用户及部分研究者开放。


(来源:Google)

如果你对 2025 年 Gemini Deep Think 在 IMO 摘金的印象还停留在这是一个很会解题的学霸,那么这次升级可能会让你重新认识它。学霸和科学家的区别在于:前者擅长回答带有标准答案的问题,但是后者敢于跳进没有边界、数据残缺、甚至没有人知道终点在哪里的浑水。这正是此次 Deep Think 升级最本质的跨越。


(来源:Google)

谷歌在官方博客中反复强调的关键词是:“messy or incomplete。”现实世界的科研难题,从来不像奥数题那样会给你完美的已知条件。一个凝聚态物理的实验数据可能包含无法复现的噪声,一个化学生物学交叉课题的文献综述可能需要横跨几十年的几十个互斥的假说。新版 Deep Think 的核心突破,则是学会了在这种混沌之中保持推理的优雅。

有这样一组数据也许足以让同行沉默。在被称为人类最后考试(Humanity‘s Last Exam)的极限基准测试中,Deep Think 在不借助任何外部工具的情况下拿下 48.4% 的准确率。这个数字的厉害之处在于,它不仅甩开了 GPT-5.2(34.5%)和 Claude Opus 4.6(40.0%),也意味着 AI 首次在横跨数百个尖端学科的长尾难题中,逼近了人类博士候选人的中位线。

而在 ARC-AGI-2 这个被公认为是抽象推理试金石的测试中,84.6% 的得分是一个代际断层的表现。ARC Prize Foundation 的独立验证,更是让这个数字褪去了营销成分。

可能会让一部分人感到脊背发凉的是 Codeforces 那行小小的数字:3455Elo。关注竞技编程的读者知道,2,700 分已经是国际特级大师的表现,3,000 分是人类穷尽职业生涯也难以触摸的神域。更可怕的是,3,455 分这个分数是不借助任何工具取得的,既不是纯文本生成,也没有代码执行辅助。这意味着 Deep Think 对于算法本质的理解,已经内化成为某种超越代码本身的直觉。


(来源:Google)

然而,如果把这次升级仅仅解读为跑分更强,就完全错过了谷歌布下的那盘大棋。这个棋局藏在两个看似不抬起眼的场景描述里。

第一个场景是把手绘草图直接生成 3D 打印文件。从模糊的线条到精密的物理模型,中间横亘着几何建模、结构力学分析、打印路径优化等多道专业壁垒。Deep Think 做到了在理解绘图这意图的基础之上,主动补全了那些草图上没有画出来的受力逻辑。

第二个场景是罗格斯大学的数学家 Lisa Carbone 用它审稿,Deep Think 发现了一处人类审稿人集体遗漏的微秒逻辑漏洞,这意味着 AI 能在前沿研究的模糊地带捕捉到推理链的断裂,也意味着 AI 告别了只是复述教科书式的错误的阶段。

这两件事的共同点在于,AI 不再只是等待指令,开始主动介入创造与验证的闭环。这也正是姚顺宇在那篇广为流传的离职博文中反复提到的命题。这位当年清华物理系的特奖得主,大二开始选修研究生课程,先后成为美国斯坦福大学博士和美国加州大学伯克利分校博士后,却在传统理论物理最光鲜的学术坦途选择了转弯。他曾在博文里写道,一个没有实验指引的领域,很难客观评判理论工作的价值。他看到的困局,其实也是 AI 行业自身的影像。

过去两年,有时人们沉迷于在封闭基准上比拼小数点后的精度,却越来越远离使用智能解决真实问题的初心。姚顺宇把当下的 AI 研究比作 17 世纪的热力学。那时,人们甚至不知道热是什么,燃素说依然是主流,但是这并不妨碍波义尔通过系统实验总结出定律,并最终催生了蒸汽机。Deep Think 此次升级的野望,或许正是要成为AI世界的波义尔。

因此,与其说 Gemini 3 Deep Think 是一个模型,不如说它是一个正在快速进化的科研操作系统。3455 Elo 是它的左脑,84.6% 的抽象推理是它的右脑,而从草图到实物的 3D 打印能力是它伸向物理世界的一只手臂。几百年前,牛顿用自己在苹果树下的思考解释宇宙,AI 时代的今天,无论如何都得换种方法了。

参考资料:

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-deep-think/

https://the-decoder.com/google-deepmind-upgrades-gemini-3-deep-think-for-complex-science-and-engineering-tasks/

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
央媒点名广州严查楼盘偷面积,市场多方矛盾爆发,风险隐患或失控

央媒点名广州严查楼盘偷面积,市场多方矛盾爆发,风险隐患或失控

坠入二次元的海洋
2026-07-04 20:56:57
世界杯一战成名!曼联捡漏超级后腰!性价比完爆两大亿级目标

世界杯一战成名!曼联捡漏超级后腰!性价比完爆两大亿级目标

澜归序
2026-07-04 05:59:49
马未都回应“被盗佛像疑似现身观复博物馆”:等待上级公布鉴定结果

马未都回应“被盗佛像疑似现身观复博物馆”:等待上级公布鉴定结果

澎湃新闻
2026-07-04 22:14:26
斯图里奇:如果美国人看了佛得角还是无法爱上足球,那真没辙了

斯图里奇:如果美国人看了佛得角还是无法爱上足球,那真没辙了

云隐南山
2026-07-04 17:14:05
网购时要注意了,“旗舰店”和“官方店”一字之差,天壤地别!

网购时要注意了,“旗舰店”和“官方店”一字之差,天壤地别!

另子维爱读史
2026-05-25 07:55:09
黄金跌价,2026年7月4日,国内各大金店品牌黄金、足金最新价格

黄金跌价,2026年7月4日,国内各大金店品牌黄金、足金最新价格

坠入二次元的海洋
2026-07-04 08:48:19
0点0分正式生效!中方反制迅速出击,日本财政危急高市急寻对策

0点0分正式生效!中方反制迅速出击,日本财政危急高市急寻对策

史智文道
2026-07-04 10:06:36
调查发现:血管最怕的早餐,肉包子第五,第一名很多人天天都在吃

调查发现:血管最怕的早餐,肉包子第五,第一名很多人天天都在吃

路医生健康科普
2026-06-08 16:21:39
上海免费绿牌仅剩半年:蓝牌车主9万拍牌冤不冤?

上海免费绿牌仅剩半年:蓝牌车主9万拍牌冤不冤?

小怪吃美食
2026-07-04 19:22:08
连续两届世界杯狂轰7球!38岁梅西再创逆天纪录,1数据让马拉多纳C罗仰望

连续两届世界杯狂轰7球!38岁梅西再创逆天纪录,1数据让马拉多纳C罗仰望

日常碎碎念啊
2026-07-05 01:21:45
真“法老”来了,萨拉赫在埃及队晋级后带上法老头饰庆祝

真“法老”来了,萨拉赫在埃及队晋级后带上法老头饰庆祝

懂球帝
2026-07-05 02:47:07
巴西踢疯了,但最炸裂的不是比分,而是时隔981天的内马尔回来了

巴西踢疯了,但最炸裂的不是比分,而是时隔981天的内马尔回来了

衔春信
2026-07-04 15:36:20
世界杯夺冠概率排行:法国断层领跑,阿根廷第二葡萄牙第六

世界杯夺冠概率排行:法国断层领跑,阿根廷第二葡萄牙第六

懂球帝
2026-07-04 19:21:05
没完没了抹黑挑拨中俄!这群人源源不断带节奏,背后目的藏不住了

没完没了抹黑挑拨中俄!这群人源源不断带节奏,背后目的藏不住了

一国之君历史
2026-07-02 13:50:53
德天空:克洛普将被赋予相当大的权力,以着手解决根本性问题

德天空:克洛普将被赋予相当大的权力,以着手解决根本性问题

懂球帝
2026-07-04 19:42:08
7名志愿军在弹药耗尽的困境下,意外捡到美军遗留重机枪和弹药,成功创造了一个奇迹

7名志愿军在弹药耗尽的困境下,意外捡到美军遗留重机枪和弹药,成功创造了一个奇迹

小影的娱乐
2026-07-04 14:34:50
大家提前做好准备,2026年下半年开始,中国或将出现4大变化

大家提前做好准备,2026年下半年开始,中国或将出现4大变化

三农老历
2026-07-04 20:33:16
曝东契奇对湖人休赛期操作兴奋

曝东契奇对湖人休赛期操作兴奋

快乐加载中21
2026-07-04 01:51:44
亡人头七会回家,很少有人知道他们不是舍不得人间,是要带走这两物

亡人头七会回家,很少有人知道他们不是舍不得人间,是要带走这两物

烟火人间故事汇
2025-09-16 15:00:07
混双颁奖!王楚钦严肃,莎莎情绪不高,合影时祝贺对手展大将风度

混双颁奖!王楚钦严肃,莎莎情绪不高,合影时祝贺对手展大将风度

篮球资讯达人
2026-07-04 13:33:27
2026-07-05 03:52:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16924文章数 515077关注度
往期回顾 全部

科技要闻

韬定律论文V2版,充工程细节和实测数据

头条要闻

老人被一次拔12颗牙种10颗:能刷的钱都刷走 只剩30块

头条要闻

老人被一次拔12颗牙种10颗:能刷的钱都刷走 只剩30块

体育要闻

揭法国锋线最大优势 有人比姆巴佩还快?

娱乐要闻

白鹿打戏抠图惹非议 连累丞磊遭扒皮

财经要闻

韩国股市杠杆失控:450亿美元资金狂飙

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

艺术
游戏
家居
本地
公开课

艺术要闻

为什么时尚圈集体“失语”?只因这个男人的镜头,太敢拍了!

韩版“全境封锁”PC配置降低 内存改为32GB起步

家居要闻

传奇筑 日常诗

本地新闻

国内足球之旅?这座小城给你高分答案

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版