网易首页 > 网易号 > 正文 申请入驻

清华姚顺宇跳槽谷歌后首秀:Gemini 3 Deep Think重大升级

0
分享至

来源:市场资讯

(来源:DeepTech深科技)

2 月 12 日,谷歌上线 Gemini 3 Deep Think 的重大升级。这次升级的背后,也站着一位在 2025 年 9 月因为不满前东家 Anthropic 言论而辞职加入谷歌的清华物理系传奇校友姚顺宇。


图 | 姚顺宇(来源:资料图)

作为一款推理模型,Gemini 3 Deep Think 在多项基准测试中刷新纪录:ARC-AGI-2 测试达 84.6%,Codeforces 编程平台获 3,455 分(世界排名第 8,仅 7 人能超越),并在数学、物理、化学奥赛中达金牌水平。然而,其每项任务成本仅为 13.62 美元,比 OpenAI o3 降低大约 280-420 倍。目前,新模型已被用于数学论文审阅、晶体生长工艺优化等科研场景,现已通过 Gemini 应用和 API 向订阅用户及部分研究者开放。


(来源:Google)

如果你对 2025 年 Gemini Deep Think 在 IMO 摘金的印象还停留在这是一个很会解题的学霸,那么这次升级可能会让你重新认识它。学霸和科学家的区别在于:前者擅长回答带有标准答案的问题,但是后者敢于跳进没有边界、数据残缺、甚至没有人知道终点在哪里的浑水。这正是此次 Deep Think 升级最本质的跨越。


(来源:Google)

谷歌在官方博客中反复强调的关键词是:“messy or incomplete。”现实世界的科研难题,从来不像奥数题那样会给你完美的已知条件。一个凝聚态物理的实验数据可能包含无法复现的噪声,一个化学生物学交叉课题的文献综述可能需要横跨几十年的几十个互斥的假说。新版 Deep Think 的核心突破,则是学会了在这种混沌之中保持推理的优雅。

有这样一组数据也许足以让同行沉默。在被称为人类最后考试(Humanity‘s Last Exam)的极限基准测试中,Deep Think 在不借助任何外部工具的情况下拿下 48.4% 的准确率。这个数字的厉害之处在于,它不仅甩开了 GPT-5.2(34.5%)和 Claude Opus 4.6(40.0%),也意味着 AI 首次在横跨数百个尖端学科的长尾难题中,逼近了人类博士候选人的中位线。

而在 ARC-AGI-2 这个被公认为是抽象推理试金石的测试中,84.6% 的得分是一个代际断层的表现。ARC Prize Foundation 的独立验证,更是让这个数字褪去了营销成分。

可能会让一部分人感到脊背发凉的是 Codeforces 那行小小的数字:3455Elo。关注竞技编程的读者知道,2,700 分已经是国际特级大师的表现,3,000 分是人类穷尽职业生涯也难以触摸的神域。更可怕的是,3,455 分这个分数是不借助任何工具取得的,既不是纯文本生成,也没有代码执行辅助。这意味着 Deep Think 对于算法本质的理解,已经内化成为某种超越代码本身的直觉。


(来源:Google)

然而,如果把这次升级仅仅解读为跑分更强,就完全错过了谷歌布下的那盘大棋。这个棋局藏在两个看似不抬起眼的场景描述里。

第一个场景是把手绘草图直接生成 3D 打印文件。从模糊的线条到精密的物理模型,中间横亘着几何建模、结构力学分析、打印路径优化等多道专业壁垒。Deep Think 做到了在理解绘图这意图的基础之上,主动补全了那些草图上没有画出来的受力逻辑。

第二个场景是罗格斯大学的数学家 Lisa Carbone 用它审稿,Deep Think 发现了一处人类审稿人集体遗漏的微秒逻辑漏洞,这意味着 AI 能在前沿研究的模糊地带捕捉到推理链的断裂,也意味着 AI 告别了只是复述教科书式的错误的阶段。

这两件事的共同点在于,AI 不再只是等待指令,开始主动介入创造与验证的闭环。这也正是姚顺宇在那篇广为流传的离职博文中反复提到的命题。这位当年清华物理系的特奖得主,大二开始选修研究生课程,先后成为美国斯坦福大学博士和美国加州大学伯克利分校博士后,却在传统理论物理最光鲜的学术坦途选择了转弯。他曾在博文里写道,一个没有实验指引的领域,很难客观评判理论工作的价值。他看到的困局,其实也是 AI 行业自身的影像。

过去两年,有时人们沉迷于在封闭基准上比拼小数点后的精度,却越来越远离使用智能解决真实问题的初心。姚顺宇把当下的 AI 研究比作 17 世纪的热力学。那时,人们甚至不知道热是什么,燃素说依然是主流,但是这并不妨碍波义尔通过系统实验总结出定律,并最终催生了蒸汽机。Deep Think 此次升级的野望,或许正是要成为AI世界的波义尔。

因此,与其说 Gemini 3 Deep Think 是一个模型,不如说它是一个正在快速进化的科研操作系统。3455 Elo 是它的左脑,84.6% 的抽象推理是它的右脑,而从草图到实物的 3D 打印能力是它伸向物理世界的一只手臂。几百年前,牛顿用自己在苹果树下的思考解释宇宙,AI 时代的今天,无论如何都得换种方法了。

参考资料:

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-deep-think/

https://the-decoder.com/google-deepmind-upgrades-gemini-3-deep-think-for-complex-science-and-engineering-tasks/

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
李在明手段果然狠辣,当着5000万韩国人的面,宣告尹锡悦最终结局

李在明手段果然狠辣,当着5000万韩国人的面,宣告尹锡悦最终结局

东极妙严
2026-02-12 17:45:44
周薪19万镑!曝马奎尔降薪续约曼联,拒绝加盟意甲,或重返国家队

周薪19万镑!曝马奎尔降薪续约曼联,拒绝加盟意甲,或重返国家队

夏侯看英超
2026-02-14 00:44:54
成都年货市场挤爆了:排队2小时,商家24小时营业,快递直接蹲门口收件

成都年货市场挤爆了:排队2小时,商家24小时营业,快递直接蹲门口收件

红星新闻
2026-02-13 21:26:09
太狂了! 30岁女星捧4.3亿现金无贷款买下豪宅财力震撼全网

太狂了! 30岁女星捧4.3亿现金无贷款买下豪宅财力震撼全网

邢育森
2026-02-11 11:02:42
商务部:希望荷方相向而行,为双方企业协商建设性解决内部纠纷创造有利条件

商务部:希望荷方相向而行,为双方企业协商建设性解决内部纠纷创造有利条件

财闻
2026-02-13 20:59:39
闫学晶风波彻底炸锅!不到24小时中戏两位领导自首 一堆明星被牵扯

闫学晶风波彻底炸锅!不到24小时中戏两位领导自首 一堆明星被牵扯

喜欢历史的阿繁
2026-02-14 01:02:55
中国的优势!哈佛教授:不要高估中国,因为美或许已控制其命脉

中国的优势!哈佛教授:不要高估中国,因为美或许已控制其命脉

舆图看世界
2026-02-06 09:30:03
电动车或将淘汰,替代品已出现,不充电不怕冷,续航超过100公里

电动车或将淘汰,替代品已出现,不充电不怕冷,续航超过100公里

小怪吃美食
2026-02-13 16:02:11
琼斯社媒发文!未收到好的报价,正在保持训练,承诺承担更多责任

琼斯社媒发文!未收到好的报价,正在保持训练,承诺承担更多责任

篮球资讯达人
2026-02-13 21:03:42
看蒋万安给儿子们起的名字,就知道他骨子里的中国人身份,藏不住

看蒋万安给儿子们起的名字,就知道他骨子里的中国人身份,藏不住

来科点谱
2026-02-12 07:19:46
26岁全身溃烂不治而亡,被全家8口吸血多年

26岁全身溃烂不治而亡,被全家8口吸血多年

仙味少女心
2026-01-31 23:14:30
赶超北上广房价,让欧美女孩上瘾的“中国神器”,在海外卖出80亿

赶超北上广房价,让欧美女孩上瘾的“中国神器”,在海外卖出80亿

毒sir财经
2026-02-09 22:22:49
41岁"舅妈"火遍全国!央媒揭开15年无人问津真相,郭京飞早已看穿

41岁"舅妈"火遍全国!央媒揭开15年无人问津真相,郭京飞早已看穿

白面书誏
2025-12-30 16:19:03
林孝埈没想到,孙龙夺银不到12小时,刘少昂凭一特殊举动口碑暴涨

林孝埈没想到,孙龙夺银不到12小时,刘少昂凭一特殊举动口碑暴涨

生活新鲜市
2026-02-14 01:12:48
舆论逆转!国际奥委会撤销处罚,赫拉斯克维奇留驻2026奥运赛场

舆论逆转!国际奥委会撤销处罚,赫拉斯克维奇留驻2026奥运赛场

老马拉车莫少装
2026-02-13 00:00:36
“台湾代表处”更名?立陶宛新政府理性纠偏,抛弃民进党当局

“台湾代表处”更名?立陶宛新政府理性纠偏,抛弃民进党当局

海峡导报社
2026-02-13 00:18:01
婆婆每年除夕夜都要大哭一场、前年哭走大姐20万去年哭走二姐36万

婆婆每年除夕夜都要大哭一场、前年哭走大姐20万去年哭走二姐36万

小影的娱乐
2026-02-14 03:50:52
72岁“唐僧”开始卖房!和陈丽华33年感情成笑话,百亿财产成空?

72岁“唐僧”开始卖房!和陈丽华33年感情成笑话,百亿财产成空?

草莓解说体育
2026-02-10 20:01:01
清华教授蒋国兵:移民加拿大刷油漆半年赚5千,宁愿自杀也不回国

清华教授蒋国兵:移民加拿大刷油漆半年赚5千,宁愿自杀也不回国

青梅侃史啊
2026-02-13 22:02:22
判了,无期!敛财3.8亿,伪装了7年的励志网红,最终还是露馅了

判了,无期!敛财3.8亿,伪装了7年的励志网红,最终还是露馅了

蜉蝣说
2025-10-21 09:19:12
2026-02-14 05:35:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2218053文章数 5466关注度
往期回顾 全部

科技要闻

独家探访蔡磊:答不完的卷子 死磕最后一程

头条要闻

8千元的迷你小马一夜爆火 马主:1天排泄次数达十几次

头条要闻

8千元的迷你小马一夜爆火 马主:1天排泄次数达十几次

体育要闻

这张照片背后,是米兰冬奥最催泪的故事

娱乐要闻

大衣哥女儿风光出嫁,农村婚礼超朴素

财经要闻

华莱士母公司退市 疯狂扩张下的食安隐忧

汽车要闻

探秘比亚迪巴西工厂 居然是这个画风!

态度原创

本地
手机
房产
健康
公开课

本地新闻

下一站是嘉禾望岗,请各位乘客做好哭泣准备

手机要闻

iPhone 17e外观在新视频中曝光 预计发布日期即将到来

房产要闻

三亚新机场,又传出新消息!

转头就晕的耳石症,能开车上班吗?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版