网易首页 > 网易号 > 正文 申请入驻

姚顺宇谷歌首秀,Gemini新模型刷爆SOTA:仅剩7人捍卫碳基编程

0
分享至

面对Claude Opus 4.6和GPT Codex 5.3的猛烈攻势,谷歌反手就是一个Gemini 3 Deep Think的重大升级。



在Codeforces(一个包含各种竞技编程挑战的基准测试平台)上,它取得了惊人的3455Elo分数,相当于世界第8名



这下子,全球只有7人的编程水平能排在它前面了。而此前最高分是一年前o3拿下的2727 Elo。



Gemini 3 Deep Think的实力不止于此,它还直接把ARC-AGI-2——这个公认测试AI推理能力的前沿基准,给刷到了史无前例的84.6%

要知道,之前最强模型的得分在60%-70%之间徘徊,Claude Opus 4.6的成绩也只有68.8%。

人类最后考试(HLE)上,Gemini 3 Deep Think也刷新SOTA,拿下了48.4%的成绩。



官方表示,新版Deep Think是谷歌专门开发的推理模式,旨在推动智能前沿发展,并解决科学、研究和工程领域的现代挑战。

另一位“尧舜禹”——清华物理系传奇特奖得主姚顺宇(Shunyu Yao),去年9月加入谷歌DeepMind,也是这次Deep Think新模型的参与者。



新版DeepThink已经走进了实验室

升级后的Gemini 3 Deep Think实力究竟有多强?

它的野心不止于赢得基准测试,而是要走进科研和工程领域,帮助工程师处理复杂任务。

新版Deep Think可以分析草图,对复杂形状进行建模,并直接生成用于3D打印的实体文件。这是它打印的一个笔记本电脑支架:



谷歌VP Josh Woodward 在X上晒出了打印的成果,看起来对草图相当还原:



罗格斯大学的数学家Lisa Carbone,利用Gemini 3 Deep Think审阅了一篇高度专业的数学论文。

结果Gemini 3 Deep Think成功地识别出了一个细微的逻辑缺陷,而这个缺陷在此前的人工同行评审中均未被发现。



杜克大学的王安实验室,利用Gemini 3 Deep Think技术优化了复杂晶体生长的制备方法,以期发现新的半导体材料。

结果Gemini 3 Deep Think成功设计了一种能够生长厚度大于 100 微米薄膜的工艺,达到了以往方法难以企及的精确目标。



在X上,DeepSeek多模态团队研究员XiaoKang Chen也表示:Gemini 3 Deep Think非常擅长处理科学领域中的长尾任务。

他给Deep Think输入了一张复杂分子结构的图片,随后模型便准确地计算出了分子式。



勇夺三项新SOTA,推理成本降低82%

去年Deep Think专门版已经IMO等国际竞赛中夺下金牌。现在,全新升级后的Deep Think又在多项高难度的基准测试中全面刷新SOTA:

  • 不使用任何工具,在HLE中取得新SOTA——48.4%
  • 在ARC-AGI-2测试中取得前所未有的84.6%的成绩,并经 ARC Prize 基金会验证;
  • 在Codeforces上取得了惊人的3455Elo分数;
  • 在2025年国际数学奥林匹克竞赛中达到金牌水平。



其中,ARC-AGI-2被誉为AI界的“图灵测试”,旨在衡量模型处理从未见过的新颖推理任务的能力

要知道,去年12月刚发布的初代Deep Think得分还是45.1%,不到三个月时间已经飙升到84.6%,比Opus 4.6还要强出一截。

而在ARC-AGI-1上,Gemini 3 Deep Think取得了96%的成绩,直接顶到天花板了。



性能提升的同时,推理成本也在大幅下降。初代Deep Think执行每项任务的成本为77.16美元。此次升级让成本降低了82%,每项任务仅需13.62美元



由于1和2都被Gemini刷爆了,现在ARC Prize已经在构建ARC-AGI-3了……

除了数学和编程,升级后的Deep Think在化学和物理等广泛的科学领域同样表现出色。

在2025年国际物理奥林匹克竞赛和化学奥林匹克竞赛中,Gemini 3 Deep Think在笔试部分取得了金牌级别的成绩。

此外,它还展现了在高等理论物理方面的能力,在CMT-Benchmark测试中取得了50.5%的分数。



华人带队,打造最强推理模型

Gemini 3 Deep Think的研发团队中,有不少华人身影。

核心成员包括95后华人科学家Yi Tay,他在Gemini团队中从事强化学习和推理方向的研究工作。



此前,他曾在Google Brain共同领导早期大语言模型项目,包括PaLM-2、UL2和Flan-2。

在Google Brain工作3年多之后,2023–2024 年间,Yi Tay曾短暂离开谷歌,作为联合创始人创办了一家独角兽AI初创公司——Reka。

Reka AI由DeepMind、谷歌和Meta的研究人员创立,其创办初衷是打造功能强大且高效的基础模型,现在也开发界面设计、应用逻辑以及其他应用方面的工具。

在创业一年半后,Yi Tay便重返谷歌DeepMind,担任高级资深研究科学家,继续从事人工智能和大语言模型的研究。

去年刚从Anthropic跳槽到谷歌DeepMind的清华校友姚顺宇,也参与了Deep think新模型的开发。



姚顺宇本科就读于清华大学物理系,曾拿下过清华本科生特等奖学金(清华授予在校优秀本科生的最高奖学金荣誉)

本科期间,他就已在《Physical Review Letters》(国际物理学领域最顶级的学术期刊之一)发表高水平论文,首次在国际上给出了关于非厄米系统的拓扑能带理论,不仅准确预测了相关现象,还定义了两个新的物理概念。

本科毕业后,他赴斯坦福大学继续攻读博士,专注于量子多体混沌、开放量子系统动力学等前沿问题,师从Douglas Stanford(美国理论物理学家,被同行视为顶尖且有潜力改变物理学发展方向的年轻科学家之一)、Zhenbin Yang(杨振斌,华裔美国科学家,公认的20世纪最重要的物理学家之一)等知名学者。

博士毕业后,他先是去UC伯克利做博士后研究,随后加入了Anthropic。在Anthropic工作的一年时间里,他参与组建了强化学习基础团队,负责了Claude 3.7 Sonnet框架,以及Claude 4系列背后的基本强化学习理论。

离开Anthropic之后,姚顺宇转战谷歌DeepMind,继续从事AI方面的研究。这次Deep Think新模型发布,也是他在谷歌的首秀之作


[1]https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-deep-think/
[2]https://x.com/ShunyuYao14/status/2022013770843967900
[3]https://x.com/YiTayML/status/2021988841142534287
[4]https://x.com/NoamShazeer/status/2021988459519652089
[5]https://x.com/PKUCXK/status/2022144532272623990

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
四川多名干部履新副厅级领导职务

四川多名干部履新副厅级领导职务

金台资讯
2026-02-13 12:02:57
“被亏待的人就这面相”,大二女生视频火了,不被爱的痕迹太明显

“被亏待的人就这面相”,大二女生视频火了,不被爱的痕迹太明显

妍妍教育日记
2026-02-06 20:18:00
日本扣押中国渔船,抓走47岁船长,理由荒唐至极

日本扣押中国渔船,抓走47岁船长,理由荒唐至极

梦想的现实
2026-02-13 17:51:51
多艘战舰接连亮相 带你近距离了解海军“新面孔”

多艘战舰接连亮相 带你近距离了解海军“新面孔”

环球网资讯
2026-02-13 08:37:08
王毅外长:今后世上再无“中国台湾省”之外的任何模糊称谓。

王毅外长:今后世上再无“中国台湾省”之外的任何模糊称谓。

南权先生
2026-02-02 15:59:44
一被告人6小时3次吸食毒品后驾车撞死4人 法院:罪行极其严重 判处死刑

一被告人6小时3次吸食毒品后驾车撞死4人 法院:罪行极其严重 判处死刑

红星新闻
2026-02-13 11:58:20
“全面拆迁”来了?2026年住建部已明确,这两类房子或将通通拆迁

“全面拆迁”来了?2026年住建部已明确,这两类房子或将通通拆迁

古事寻踪记
2026-02-03 07:11:55
联合国前主席称:中国人的风俗,世界上没有一个国家能够学得来

联合国前主席称:中国人的风俗,世界上没有一个国家能够学得来

东极妙严
2026-02-13 14:10:31
挤爆的车抵贷

挤爆的车抵贷

读懂数字财经
2026-02-13 11:06:36
2026年:一匹狼临死前放下藏了7年的东西,让两亿人泪崩

2026年:一匹狼临死前放下藏了7年的东西,让两亿人泪崩

茉莉聊聊天
2026-01-18 09:05:09
收评|谁在砸!A股红包炸了!

收评|谁在砸!A股红包炸了!

龙行天下虎
2026-02-13 15:05:57
央媒发文,官宣28岁赵心童喜讯,让丁俊晖和整个体坛刮目相看

央媒发文,官宣28岁赵心童喜讯,让丁俊晖和整个体坛刮目相看

翰飞观事
2026-02-13 16:55:11
《寻秦记》确认亏损,古天乐不甘心,办庆功宴并推出25分钟加长版

《寻秦记》确认亏损,古天乐不甘心,办庆功宴并推出25分钟加长版

电影票房预告片
2026-02-12 23:42:48
富士康“赌输”了!郭台铭做梦也没有想到,“制裁”会来的这么快

富士康“赌输”了!郭台铭做梦也没有想到,“制裁”会来的这么快

混沌录
2025-08-22 18:23:58
马筱梅忽然提前报喜,宝宝意外降生,汪小菲专程赴曼谷还愿太暖心

马筱梅忽然提前报喜,宝宝意外降生,汪小菲专程赴曼谷还愿太暖心

手工制作阿歼
2026-02-13 18:14:49
挤走董卿、靠爹上位、央视“穷鬼”,龙洋私生活谣言有多离谱?

挤走董卿、靠爹上位、央视“穷鬼”,龙洋私生活谣言有多离谱?

琴声飞扬
2026-02-06 11:52:11
辣眼睛!为省固态钱MacBook Air“丑陋”改装:胶带硬粘外挂SATA硬盘

辣眼睛!为省固态钱MacBook Air“丑陋”改装:胶带硬粘外挂SATA硬盘

快科技
2026-02-12 11:48:06
不出意外的话,中国未来超过一半人口,将会流入到这些地方

不出意外的话,中国未来超过一半人口,将会流入到这些地方

社会日日鲜
2026-02-11 14:04:49
河南矿山集团去年盈利2.7亿,发1.8亿年终奖,年会数钱时间延长至最高15分钟,数多少拿多少!总裁:估计能数十多万

河南矿山集团去年盈利2.7亿,发1.8亿年终奖,年会数钱时间延长至最高15分钟,数多少拿多少!总裁:估计能数十多万

大象新闻
2026-02-13 13:43:03
华为通报出来了:华为老员工邓某被逮捕,任正非果然留了一手

华为通报出来了:华为老员工邓某被逮捕,任正非果然留了一手

花小猫的美食日常
2026-02-13 15:59:20
2026-02-13 19:19:00
量子位 incentive-icons
量子位
追踪人工智能动态
12163文章数 176383关注度
往期回顾 全部

科技要闻

独家探访蔡磊:答不完的卷子 死磕最后一程

头条要闻

首次访华前 德国总理默茨在发言中将中欧对比引发关注

头条要闻

首次访华前 德国总理默茨在发言中将中欧对比引发关注

体育要闻

这张照片背后,是米兰冬奥最催泪的故事

娱乐要闻

米兰冬奥摘银 谷爱凌再遭美国网友网暴

财经要闻

华莱士母公司退市 疯狂扩张下的食安隐忧

汽车要闻

探秘比亚迪巴西工厂 居然是这个画风!

态度原创

数码
本地
时尚
教育
艺术

数码要闻

银昕推出2U Single服务器电源:ATX 3.1金牌,直出线设计

本地新闻

下一站是嘉禾望岗,请各位乘客做好哭泣准备

豪门圈著名情侣,拉扯多年,终于修成正果?

教育要闻

“贫民窟的太子爷”,家长晒4个女儿1个儿子,细节暴露家教低劣

艺术要闻

于右任又一真迹出土!这才是当代“真草圣”

无障碍浏览 进入关怀版