网易首页 > 网易号 > 正文 申请入驻

刚刚Gemini上新模型,全球只有7人比它会编程,谷歌姚顺宇参与

0
分享至



编辑|泽南

从此以后,AI 不再是工具,要尊称为「硅基博学家」了。

北京时间周五凌晨,谷歌发布了 Gemini 3 Deep Think 的重大升级,作为专门用于复杂任务的推理模式,Deep Think 代表 AI 前沿的最强智能水平,旨在解决科学、工程领域的诸多挑战。



去年 9 月加入 Google DeepMind 的清华物理系传奇姚顺宇(Shunyu Yao)也是这次 Deep Think 新模型的参与者。



去年,谷歌展示了专门开发的 Deep Think 版本能够成功应对一些最棘手的推理挑战,并在数学和编程世界锦标赛上取得了金牌成绩。最近,Deep Think 又使专门开发的智能体能够进行研究级别的数学探索。

更新后的深度思考模式继续拓展智能的边界,在最严格的学术基准测试中取得了新的高度,其中包括:

  • 在「人类的最后考试」(一项旨在测试现代前沿模型极限的基准测试)中,该模型取得了新的 SOTA(48.4%,不使用任何工具)。
  • 在 ARC-AGI-2 测试中取得了前所未有的 84.6% 的成绩,并经 ARC Prize 基金会验证。
  • 在 Codeforces 上取得了惊人的 3455 Elo 分数,Codeforces 是一个包含各种竞技编程挑战的基准测试平台。
  • 在 2025 年国际数学奥林匹克竞赛中取得金牌水平。



新版 Gemini 3 Deep Think 在 ARC-AGI-1 上的成绩是 96.0%,每任务花费 7.17 美元;在 ARC-AGI-2 上已经达到了 84.6% 的分数,每任务成本为 13.62 美元。



大约 14 个月前,OpenAI 模型 o3-preview 的「高计算」版本在 ARC-AGI-1 测试中达到了约 88% 的分数,每个任务的成本约为 2000 至 3000 美元。而 Gemini 3 Deep Think 的每任务成本仅为 7.17 美元,成本降低了约 280 至 420 倍。

这意味着我们现在需要再次为 AI 准备更复杂的测试题了。

除了数学和编程竞赛之外,Gemini 3 Deep Think 现在在化学和物理等广泛的科学领域也表现出色。更新后的 Deep Think 模式在 2025 年国际物理奥林匹克竞赛和化学奥林匹克竞赛的笔试部分取得了金牌级别的成绩。它还展现了在高等理论物理方面的能力,在 CMT-Benchmark 测试中取得了 50.5% 的分数。



还有这个在 Codeforces 上获得的 3455 分,Gemini 3 Deep Think 已经相当于世界排名第八的顶尖竞技程序员的水平。之前的最佳成绩是来自一年多以前 OpenAI o3 的 2727 分,排名第 175。

地球上只有 7 个人能在编程比赛中击败 Gemini 3 Deep Think。



对于 AI 和整个科技领域而言,这是一个以往难以想象的成果。

谷歌与科学家和研究人员紧密合作,对 Gemini 3 Deep Think 进行了升级。Deep Think 将深厚的科学知识与日常工程实践相结合,超越了抽象理论,推动了实际应用。

借助更新后的 Deep Think,你可以将草图转化为可 3D 打印的实体模型。Deep Think 会分析图纸,对复杂形状进行建模,并生成用于 3D 打印的实体文件。



谷歌展示了一些早期测试用户使用最新版 Deep Think 的成果:

罗格斯大学的数学家 Lisa Carbone 致力于研究高能物理学界所需的数学结构,以弥合爱因斯坦引力理论和量子力学之间的鸿沟。由于该领域缺乏大量的训练数据,她利用 Deep Think 技术审阅了一篇高度专业的数学论文。Deep Think 成功地识别出了一个细微的逻辑缺陷,而这个缺陷此前在人工同行评审中均未被发现。



在杜克大学,Haozhe "Harry" Wang 带领的实验室利用 Deep Think 技术优化了复杂晶体生长的制备方法,以期发现新的半导体材料。Deep Think 成功设计了一种能够生长厚度大于 100 微米薄膜的工艺,达到了以往方法难以企及的精确目标。



或许随着更多人的使用,我们不久之后能够基于 Gemini 3 Deep Think 实现更多科研突破。

全新 Deep Think 现已在 Gemini 应用中上线,目前 Google AI Ultra 订阅用户可以使用。此外,谷歌首次通过 Gemini API 向部分研究人员、工程师和企业开放 Deep Think 的使用权限。

参考内容:

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-deep-think/

https://x.com/shaneguML/status/2021999801911718029

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
特朗普召开“和平委员会”首次会议,中俄收到邀请,但都不准备去

特朗普召开“和平委员会”首次会议,中俄收到邀请,但都不准备去

策略述
2026-02-12 16:07:02
这下谁还敢去印度投资?又一家企业被印坑惨,1.4 亿直接打水漂!

这下谁还敢去印度投资?又一家企业被印坑惨,1.4 亿直接打水漂!

青青子衿
2026-02-12 21:53:49
人间铁律!别人的儿子永远养不熟,天下的继父没有一个有好结果!

人间铁律!别人的儿子永远养不熟,天下的继父没有一个有好结果!

历史按察使司
2026-02-13 08:00:22
终于 立陶宛要“痛改前非”了?

终于 立陶宛要“痛改前非”了?

看看新闻Knews
2026-02-12 23:35:07
这个外国总统回中国祖籍地过年,他一路拍拍拍吃吃吃的都是什么?

这个外国总统回中国祖籍地过年,他一路拍拍拍吃吃吃的都是什么?

新民周刊
2026-02-12 20:56:16
王鑫被查,曾出演《风筝》《大江大河》《生万物》等经典影视剧

王鑫被查,曾出演《风筝》《大江大河》《生万物》等经典影视剧

中国网
2026-02-13 11:39:54
独家|华为内部反腐通报,原终端BG多媒体技术部部长邓某因涉嫌非国家工作人员受贿罪被龙岗区人民检察院依法批准逮捕

独家|华为内部反腐通报,原终端BG多媒体技术部部长邓某因涉嫌非国家工作人员受贿罪被龙岗区人民检察院依法批准逮捕

界面新闻
2026-02-13 13:49:20
金价 银价直线跳水

金价 银价直线跳水

闪电新闻
2026-02-13 10:26:19
女子故意扮丑去相亲,男子一眼看中,女子吃惊:他是不是太饿了

女子故意扮丑去相亲,男子一眼看中,女子吃惊:他是不是太饿了

丫头舫
2026-02-10 22:18:05
被全网评为最没用的8大闲置品,看谁还在往家搬?

被全网评为最没用的8大闲置品,看谁还在往家搬?

室内设计师有料儿
2025-12-25 10:44:52
河南一男子过年回家发现外籍妻子失联,还带走了全部家当;当事人:登录妻子微信,发现她给陌生男人转账20多万;当地村委已介入协调

河南一男子过年回家发现外籍妻子失联,还带走了全部家当;当事人:登录妻子微信,发现她给陌生男人转账20多万;当地村委已介入协调

扬子晚报
2026-02-12 21:30:03
刚从印度回来,说点不中听的:印度的真实面目,可能让你很意外

刚从印度回来,说点不中听的:印度的真实面目,可能让你很意外

复转这些年
2026-02-12 23:40:15
日本对中国渔船进行扣押,并逮捕船长,我国打脸高市早苗,不简单

日本对中国渔船进行扣押,并逮捕船长,我国打脸高市早苗,不简单

钦点历史
2026-02-13 13:01:32
钟南山:会用证据让全世界服气

钟南山:会用证据让全世界服气

第一财经资讯
2026-02-12 18:13:00
突发讣告!离过年不到6天;74岁张大导演去世,曾拍《三国演义》

突发讣告!离过年不到6天;74岁张大导演去世,曾拍《三国演义》

喜欢历史的阿繁
2026-02-13 11:35:10
易梦玲一双金灿灿的大灯,明艳晃眼

易梦玲一双金灿灿的大灯,明艳晃眼

吃瓜党二号头目
2026-02-13 08:13:30
高市早苗大获全胜之后,我们一些人真该好好反思

高市早苗大获全胜之后,我们一些人真该好好反思

少年一白
2026-02-11 02:54:53
广东春节前最高温将直逼30℃!但有两股冷空气在路上

广东春节前最高温将直逼30℃!但有两股冷空气在路上

环球网资讯
2026-02-13 10:02:42
一家三口驾车回家过年,凌晨高速撞上横穿的野猪,野猪被撞后逃离现场,当事人:车损严重,猪毛还卡在车轮

一家三口驾车回家过年,凌晨高速撞上横穿的野猪,野猪被撞后逃离现场,当事人:车损严重,猪毛还卡在车轮

潇湘晨报
2026-02-13 12:31:40
柬埔寨国王72岁了:没钱没权,无妻无子,和89岁老母亲相依为命

柬埔寨国王72岁了:没钱没权,无妻无子,和89岁老母亲相依为命

照见古今
2025-12-31 20:48:07
2026-02-13 14:00:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12299文章数 142564关注度
往期回顾 全部

科技要闻

DeepSeek更新后被吐槽变冷变傻?

头条要闻

男子和女子相亲第五天在泳池亲密 事后让他大跌眼镜

头条要闻

男子和女子相亲第五天在泳池亲密 事后让他大跌眼镜

体育要闻

这张照片背后,是米兰冬奥最催泪的故事

娱乐要闻

米兰冬奥摘银 谷爱凌再遭美国网友网暴

财经要闻

华莱士母公司退市 疯狂扩张下的食安隐忧

汽车要闻

探秘比亚迪巴西工厂 居然是这个画风!

态度原创

健康
家居
游戏
亲子
时尚

转头就晕的耳石症,能开车上班吗?

家居要闻

中古雅韵 乐韵伴日常

战神2D新作评价超高!97%玩家打出5星满分好评

亲子要闻

不用换尿布就多了3个孙女,奶奶高兴的合不拢嘴

50+女人怎么穿更好看?过来人告诉你答案,越老越美赢麻了

无障碍浏览 进入关怀版