网易首页 > 网易号 > 正文 申请入驻

刚刚Gemini上新模型,全球只有7人比它会编程,谷歌姚顺宇参与

0
分享至



编辑|泽南

从此以后,AI 不再是工具,要尊称为「硅基博学家」了。

北京时间周五凌晨,谷歌发布了 Gemini 3 Deep Think 的重大升级,作为专门用于复杂任务的推理模式,Deep Think 代表 AI 前沿的最强智能水平,旨在解决科学、工程领域的诸多挑战。



去年 9 月加入 Google DeepMind 的清华物理系传奇姚顺宇(Shunyu Yao)也是这次 Deep Think 新模型的参与者。



去年,谷歌展示了专门开发的 Deep Think 版本能够成功应对一些最棘手的推理挑战,并在数学和编程世界锦标赛上取得了金牌成绩。最近,Deep Think 又使专门开发的智能体能够进行研究级别的数学探索。

更新后的深度思考模式继续拓展智能的边界,在最严格的学术基准测试中取得了新的高度,其中包括:

  • 在「人类的最后考试」(一项旨在测试现代前沿模型极限的基准测试)中,该模型取得了新的 SOTA(48.4%,不使用任何工具)。
  • 在 ARC-AGI-2 测试中取得了前所未有的 84.6% 的成绩,并经 ARC Prize 基金会验证。
  • 在 Codeforces 上取得了惊人的 3455 Elo 分数,Codeforces 是一个包含各种竞技编程挑战的基准测试平台。
  • 在 2025 年国际数学奥林匹克竞赛中取得金牌水平。



新版 Gemini 3 Deep Think 在 ARC-AGI-1 上的成绩是 96.0%,每任务花费 7.17 美元;在 ARC-AGI-2 上已经达到了 84.6% 的分数,每任务成本为 13.62 美元。



大约 14 个月前,OpenAI 模型 o3-preview 的「高计算」版本在 ARC-AGI-1 测试中达到了约 88% 的分数,每个任务的成本约为 2000 至 3000 美元。而 Gemini 3 Deep Think 的每任务成本仅为 7.17 美元,成本降低了约 280 至 420 倍。

这意味着我们现在需要再次为 AI 准备更复杂的测试题了。

除了数学和编程竞赛之外,Gemini 3 Deep Think 现在在化学和物理等广泛的科学领域也表现出色。更新后的 Deep Think 模式在 2025 年国际物理奥林匹克竞赛和化学奥林匹克竞赛的笔试部分取得了金牌级别的成绩。它还展现了在高等理论物理方面的能力,在 CMT-Benchmark 测试中取得了 50.5% 的分数。



还有这个在 Codeforces 上获得的 3455 分,Gemini 3 Deep Think 已经相当于世界排名第八的顶尖竞技程序员的水平。之前的最佳成绩是来自一年多以前 OpenAI o3 的 2727 分,排名第 175。

地球上只有 7 个人能在编程比赛中击败 Gemini 3 Deep Think。



对于 AI 和整个科技领域而言,这是一个以往难以想象的成果。

谷歌与科学家和研究人员紧密合作,对 Gemini 3 Deep Think 进行了升级。Deep Think 将深厚的科学知识与日常工程实践相结合,超越了抽象理论,推动了实际应用。

借助更新后的 Deep Think,你可以将草图转化为可 3D 打印的实体模型。Deep Think 会分析图纸,对复杂形状进行建模,并生成用于 3D 打印的实体文件。



谷歌展示了一些早期测试用户使用最新版 Deep Think 的成果:

罗格斯大学的数学家 Lisa Carbone 致力于研究高能物理学界所需的数学结构,以弥合爱因斯坦引力理论和量子力学之间的鸿沟。由于该领域缺乏大量的训练数据,她利用 Deep Think 技术审阅了一篇高度专业的数学论文。Deep Think 成功地识别出了一个细微的逻辑缺陷,而这个缺陷此前在人工同行评审中均未被发现。



在杜克大学,Haozhe "Harry" Wang 带领的实验室利用 Deep Think 技术优化了复杂晶体生长的制备方法,以期发现新的半导体材料。Deep Think 成功设计了一种能够生长厚度大于 100 微米薄膜的工艺,达到了以往方法难以企及的精确目标。



或许随着更多人的使用,我们不久之后能够基于 Gemini 3 Deep Think 实现更多科研突破。

全新 Deep Think 现已在 Gemini 应用中上线,目前 Google AI Ultra 订阅用户可以使用。此外,谷歌首次通过 Gemini API 向部分研究人员、工程师和企业开放 Deep Think 的使用权限。

参考内容:

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-deep-think/

https://x.com/shaneguML/status/2021999801911718029

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
李彦宏最大IPO来了

李彦宏最大IPO来了

华尔街见闻官方
2026-07-04 20:15:45
一场令人心痛的意外,让一个22岁云南大学生的人生永久定格

一场令人心痛的意外,让一个22岁云南大学生的人生永久定格

花小猫的美食日常
2026-07-04 10:02:01
71年毛主席南巡返京突停丰台,留李德生密令:速调38军1个师进京

71年毛主席南巡返京突停丰台,留李德生密令:速调38军1个师进京

小豫讲故事
2026-07-05 00:35:05
C罗:替补比被换下更难受!我赛前就预感有点球踢!

C罗:替补比被换下更难受!我赛前就预感有点球踢!

大嘴说台球
2026-07-04 06:25:02
他曾任北京军区司令员,1955年授中将,56岁被免职,儿子也是中将

他曾任北京军区司令员,1955年授中将,56岁被免职,儿子也是中将

新一说史
2026-07-05 01:36:19
7月买菜,少买豆角和茄子,多吃4种应季“黄金菜”,营养又便宜

7月买菜,少买豆角和茄子,多吃4种应季“黄金菜”,营养又便宜

秀厨娘
2026-07-02 16:30:15
女人送你这样东西,就是暗示想越界了,男人别太老实

女人送你这样东西,就是暗示想越界了,男人别太老实

新时代的两性情感
2026-07-05 02:53:21
最新确认:上海一区开始试点,逐步覆盖全市!

最新确认:上海一区开始试点,逐步覆盖全市!

新浪财经
2026-07-04 17:02:32
俄媒女主持人曾言:若中国愿出兵300万,俄军很快就能打败乌克兰

俄媒女主持人曾言:若中国愿出兵300万,俄军很快就能打败乌克兰

南宗历史
2026-03-17 16:53:10
让-克劳德:红牌发生后,对我们来说比赛已被“杀死”

让-克劳德:红牌发生后,对我们来说比赛已被“杀死”

懂球帝
2026-07-04 22:21:59
男子一觉醒来枕巾长“多肉”,吓得把枕巾丢了,紧急提醒:近期大量出现,别用手摸!

男子一觉醒来枕巾长“多肉”,吓得把枕巾丢了,紧急提醒:近期大量出现,别用手摸!

新浪财经
2026-07-04 21:40:05
中资拆除生产线,连夜回国!日本印度马上宣称要与印尼搞镍矿合作

中资拆除生产线,连夜回国!日本印度马上宣称要与印尼搞镍矿合作

阿龙聊军事
2026-07-04 09:25:21
霉霉世纪婚礼落幕!体育馆变童话城堡,穿着迪奥婚纱,听着自己的歌走过红毯

霉霉世纪婚礼落幕!体育馆变童话城堡,穿着迪奥婚纱,听着自己的歌走过红毯

英国那些事儿
2026-07-04 23:13:52
俄宣布占领康斯坦丁尼夫卡,国际权威媒体:俄军仅控制了37%

俄宣布占领康斯坦丁尼夫卡,国际权威媒体:俄军仅控制了37%

史政先锋
2026-07-04 13:25:19
心理学上说:一个人如果妙语连珠、善于接话、从不冷场,这并不是沟通能力强。真正的沟通能力强,是这个人坐在对面,能无限做这两件事

心理学上说:一个人如果妙语连珠、善于接话、从不冷场,这并不是沟通能力强。真正的沟通能力强,是这个人坐在对面,能无限做这两件事

心理观察局
2026-07-01 07:16:08
专家一句大实话火了:睡一人百次才是本事,放纵那叫本能

专家一句大实话火了:睡一人百次才是本事,放纵那叫本能

游戏收藏指南
2026-07-04 09:32:37
索尼13年前推文被扒出!回旋镖正中眉心

索尼13年前推文被扒出!回旋镖正中眉心

游民星空
2026-07-02 11:13:36
我买房后,父母在隔壁买套小两居给弟弟,隔天回家看房本我傻了!

我买房后,父母在隔壁买套小两居给弟弟,隔天回家看房本我傻了!

麦子情感故事
2026-07-05 00:23:10
哈佛大学研究发现:人生回报率最高的,是每天坚持这两个习惯

哈佛大学研究发现:人生回报率最高的,是每天坚持这两个习惯

心理观察局
2026-07-01 07:37:28
名媛不帮郭富城夫妻P图被骂!方媛又肿又僵,郭富城是花甲老爷爷

名媛不帮郭富城夫妻P图被骂!方媛又肿又僵,郭富城是花甲老爷爷

草莓解说体育
2026-07-03 15:28:20
2026-07-05 04:12:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13429文章数 142687关注度
往期回顾 全部

科技要闻

韬定律论文V2版,充工程细节和实测数据

头条要闻

老人被一次拔12颗牙种10颗:能刷的钱都刷走 只剩30块

头条要闻

老人被一次拔12颗牙种10颗:能刷的钱都刷走 只剩30块

体育要闻

揭法国锋线最大优势 有人比姆巴佩还快?

娱乐要闻

白鹿打戏抠图惹非议 连累丞磊遭扒皮

财经要闻

韩国股市杠杆失控:450亿美元资金狂飙

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

本地
数码
旅游
公开课
军事航空

本地新闻

国内足球之旅?这座小城给你高分答案

数码要闻

苏姿丰签名同款!极摩客EVO-X3 AI工作站全球开卖:国行版21699元起

旅游要闻

一块石板撑起整个彝族古村,当地流传千年神话,来过的人都称奇!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

普京宣布俄军“完全解放”卢甘斯克

无障碍浏览 进入关怀版