网易首页 > 网易号 > 正文 申请入驻

终极测试成绩创新高,谷歌Gemini 3深度思考模型重大升级,瞄准科研与工程应用

0
分享至

谷歌的深度思考模型Gemini 3 Deep Think迎来重大升级,将其专业推理能力从抽象理论推进至实际应用场景。这一升级聚焦于解决现代科学研究与工程领域的复杂挑战,标志着谷歌在企业级AI市场的战略性押注。

美东时间12日周四,谷歌官宣Gemini 3 Deep Think升级,称升级后的模型在多项行业基准测试中取得突破性成绩,包括在“人类的最后考试”Humanity's Last Exam(HLE)基准测试、ARC-AGI-2测试中获得84.6%的成绩,经ARC Prize基金会验证;在竞技编程平台Codeforces上,Gemini 3 Deep Think获得3455的Elo评分。


升级后的深度思考模式即日起面向Google AI Ultra订阅用户开放,同时通过Gemini API向部分研究人员、工程师及企业用户提供早期访问权限。谷歌表示,该模型已在实际研究中展现应用价值,从发现研究论文中的逻辑漏洞到优化半导体材料生长工艺。

这一发布使谷歌在AI推理模型竞争中与OpenAI的o1系列和Anthropic的Claude正面交锋。随着通用AI能力日趋商品化,专业推理能力成为企业级市场的新战场,而深度思考模式的推出显示谷歌不愿在这一高价值领域让步。

从基准测试到金牌表现

谷歌在其官方博客中强调了深度思考模式在严格学术基准测试中的表现。除前述成绩外,Gemini 3深度思考模型在2025年国际物理奥林匹克和化学奥林匹克的笔试部分均达到金牌水平,并在CMT-Benchmark高级理论物理测试中取得50.5%的分数。

谷歌提供的成绩对比可见,本月Gemini 3深度思考模型的多种测试结果均超过Anthropic和OpenAI各自的最强模型思维模式,也强于Gemini 3 Pro预览版的思考模式。

例如,在ARC-AGI-2测试中,Gemini 3深度思考的准确率为84.6%,Anthropic的Claude Opus 4.6 Thinking Max测试成绩为68.8%,OpenAI的GPT-5.2 Thinking xhigh为52.9%。


谷歌团队称,这次升级是与科学家和研究人员密切合作完成的,目标是应对“缺乏明确边界或单一正确答案,且数据往往杂乱或不完整”的研究挑战。该模型通过将深厚的科学知识与实用工程能力结合,实现了从抽象理论到实际应用的跨越。

在数学和编程能力的突破之外,深度思考模式的表现范围已扩展至化学、物理(包括理论物理)等多个科学领域。这种广度意味着该模型不再局限于特定学科,而是成为跨领域研究工具。

实际应用案例验证价值

早期测试用户的使用场景展示了该模型的实际应用潜力。罗格斯大学数学家Lisa Carbone在研究高能物理所需数学结构时,利用深度思考模式审阅一篇高度专业的数学论文。该模型成功识别出一处此前通过人类同行评审但未被发现的细微逻辑缺陷。

在杜克大学,Wang实验室利用深度思考模式优化复杂晶体生长的制造方法,用于潜在半导体材料的发现。该模型成功设计出一套配方,生长出超过100微米的薄膜,达到了先前方法难以实现的精确目标。

谷歌平台与设备部门的研发负责人、Liftware前CEOAnupam Pathak测试了新版深度思考模式,以加速物理组件的设计。

谷歌展示的另一应用场景显示,借助升级后的Gemini 3 Deep Think,用户可以将草图转化为可3D打印的实体模型。该模型能分析图纸,对复杂形状进行建模,并生成用于3D打印的实体模型文件。


企业级市场的战略布局

这次升级体现了AI行业的转向趋势——从通用聊天机器人转向能够处理专业级问题的专业推理引擎。对于企业客户而言,评估标准正在改变,不再仅关注哪个AI能最快编写代码或总结文档,而是聚焦推理能力——模型能否处理复杂财务模型、分析实验数据并识别方法论缺陷、协助专利研究或药物发现。

谷歌的优势在于整合能力。深度思考模式不是孤立存在,而是更广泛的Gemini生态系统的一部分,这意味着它可能利用谷歌庞大的知识图谱、科学数据集和研究合作伙伴关系。通过Google Cloud使用深度思考模式的研究人员,理论上可以访问独立AI服务无法匹敌的计算能力和数据源。

该公司周四在X平台发文称:“升级后的深度思考模式已经在推动发现并帮助研究人员解决'不可解'的问题——从发现研究论文中的缺陷到优化半导体(晶体)生长。” 这一表述强调了模型从测试基准到实际应用的转化能力。

从产品策略看,谷歌同时面向消费者和企业用户开放访问权限。Google AI Ultra订阅用户可通过Gemini应用程序立即使用,而科学家、工程师和企业用户则可通过早期访问计划申请使用Gemini API。这种分层策略反映出谷歌既要保持消费市场存在感,又要争夺高价值企业客户的双重目标。

推理模型竞赛升温

深度思考模式的推出使谷歌在AI推理竞赛中正面对抗OpenAI和Anthropic。OpenAI的o1模型据报道在生成响应前花费更多时间“思考”,使用强化学习改进推理链。Anthropic的Claude 3则在研究和分析任务中占据了一席之地。现在谷歌在同一领域插旗,背后是集成到Workspace和Cloud Platform带来的基础设施和分销优势。

对于专业用户而言,这意味着在快速通用响应与较慢的深度推理之间做出选择,成为新的架构决策。应用程序可能将简单查询路由到标准模型,同时将复杂问题上报到推理模式,创建分层AI推理方法。

谷歌周四在X平台发文称:"Gemini 3深度思考模式在推动智能前沿的基准测试中表现突出。具体数据:在'人类最后的考试'中达到48.4%(无工具),在ARC-AGI-2中达到84.6%(经ARC Prize基金会验证),在Codeforces竞技编程中获得3455 Elo评分。"

谷歌同时指出,模型现在在化学和物理等科学领域表现出色。

这场竞争的真正考验不在于发布声明,而在于实际采用率。如果研究机构和工程公司开始通过深度思考模式处理复杂工作,将验证谷歌的判断——企业AI的未来在于深度而非速度。目前,该公司已明确表态:它正在争夺AI市场的高端领域,在那里思考比对话更重要。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
曾是章子怡、孙红雷等人老师,中央戏剧学院陈刚主动投案!

曾是章子怡、孙红雷等人老师,中央戏剧学院陈刚主动投案!

中国青年报
2026-02-12 19:14:20
全球最贵!10岁马来西亚男孩100美元买下域名“AI.com”,33年后卖出7000万美元

全球最贵!10岁马来西亚男孩100美元买下域名“AI.com”,33年后卖出7000万美元

台州交通广播
2026-02-12 00:21:21
大风追踪 | “母亲派出所遭民警责骂,男子插话后被拖进女厕群殴”,终审维持原判,涉案民辅警刑罚不变

大风追踪 | “母亲派出所遭民警责骂,男子插话后被拖进女厕群殴”,终审维持原判,涉案民辅警刑罚不变

大风新闻
2026-02-12 11:43:13
河南一男子过年回家发现外籍妻子失联,还带走了全部家当;当事人:登录妻子微信,发现她给陌生男人转账20多万;当地村委已介入协调

河南一男子过年回家发现外籍妻子失联,还带走了全部家当;当事人:登录妻子微信,发现她给陌生男人转账20多万;当地村委已介入协调

扬子晚报
2026-02-12 21:30:03
CPI前AI恐慌又袭,道指跌超600点,苹果市值一夜蒸发近1.4万亿元!国际金银直线下挫!投资者密切关注这一关键数据

CPI前AI恐慌又袭,道指跌超600点,苹果市值一夜蒸发近1.4万亿元!国际金银直线下挫!投资者密切关注这一关键数据

每日经济新闻
2026-02-13 07:07:08
这个春节,三亚彻底火了!游客8499元订的民宿被临时毁约,附近民宿涨到三四万,机票价同比翻倍!95后、00后也多起来了

这个春节,三亚彻底火了!游客8499元订的民宿被临时毁约,附近民宿涨到三四万,机票价同比翻倍!95后、00后也多起来了

每日经济新闻
2026-02-12 22:13:04
尼日尔正式向法国宣战,局势紧张升级!

尼日尔正式向法国宣战,局势紧张升级!

乐天派WMQ
2026-02-13 00:46:02
重庆一村庄六户村民合建楼房,网友直呼“是建了所学校”,镇政府工作人员:将老屋推翻后重建,手续合规

重庆一村庄六户村民合建楼房,网友直呼“是建了所学校”,镇政府工作人员:将老屋推翻后重建,手续合规

极目新闻
2026-02-12 14:40:07
河村勇辉狂轰34+8+16:创两项生涯新高 世预赛将成中国男篮大敌

河村勇辉狂轰34+8+16:创两项生涯新高 世预赛将成中国男篮大敌

醉卧浮生
2026-02-12 15:24:31
美籍华裔冬奥花滑冠军刘美贤,曝系代孕儿,曾登上“吉米秀”,真实又可爱

美籍华裔冬奥花滑冠军刘美贤,曝系代孕儿,曾登上“吉米秀”,真实又可爱

爆角追踪
2026-02-12 10:30:32
NBA官方:狄龙领到第16次技犯被禁赛一场 损失薪水超12万美元

NBA官方:狄龙领到第16次技犯被禁赛一场 损失薪水超12万美元

罗说NBA
2026-02-13 06:06:13
以为改名就能红,结果是越改越糊,这5位多次改名的明星好心酸

以为改名就能红,结果是越改越糊,这5位多次改名的明星好心酸

上官晚安
2026-02-12 11:33:26
特朗普召开“和平委员会”首次会议,中俄收到邀请,但都不准备去

特朗普召开“和平委员会”首次会议,中俄收到邀请,但都不准备去

策略述
2026-02-12 16:07:02
瑞幸的“假”字乌龙,让大伙发现自己比AI还文盲

瑞幸的“假”字乌龙,让大伙发现自己比AI还文盲

钛媒体APP
2026-02-12 08:38:31
在深圳附近花110万买的海景房,现在跌到十几万,无人接盘

在深圳附近花110万买的海景房,现在跌到十几万,无人接盘

流苏晚晴
2026-02-11 18:30:55
近八成日本人表示,已无必要改善中日关系,高市早苗乐了

近八成日本人表示,已无必要改善中日关系,高市早苗乐了

吃货的分享
2026-02-12 15:45:13
伊朗政权生存逻辑:靠反美立权,用贫穷维稳,道歉只是演戏

伊朗政权生存逻辑:靠反美立权,用贫穷维稳,道歉只是演戏

老马拉车莫少装
2026-02-12 17:38:03
回国后仍被朝鲜经历扎心:一根中华烟,让我看到他们最脆弱的尊严

回国后仍被朝鲜经历扎心:一根中华烟,让我看到他们最脆弱的尊严

世界圈
2026-02-11 13:57:25
造73年耻辱纪录!新援建功,阿尔瓦雷斯传射,马竞4-0血洗巴萨

造73年耻辱纪录!新援建功,阿尔瓦雷斯传射,马竞4-0血洗巴萨

钉钉陌上花开
2026-02-13 06:05:03
中方全面索赔,巴总统改口,李嘉诚因祸得福,43个港口或能保住

中方全面索赔,巴总统改口,李嘉诚因祸得福,43个港口或能保住

王新喜
2026-02-12 20:21:15
2026-02-13 10:36:49
华尔街见闻官方 incentive-icons
华尔街见闻官方
中国领先的金融商业信息提供商
141725文章数 2652527关注度
往期回顾 全部

科技要闻

DeepSeek更新后被吐槽变冷变傻,业内解读

头条要闻

高市早苗被指"撑不久":她的头上还悬着一个巨大麻烦

头条要闻

高市早苗被指"撑不久":她的头上还悬着一个巨大麻烦

体育要闻

31岁首次参加冬奥,10年前她是个水管工

娱乐要闻

《惊蛰无声》违规抢占排片遭影院控诉

财经要闻

华莱士母公司退市 疯狂扩张下的食安隐忧

汽车要闻

开212 T01柴油版去穿越 连牧马人都跟不上

态度原创

数码
亲子
游戏
房产
公开课

数码要闻

苹果向AirPods 4,AirPods Pro 2和3耳机推送8B5034f固件

亲子要闻

孩子最渴望听到父母说的五句话

《怪猎物语3》生态探索体验炸裂 剧情成人化更具深度!

房产要闻

999元开线上免税店?海南爆出免税大骗局,多人已被抓!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版