网易首页 > 网易号 > 正文 申请入驻

姚顺宇参与,谷歌最强Gemini推理模型发布!测评碾压Opus 4.6、GPT-5.2

0
分享至

来源:市场资讯

(来源:智东西)


智东西

作者 云鹏

编辑 李水青

智东西2月13日消息,今天凌晨,谷歌发布了Gemini 3 Deep Think专用推理模式的重磅升级,其在“人类终极测试”、竞技编程测试、国际数学奥林匹克竞赛,以及国际物理、化学等多领域奥赛中均创下新记录,全面超越了Claude Opus 4.6和GPT-5.2,也超越了自家Gemini 3 Pro Preview。

▲Gemini 3 Deep Think在ARC-AGI-2、人类终极测试(Humanity’s Last Exam)竞技编程基准测试Codeforces、2025年国际数学奥林匹克竞赛四项测试中的成绩,得分均超过Claude Opus 4.6和GPT-5.2

毫无疑问,谷歌祭出了当前地表最强AI推理大模型。在Deep Think模式下,一张设计草图可以快速转化为3D打印文件,图纸分析、复杂三维建模一气呵成,用户将3D打印文件交付给打印机就可以完成实体生产:


▲在Deep Think模式下,一张设计草图可以快速转化为3D打印文件

谷歌CEO Sundar Pichai和相关高管都在X平台发文宣布了这一重磅发布,此前于去年9月加入谷歌DeepMind的清华物理系传奇人物姚顺宇(Shunyu Yao)也发文号召大家体验他们开发的新模式。


▲谷歌CEO(左)、姚顺宇(右)X平台发文

此姚顺宇非彼姚顺雨,后者是姚班出身、今年刚刚加入腾讯混元担任首席AI科学家的另一位“学神”。前一位姚顺宇现任谷歌DeepMind高级研究员,曾在Anthropic的Claude团队担任研究员,是拿过清华物理系传奇特奖的另一位“学神”。

此次的Deep Think模式升级也是姚顺宇加入后参与的首个重磅项目。


▲姚顺宇(左)和姚顺雨(右)

总体来看,Deep Think模式主要用于解决科学、研究和工程领域的挑战,目前只向Google AI Ultra订阅用户开放,不过科研人员、工程师和企业可以提交申请加入早期测试。


一、高难度基准测试猛刷记录,碾压Claude Opus 4.6、GPT-5.2

去年,谷歌已证实Deep Think模式的定制版本能攻克诸多高难度推理难题,在国际数学和编程锦标赛中达到金牌水准。而这次升级则让Deep Think模式更进一步支持研发人员开展研究级(research-level)的数学探索工作。

升级的Deep Think模式在各类高难度学术基准测试中创下了新纪录,具体包括:

·在“人类终极测试(Humanity’s Last Exam)”基准测试中,无工具辅助状态下取得48.4%的成绩,刷新该测试的最佳纪录(该测试专为检验前沿大模型的能力极限设计);

·在ARC-AGI-2基准测试中获84.6%高正确率,成绩经ARC奖基金会认证;

·在竞技编程基准测试平台Codeforces中,Elo评分3455分;

·在2025年国际数学奥林匹克竞赛中,达到金牌水准;

从排名中我们看到,Deep Think模式在上述四项基准测试中,全部领先于Claude Opus 4.6和GPT-5.2。

除数学和竞技编程领域外,升级后的Gemini 3 Deep Think在化学、物理等众多科学领域同样表现不错。

▲Gemini 3 Deep Think在各类测试中的成绩表现,所有测试项目均优于Claude Opus 4.6和GPT-5.2

根据谷歌公布测试成绩,Deep Think在2025年国际物理奥林匹克竞赛和国际化学奥林匹克竞赛的笔试环节中,均取得金牌水准的成绩;在高等理论物理领域也具备出色的应用能力,在凝聚态理论基准测试CMT-Benchmark中取得50.5%的成绩。

同样,在这些测试项目中,Deep Think的成绩全部高于Claude Opus 4.6和GPT-5.2。

二、推动实际应用落地,成为深度专业研究领域的最强助手

谷歌提到,除了强劲性能表现,Deep Think模式的研发核心目的是推动实际应用,也就是助力研究人员解析复杂数据、帮助工程师通过代码构建物理系统模型。

简单来说,这些领域的问题往往缺乏明确的指导原则或唯一的正确答案,数据也通常是杂乱无章或不完整的。Deep Think可以将深厚的科学知识与日常工程实践相结合,去解决这些复杂难题。

目前,谷歌正致力于让Deep Think模式覆盖科研和从业者的核心工作场景。

借助升级后的Deep Think模式,用户可以很快将一张设计草图转化为可3D打印的实体模型——Deep Think能自动分析图纸内容、构建复杂的三维形状模型,并生成对应的3D打印文件,实现实体物件的制作。


▲从文件草图到3D实体模型

此外,从谷歌给出的演示中我们看到,Deep Think可以识别出高专业度数学论文中一个此前人工同行评审从未发现的细微逻辑缺陷。


▲科学家利用Deep Think识别专业论文中的细节逻辑缺陷

Deep Think还可以用来优化复杂晶体生长的制备方法,用来探索新的半导体材料,在杜克大学的案例中,其设计的方案培育出了尺寸超过100微米的薄膜,技术指标超过此前所有方法。

谷歌研发主管、前Liftware CEO也用Deep Think来加速物理组件的设计。

可以说,Deep Think是真能搞定复杂的科学、研究和工程领域挑战。

结语:推理大模型专业化进一步加深,AI冲向科研最前线

Gemini 3 Deep Think模式的升级,重点提升了其在诸多科研专业学术领域解决复杂专业问题的能力,令其在顶尖专业领域加速技术研发的价值进一步凸显。

目前,AI模型与产业融合进一步加深,行业都在思索如何让模型能更好地在专业领域提升生产力,AI推理大模型的竞争,跑在了技术与学术的最前沿。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
光线传媒:公司参与的影片《飞驰人生3》《惊蛰无声》《熊猫计划之部落奇遇记》已定于2026年大年初一上映

光线传媒:公司参与的影片《飞驰人生3》《惊蛰无声》《熊猫计划之部落奇遇记》已定于2026年大年初一上映

证券之星
2026-02-12 19:35:58
Here we go!罗马诺:前尤文主帅图多尔将担任热刺主帅至赛季末

Here we go!罗马诺:前尤文主帅图多尔将担任热刺主帅至赛季末

懂球帝
2026-02-13 22:47:22
新赛季登陆中超的四大超级外援,均来自五大联赛,让人期待

新赛季登陆中超的四大超级外援,均来自五大联赛,让人期待

男足的小球童
2026-02-12 18:28:46
毛主席评价蒋介石:他手下有三大悍将,重用一位都不会败得这么惨

毛主席评价蒋介石:他手下有三大悍将,重用一位都不会败得这么惨

历史人文2
2026-02-06 19:57:40
南海危机急刹车!中方专机回国,外交部通告最后关头中菲达成一致

南海危机急刹车!中方专机回国,外交部通告最后关头中菲达成一致

策前论
2026-02-11 17:19:43
汽车圈“大地震”!比亚迪大将投奔行业巨头,叫嚣:三年内没对手

汽车圈“大地震”!比亚迪大将投奔行业巨头,叫嚣:三年内没对手

长星寄明月
2026-01-20 21:00:46
你有知道哪些炸裂的秘密?网友:我有个秘密说出来肯定大家要笑死

你有知道哪些炸裂的秘密?网友:我有个秘密说出来肯定大家要笑死

带你感受人间冷暖
2026-01-29 00:10:05
孤独婚车李婷曝光,婆家在农村,公婆勤劳婚房气派,人民日报点赞

孤独婚车李婷曝光,婆家在农村,公婆勤劳婚房气派,人民日报点赞

离离言几许
2026-02-13 10:51:36
湖北人嘴这么严吗?除了武汉其他地方都是农村,网友评论真相了!

湖北人嘴这么严吗?除了武汉其他地方都是农村,网友评论真相了!

墙头草
2026-01-22 07:39:39
等不了了?赖清德三军异动,中方定调:敢在春节动手,定不轻饶!

等不了了?赖清德三军异动,中方定调:敢在春节动手,定不轻饶!

观察者小海风
2026-02-13 11:42:55
重庆,新一轮大基建来了!

重庆,新一轮大基建来了!

娱乐洞察点点
2026-02-13 20:44:11
U17国足喜获上上签,进世界杯概率超5成,董路:拉肚子都能赢印尼

U17国足喜获上上签,进世界杯概率超5成,董路:拉肚子都能赢印尼

绿茵舞着
2026-02-13 00:08:13
北大才子杨舒春,不顾父母跪求拒进外交部,痴迷种地,后来怎样了

北大才子杨舒春,不顾父母跪求拒进外交部,痴迷种地,后来怎样了

珺瑶婉史
2025-12-25 19:45:03
白宫沉默的3小时:特朗普与内塔尼亚胡,正在进行的危险“对赌”

白宫沉默的3小时:特朗普与内塔尼亚胡,正在进行的危险“对赌”

枫叶君评
2026-02-13 08:44:25
黄金未来有可能到3万元一克?

黄金未来有可能到3万元一克?

流苏晚晴
2026-02-13 18:05:31
特朗普对全球下令,180天内废掉中方王牌,美媒:中国在霸凌美国

特朗普对全球下令,180天内废掉中方王牌,美媒:中国在霸凌美国

爱看剧的阿峰
2026-02-13 21:57:36
把国企当成“私人领地”,广西玉柴机器集团原董事长晏平被开除党籍

把国企当成“私人领地”,广西玉柴机器集团原董事长晏平被开除党籍

界面新闻
2026-02-13 17:51:03
江湖面子10:血债清偿

江湖面子10:血债清偿

金昔说故事
2026-02-13 20:01:27
罗翔因为沉默上了热搜,道理和常识某些人已不追求了

罗翔因为沉默上了热搜,道理和常识某些人已不追求了

禹人集法
2026-02-09 23:39:41
002969突发!深交所暂停部分投资者交易

002969突发!深交所暂停部分投资者交易

证券时报
2026-02-13 19:51:05
2026-02-13 23:16:51
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2216643文章数 5465关注度
往期回顾 全部

科技要闻

独家探访蔡磊:答不完的卷子 死磕最后一程

头条要闻

72岁母亲替已故儿女看乐山大佛:你们没有骗妈妈

头条要闻

72岁母亲替已故儿女看乐山大佛:你们没有骗妈妈

体育要闻

这张照片背后,是米兰冬奥最催泪的故事

娱乐要闻

大衣哥女儿风光出嫁,农村婚礼超朴素

财经要闻

华莱士母公司退市 疯狂扩张下的食安隐忧

汽车要闻

探秘比亚迪巴西工厂 居然是这个画风!

态度原创

亲子
时尚
家居
房产
军事航空

亲子要闻

什么字呢?

穿上这些鞋拥抱春天

家居要闻

中古雅韵 乐韵伴日常

房产要闻

三亚新机场,又传出新消息!

军事要闻

多次成功应对外舰、外机挑衅 太原舰展示052D硬核实力

无障碍浏览 进入关怀版