网易首页 > 网易号 > 正文 申请入驻

Gemini最强版本上线:推理断层领先,姚顺宇预告更强版本还在路上

0
分享至

就在上周谷歌发布 Gemini Deep Think 重大更新后,谷歌于今日正式推出新一代基础大模型 Gemini 3.1 Pro。

谷歌 CEO 桑达尔·皮查伊(Sundar Pichai)在社交平台上确认了这一消息。他表示,Gemini 3.1 Pro 相较前代 Gemini 3 Pro 的 31.1% 提升显著。新模型在处理复杂概念可视化、多源数据整合、创意项目落地等任务时表现更为出色,目前已逐步接入消费者与开发者产品。

去年9月加入谷歌 DeepMind 的清华大学校友、AI 研究员姚顺宇也在社交平台分享了相关进展,并暗示后续还有更强模型正在筹备中。


(来源:X)

从“.5”到“.1”的版本策略调整

按照谷歌以往的发布节奏,重大更新多集中在年中(如 Google I/O 大会),且常以“.5”后缀标识中期升级。但此次距离 Gemini 3 Pro 发布仅三个月,便推出了带“.1”后缀的 3.1 Pro,可见谷歌底层技术迭代加速,以及推动最新研究成果落地的节奏调整。

支撑这一节奏的,是新模型在核心推理能力上的提升。关键在于 ARC-AGI(抽象与推理语料库)基准测试。该测试不依赖知识记忆,而是考察模型面对陌生视觉与逻辑谜题时的多步推演能力,被视作衡量 AI 泛化与流体智力的重要参考。

在官方验证的 ARC-AGI-2 测试中,Gemini 3.1 Pro 得分为 77.1%,而数月前的 3 Pro 为 31.1%。横向对比,Anthropic 的 Claude Opus 4.6 得分为 68.8%,OpenAI 的 GPT-5.2 为 52.9%。这一差距说明,大模型在处理非结构化、未见过的推理任务时,正逐步从模式匹配向逻辑推演演进。


(来源:Google)

多项测试占优,细分场景仍存差距

除抽象推理外,谷歌公布的技术文档显示,Gemini 3.1 Pro 在 16 项主流基准测试中,有 12 项位列第一(含并列),覆盖学术知识、科学问答、代码生成、智能体协作及长上下文理解等方向。

在学术与科学能力方面,它在无外部工具辅助的 Humanity's Last Exam(人类终极考试)测试中准确率达 44.4%,在高难度科学知识测试 GPQA Diamond 中得分 94.3%。这两项成绩均以较高幅度优于当前主流竞品,体现出模型在知识储备与逻辑推导上的优势。


(来源:Google)

在开发者关注的代码与工程能力上,Terminal-Bench 2.0(终端操作代理测试)成功率达 68.5%,SWE-Bench Verified(真实 GitHub 问题求解)单次尝试得分 80.6%,与 Claude Opus 4.6 处于同一梯队;LiveCodeBench Pro 的 Elo 评分更是达到 2,887 分,显著领先于 GPT-5.2 的 2,393 分。

在多模态与长上下文理解方面,MCP Atlas(多步骤工作流)得分 69.2%,BrowseComp(代理搜索)85.9%,MMMLU(多语种问答)92.6%;在 128k 上下文的 MRCR v2 检索测试中,与 Claude Sonnet 4.6 并列第一(84.9%)。整体来看,新模型在多个维度展现出较为均衡的能力储备,而非单一维度的"偏科"优势。

尽管综合表现突出,当前大模型赛道已进入差异化竞争阶段,各模型在特定场景下仍各有侧重。

例如在面向实际工程场景的 SWE-Bench Pro 测试中,OpenAI 专为代码优化的 GPT-5.3-Codex 以 56.8% 领先,Gemini 3.1 Pro 为 54.2%;在评估商业流程操作的 GDPval-AA 测试中,Claude Sonnet 4.6 以 1633 分显著高于 Gemini 3.1 Pro 的 1317 分。

此外,在允许调用搜索与代码工具的 HLE 测试中,Claude Opus 4.6 略优于 Gemini 3.1 Pro;而在多模态理解测试 MMMU Pro 中,3.1 Pro 甚至微幅落后于前代 3 Pro。谷歌也未披露该模型的具体参数规模与训练数据细节。

从深度推理到日常应用

此次 Gemini 3.1 Pro 的性能飞跃,源于此前推出的 Gemini 3 Deep Think 模型。后者专攻科学计算与复杂工程,其卓越的推理能力已在国际奥赛等场景中得到实证。Gemini 3.1 Pro 则进一步将这种‘专家级’的核心能力拓展至通用领域,从而能够服务于更广泛的开发与用户需求。

谷歌官方博客列举了若干应用场景:

首先在基于代码的动画生成方面,3.1 Pro 能够直接根据文本提示生成适用于网站的 SVG 动画。由于此类动画由纯代码而非像素位图构成,因此具备无损缩放特性,在任何分辨率下均能保持清晰,且文件体积远小于先前形式。

其次是数据处理场景。 Gemini 3.1 Pro 展现了卓越的“工具使用(Tool Use)”能力。以国际空间站(ISS)轨道追踪为例,模型不仅能自主研读 NASA 复杂的 API 文档、编写数据抓取脚本,还能实时处理回传的流式遥测数据。令人吃惊的是,它能同步调用 D3.js 等可视化库,快速搭建出包含实时经纬度、轨道投影及速度指标的交互式仪表盘。

还有创意编程能力。模型能够深入理解文学名著(如海明威作品),提炼文字背后隐含的风格特征,转换成具体的交互界面细节。例如将简洁有力的短句转化为“极简主义”排版,将硬朗的情感基调映射为“高对比度”配色。最终,这些抽象的美学特征被精准转译为 CSS/HTML 代码。这种跨模态转换能力,使得文字创作者能以极低的成本,将抽象的文学内核注入数字产品的交互界面之中。

最后是深度交互设计。3.1 Pro 能够构建复杂的三维“椋鸟低语”模拟场景。这不仅仅是视觉代码的生成,更是沉浸式体验的营造:用户可通过手势追踪操控鸟群,并聆听随鸟类动作实时变化的生成式乐谱。对于研究人员和设计师而言,这为原型化多感官丰富的界面提供了强有力的工具。

此外,为加速能力落地,谷歌此次采取了分层部署策略。

普通用户可通过更新后的 Gemini 应用体验基础功能;高阶订阅用户在 NotebookLM 平台可独家接入 3.1 Pro 并享受更高调用额度。开发者可通过 Google AI Studio 申请 API 预览权限,Gemini CLI 与 Android Studio 已完成首批适配;企业客户则支持通过 Vertex AI 与 Gemini Enterprise 集成至私有业务流。这种"由浅入深"的推进方式,有助于不同层级的用户按需接入。

目前,3.1 Pro 已以预览版形式上线谷歌代理式开发平台 Antigravity。谷歌表示,此举旨在复杂多步任务场景中进一步验证与优化模型表现,为后续全面推广积累经验。

总体来看,Gemini 3.1 Pro 在推理能力与多维度任务表现上确有提升,尤其在抽象逻辑与代码工程方向优势明显。但大模型竞争已进入"场景适配"阶段,技术选型需结合具体需求理性评估。对于关注成本、稳定性与落地效率的用户而言,持续观察其在真实业务中的表现,或许比基准测试分数更具参考价值。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
财政压力的下半场:退休人员占比近四成,才是硬账

财政压力的下半场:退休人员占比近四成,才是硬账

超先声
2026-01-09 16:45:39
李易峰没人性!给未成年炮友上海买车房,付1500W封口费,嫖资超千万

李易峰没人性!给未成年炮友上海买车房,付1500W封口费,嫖资超千万

八卦王者
2026-02-18 15:52:51
太歹毒了!把他俩放在同一部影片里,是谁想出来的?

太歹毒了!把他俩放在同一部影片里,是谁想出来的?

钱小刀娱乐
2026-02-20 22:48:28
无法想象!美国每年消失35万儿童,真相比“炭烤幼崽”还黑暗

无法想象!美国每年消失35万儿童,真相比“炭烤幼崽”还黑暗

朗威谈星座
2026-02-20 21:28:51
他杀害数千红军和军长,故居却成景区被人洗白,终于被摘牌

他杀害数千红军和军长,故居却成景区被人洗白,终于被摘牌

品点历史
2026-02-14 07:50:07
金价暴跌前的信号?五大银行集体出手,你的黄金还能存吗?

金价暴跌前的信号?五大银行集体出手,你的黄金还能存吗?

王二哥老搞笑
2026-02-21 01:15:26
军委副主席,过去四十年来人数上的变化

军委副主席,过去四十年来人数上的变化

深度财线
2025-10-21 13:06:54
飞了48年,最远星际飞船发现可怕的事实:人类或被“困”在太阳系

飞了48年,最远星际飞船发现可怕的事实:人类或被“困”在太阳系

快看张同学
2026-02-19 14:13:58
农村怪象越来越多,除了“妻荒”外,如今又有4大怪象出现了

农村怪象越来越多,除了“妻荒”外,如今又有4大怪象出现了

长歌侃娱
2026-02-20 13:19:06
老太摔倒硬讹女孩22万反转!关键证据曝光,网友力挺:一点都不冤

老太摔倒硬讹女孩22万反转!关键证据曝光,网友力挺:一点都不冤

寒士之言本尊
2026-02-20 23:20:04
乌克兰摧毁俄南部最重要炼油厂!重创克里米亚空军基地

乌克兰摧毁俄南部最重要炼油厂!重创克里米亚空军基地

项鹏飞
2026-02-17 21:24:06
没想到吧?徐梦桃王心迪式的奥运金牌夫妻并不罕见,中国共有7对

没想到吧?徐梦桃王心迪式的奥运金牌夫妻并不罕见,中国共有7对

真理是我亲戚
2026-02-20 23:05:16
中国向全世界曝光:美国4400颗卫星,围堵中国空间站,这是要干啥

中国向全世界曝光:美国4400颗卫星,围堵中国空间站,这是要干啥

青烟小先生
2026-02-20 14:13:59
美最高法院“掀翻”特朗普关税令 美股三大指数瞬间翻红

美最高法院“掀翻”特朗普关税令 美股三大指数瞬间翻红

财联社
2026-02-21 00:10:15
澳洲情侣Crown Tower落地窗前“高难度”激战,数百露天电影观众抬头看呆

澳洲情侣Crown Tower落地窗前“高难度”激战,数百露天电影观众抬头看呆

澳洲红领巾
2026-02-19 14:15:49
明明状态相当不错,但掘金侧翼新星却并没有得到足够的战术支持?

明明状态相当不错,但掘金侧翼新星却并没有得到足够的战术支持?

稻谷与小麦
2026-02-21 02:35:11
河南新乡郭亮挂壁公路现塌方落石,大量烟尘弥漫,景区:已清理完毕恢复通行,无人员伤亡

河南新乡郭亮挂壁公路现塌方落石,大量烟尘弥漫,景区:已清理完毕恢复通行,无人员伤亡

极目新闻
2026-02-20 21:06:55
微信出现这条杠,说明你已被好友删除

微信出现这条杠,说明你已被好友删除

我不叫阿哏
2026-02-13 15:26:58
人生建议,不要轻易带父母去旅游!网友:只有疯了的人才带

人生建议,不要轻易带父母去旅游!网友:只有疯了的人才带

另子维爱读史
2026-01-23 20:28:44
男篮终于动真格了?郭士强秘密集训憋大招:全力冲击两连胜?

男篮终于动真格了?郭士强秘密集训憋大招:全力冲击两连胜?

篮球快餐车
2026-02-21 00:01:44
2026-02-21 02:59:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16294文章数 514624关注度
往期回顾 全部

数码要闻

苹果macOS 26.3代码曝光平价MacBook和新显示器

头条要闻

贝加尔湖遇难者遗体已被发现 涉事司机系私下接单

头条要闻

贝加尔湖遇难者遗体已被发现 涉事司机系私下接单

体育要闻

金牌夫妻!王心迪徐梦桃赛后拥抱太甜了

娱乐要闻

《将门独后》开拍,王鹤棣孟子义主演

财经要闻

特朗普全球关税被推翻!有何影响?

科技要闻

莫迪举手欢呼 两大AI掌门人却握拳尴尬对峙

汽车要闻

比亚迪的“颜值担当”来了 方程豹首款轿车路跑信息曝光

态度原创

旅游
健康
游戏
时尚
本地

旅游要闻

游人如织,新天地解锁马年最热闹的新春模样

转头就晕的耳石症,能开车上班吗?

《战神》新作真要去埃及?关键线索:雅典娜 埃及猫现身

冬季羽绒服是最“受捧”的单品,这样选款和搭配,舒适耐看

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

无障碍浏览 进入关怀版