网易首页 > 网易号 > 正文 申请入驻

谷歌发布Gemini 3.1 Pro:推理性能翻倍,这一升级有何亮点?

0
分享至

昨天晚上刷推特,突然刷到 Google 官博的推送——Gemini 3.1 Pro 正式发布了。

说实话,我第一反应是有点懵。上周 Google 才刚刚更新了 Gemini 3 Deep Think,专门面向科学研究和工程领域;这才过了几天,又出来一个 3.1 Pro。这节奏,我感觉 Google 是真急了。



先说背景:这个版本从哪里来

在聊 3.1 Pro 本身之前,我觉得有必要梳理一下 Gemini 3 系列的脉络,不然容易搞混。

去年 11 月,Google 发布了 Gemini 3 Pro,那是这一代的基础版本。今年 1 月,他们又推出了带有 Agentic Vision 的 Gemini 3 Flash,主打多模态 Agent 能力。两周前的 Gemini 3 Deep Think,则是专门为硬核科研场景打磨的推理型模型。

那 3.1 Pro 是什么?官方的定位是——让 Deep Think 那一代突破性推理能力,真正落地到日常应用里。换句话说,3.1 Pro 是把尖端智能"下放"给普通用户和开发者用的那一层。

这个逻辑我觉得挺聪明的。顶层的科研模型跑通了,然后把核心推理能力打包进一个更通用、更易用的版本。这不就是 OpenAI 当年 o1 到 o1-mini 的路子嘛?Google 也在走这条路。


ARC-AGI-2 这个分数,到底意味着什么

官方发布文章里,我最在意的一个数字是:ARC-AGI-2 基准测试得分 77.1%

可能很多人不熟悉这个基准。我简单解释一下:ARC-AGI(Abstraction and Reasoning Corpus)是由 AI 安全研究员 François Chollet 设计的一套测试,专门用来评估模型面对从未见过的新逻辑规律时的推理能力。它的难点在于,这类题目没办法靠死记硬背训练数据来应付,必须真正"想明白"才能答对。

ARC-AGI-2 是难度更高的升级版。人类在这套测试上的表现大概在 80% 左右。

77.1%,几乎接近人类水平了。

更关键的是,官方说这个分数是 Gemini 3 Pro 的两倍以上。从 3 Pro 到 3.1 Pro,推理能力翻了一番——就一个小版本号的跨度,这个提升幅度不小。



第一个测试:复杂代码生成

让它直接从文本描述生成一个动态 SVG 动画。具体要求是:做一个粒子碰撞的物理模拟,粒子之间有弹性碰撞,颜色随速度变化,还要有边界反弹。

3 Pro 之前也做过类似尝试,出来的东西基本能跑,但物理逻辑经常有 bug,速度和颜色的映射也经常搞错。3.1 Pro 这次第一次生成就基本对了,只做了一处小改动。更重要的是,它生成的代码注释很清晰,逻辑分层也合理,不是那种一眼看上去密密麻麻、完全不知道从哪里下手修改的代码。



第二个测试:跨领域知识综合

扔给它一篇关于量子纠错码的学术论文摘要,然后让它帮解释这个技术对当前云计算架构可能产生的影响,并用一个非技术背景的 CTO 能听懂的方式呈现。

这类题目其实很难——它需要同时理解量子计算基础、现有云架构的局限、以及商业决策者的认知框架,然后把三者串起来。3.1 Pro 给出的回答让我有点意外,它没有堆砌术语,而是用了几个生动的类比,把量子纠错码的核心思想跟传统 RAID 磁盘容错做了对比,还点出了时间线预判和现阶段该关注什么。这个角度我自己写的话可能也会想到,但它的表达比我想象中更有层次感。



第三个测试:创意编码

官方博客里提到了一个例子——让模型为《呼啸山庄》设计一个现代个人作品集网站。我觉得这个思路挺好玩的,就自己也试了一个:让它为卡夫卡的《变形记》设计一个沉浸式网页体验。

结果让我觉得惊喜的地方在于,它不是简单地"绿色调+虫子图标"这种字面理解,而是从疏离感、官僚压迫、身份认同瓦解这些主题出发,设计了一个整体视觉语言——字体偏向机械感、布局故意不对称、颜色方案是灰棕色系。这说明它在做创意决策的时候,真的是在理解文本,而不只是在匹配关键词。


这次发布覆盖的平台挺全的

从官方公告来看,3.1 Pro 的铺开力度比以前大了很多,这次同步覆盖了好几条线:

开发者方面,可以通过 Gemini API 在 Google AI Studio 里直接体验 Preview 版本,同时也接入了 Gemini CLI 和 Google 的 Antigravity 智能体开发平台,还有 Android Studio。企业用户则可以在 Vertex AI 和 Gemini Enterprise 里用到。普通消费者的话,Gemini 应用和 NotebookLM 都已经开始滚动更新,但目前仅限 AI Pro 和 Ultra 订阅用户优先体验。

我个人用的是 AI Studio 的开发者通道,体验还算流畅,响应速度比预期快。



我的一些思考

说完功能,我想聊聊这件事背后的一些更大的东西。

这两个月,Google 的发布节奏明显加快了。Gemini 3 Flash、Deep Think、3.1 Pro……一个接着一个。这种频率,让我想起了 OpenAI 在 GPT-4 时期的状态。那时候每隔几周就有新东西,外界搞不清楚路线图,但你能感受到那种"在赶时间"的劲头。

现在 Google 也是这种感觉。



这当然不是坏事。对用户来说,竞争越激烈,我们用到的东西就越好。但我也有一个担忧:当发布节奏太快的时候,版本之间的能力差异就变得不好把握。3 Pro、3.1 Pro、Deep Think,这三者之间的边界在哪里?什么场景用哪个?这个问题对于普通用户来说其实已经开始有点复杂了。

另外,ARC-AGI-2 接近人类水平这件事,我觉得不应该轻描淡写地过去。这个基准本来就是 Chollet 设计来专门测"真实推理"的,不是那种可以通过大量训练数据"刷分"的类型。77.1% 意味着什么,现在还很难下定论,但至少说明模型在逻辑归纳和新情境适应方面有了实质性提升,而不只是记忆力变强了。

还有一点值得关注:官方说 3.1 Pro 目前是 Preview 状态,正式 GA(General Availability)还会"很快"到来。Preview 阶段的意义在于,他们还在收集反馈,特别是在 Agentic Workflow(自主任务执行流)方面继续打磨。这说明 Google 的下一个重点方向可能不只是"更聪明",而是"更能自主干活"。



最后说几句

Gemini 3.1 Pro,在我看来是一次扎实的升级。推理能力的跃升有基准支撑,实际体验也确实比 3 Pro 好了一个台阶。对于开发者和重度用户来说,现在就可以去 AI Studio 申请 Preview 权限试试看,值得花时间摸一摸。

当然,它也还不是"完美"的。我在几次复杂的长上下文任务里还是能看到它迷失方向、绕圈子的情况。这些边界在哪里,还需要继续用、继续测才能搞清楚。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
48岁欧阳夏丹父母双亡独自过年,一个人吃7道菜,大口吃饭不矫情

48岁欧阳夏丹父母双亡独自过年,一个人吃7道菜,大口吃饭不矫情

离离言几许
2026-02-20 23:38:28
冬奥会最大遗憾:中国队获得第1名却拿不到金牌!韩国狂拿1金2银

冬奥会最大遗憾:中国队获得第1名却拿不到金牌!韩国狂拿1金2银

何老师呀
2026-02-21 07:14:25
暴涨!暴涨!这个龙头迎来主升浪!中国乃至全球的绝对寡头,终于被看见了!国家队、社保、外资抢疯了!

暴涨!暴涨!这个龙头迎来主升浪!中国乃至全球的绝对寡头,终于被看见了!国家队、社保、外资抢疯了!

价值事务所所长
2026-02-21 21:03:43
华为手机基本走向没落了

华为手机基本走向没落了

月光作笺a
2026-02-21 06:06:45
再见了,私人账户避税!2月起,个人账户进账超过这个数要注意了!

再见了,私人账户避税!2月起,个人账户进账超过这个数要注意了!

祥顺财税俱乐部
2026-02-21 09:02:08
湛江妈祖事件发酵升级!有网友称,当地年轻人外出找工作都难了…

湛江妈祖事件发酵升级!有网友称,当地年轻人外出找工作都难了…

火山詩话
2026-02-21 12:06:43
妈祖乩童要凳子后续!手势全程不变,网友:是不是真心一看就懂

妈祖乩童要凳子后续!手势全程不变,网友:是不是真心一看就懂

奇思妙想草叶君
2026-02-21 18:04:11
妈祖事件真相大白,红衣女孩已做多年乩童,这三年来变化越来越大

妈祖事件真相大白,红衣女孩已做多年乩童,这三年来变化越来越大

观察鉴娱
2026-02-21 10:51:24
俄罗斯战机被击落,欧尔班投票阻援乌

俄罗斯战机被击落,欧尔班投票阻援乌

名人苟或
2026-02-21 16:58:13
7名中国游客在贝加尔湖遇难,目击者称事发冰面表面光滑但下方有裂缝,总领事馆:已与遇难人员家属建立联系

7名中国游客在贝加尔湖遇难,目击者称事发冰面表面光滑但下方有裂缝,总领事馆:已与遇难人员家属建立联系

极目新闻
2026-02-21 14:31:40
华为完蛋的信号?鸿蒙6失败,被迫退回鸿蒙4.3

华为完蛋的信号?鸿蒙6失败,被迫退回鸿蒙4.3

雪中风车
2026-02-21 13:36:38
“谈判陷入僵局”,外媒爆料:伊朗外长拒绝打开美方装有导弹提议的信函,并将其退回

“谈判陷入僵局”,外媒爆料:伊朗外长拒绝打开美方装有导弹提议的信函,并将其退回

环球网资讯
2026-02-21 17:27:11
反转!初中生扶摔倒老人遭索赔22万后续: 细节曝光,确实被吓到了

反转!初中生扶摔倒老人遭索赔22万后续: 细节曝光,确实被吓到了

离离言几许
2026-02-20 10:17:52
和谈破裂,俄乌将全面开战,英国再援乌229亿美元

和谈破裂,俄乌将全面开战,英国再援乌229亿美元

史政先锋
2026-02-21 16:46:58
恒大集团创始人许家印的靠山体系

恒大集团创始人许家印的靠山体系

地产微资讯
2026-02-21 18:49:14
中国第一监狱:关的几乎全是高官,为防止泄密,牢房内有特殊布置

中国第一监狱:关的几乎全是高官,为防止泄密,牢房内有特殊布置

瓦伦西亚月亮
2026-02-20 17:37:18
实测44台手机撕碎行业遮羞布:除苹果,国产全线作弊?

实测44台手机撕碎行业遮羞布:除苹果,国产全线作弊?

小兔子发现大事情
2026-02-21 10:44:54
省直机关女工程师陷美男计,拉公职人员丈夫当间谍17年,央视披露:将工作中的涉密文件私自带回家拍照拷贝,伺机出境,2人均获刑

省直机关女工程师陷美男计,拉公职人员丈夫当间谍17年,央视披露:将工作中的涉密文件私自带回家拍照拷贝,伺机出境,2人均获刑

极目新闻
2026-02-21 15:57:38
谷爱凌:人们之所以对我有意见,是因为讨厌中国

谷爱凌:人们之所以对我有意见,是因为讨厌中国

懂球帝
2026-02-21 16:53:05
多国敦促在伊朗公民尽快撤离

多国敦促在伊朗公民尽快撤离

每日经济新闻
2026-02-21 10:10:52
2026-02-21 23:11:00
时尚的弄潮
时尚的弄潮
快乐学习化学
826文章数 8073关注度
往期回顾 全部

数码要闻

华硕推出Dual RTX 5070 EVO显卡,专为小型机箱设计

头条要闻

立陶宛总统继续"嘴硬":不会跪下认错 中方要展现诚意

头条要闻

立陶宛总统继续"嘴硬":不会跪下认错 中方要展现诚意

体育要闻

冬奥第一"海王"?一人和13国选手都有关系

娱乐要闻

镖人反超惊蛰无声拿下单日票房第二!

财经要闻

一觉醒来,世界大变,特朗普改新打法了

科技要闻

智谱上市1月涨5倍,市值超越京东、快手

汽车要闻

比亚迪的“颜值担当”来了 方程豹首款轿车路跑信息曝光

态度原创

手机
时尚
房产
旅游
公开课

手机要闻

三星Galaxy S26系列颜色曝光:将推6种配色,两款为线上专属

一年中最不能错过的推送,超适合过年看!

房产要闻

窗前即地标!独占三亚湾C位 自贸港总裁行宫亮相

旅游要闻

“谁说过年人少的?”深圳多景区火爆,网友直呼“把我挤瘦了”

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版