网易首页 > 网易号 > 正文 申请入驻

谷歌Gemini最“小”的一次迭代,姚顺宇为何高呼“不可阻挡”?

0
分享至

文 | 字母AI,作者 | 小金牙,编辑 | 王靖

人们还在津津乐道OpenAI和Anthropic两家公司的老板拒绝牵手,以至于握拳高举的滑稽画面,另一边,谷歌一个反手迭代了模型。


而且这次迭代,颇像是狼披上了羊皮——从模型后缀的数字序号看,这是谷歌最“小”的一次迭代,之前都是从Gemini 2.0到Gemini 2.5这样的迭代,这次从Gemini 3.0到Gemini 3.1Pro Preview。


但是这“.1”的迭代,进步得却不是一星半点。

谷歌CEO皮查伊(Sundar Pichai)表示,新代模型非常擅长处理“超级复杂的任务”。例如将复杂概念可视化、将数据综合成单一视图或者将创意项目变为现实。


姚顺宇也专门在X上发帖为Gemini 3.1 Pro Preview振臂,盛赞:

“Gemini不仅仅是一个好模型,更好的模型正在以不可阻挡之势到来。”


需要注意的是,大约一周前,谷歌推出了“专用推理模式”Gemini 3 Deep Think,专为科学、研究、工程等复杂、开放式问题设计。

Demini 3 Deep Think是姚顺宇从Anthropic跳槽到谷歌DeepMind之后参与的第一个项目。

而如今的Gemini 3.1 Pro Preview和Gemini 3 Deep Think有千丝万缕的关系,官方表示“直接构建在Gemini 3 Deep Think的经验和技术之上”。相当于把Deep Think的核心推理提升技术“下放”到更广泛可用的Pro模型中。

Gemini 3.1 Pro Preview能做什么

既然这次新代模型的突出能力在处理“超级复杂”的任务,那么普通的对话放一边,谷歌的官方博文中,重点给出了几种示例秀肌肉。

第一,通过简单的提示词,创建SVG动画。

这个功能前代也有,但是对比之下进步明显。

比如提示词“生成一个SVG,描绘一只变色龙静静地坐在树枝上。让变色龙的眼睛跟随用户的鼠标光标在屏幕上移动。”

Gemini 3 Pro生成的动画背景是单一的白色,变色龙也看起来很呆板,甚至一侧有两只眼睛。

Gemini 3.1 Pro生成的动画则有丰富的“深绿色丛林”背景,变色龙身体有黄色斑纹和圆点装饰,眼睛立体,腿部姿势自然弯曲。


再比如提示词“生成一个滑动切换开关的SVG,当鼠标悬停在太阳图标上时,将其变成发光的月亮,同时背景从明亮平滑渐变到黑暗。采用干净的扁平UI风格。”

Gemini 3 Pro给出的动画虽然完成了任务,图标可以随鼠标变化,但是主图标单一,是一个缺角的圆形图案,用黄色代表白天,白色代表夜间。

Gemini 3.1 Pro生成的动画要复杂得多,白天是黄日白云,夜间是月牙繁星,两套图标丝滑变换。


总而言之,Gemini 3 Pro做的动画,让人想起多年前那个“学了三年动画”的梗。


而Gemini 3.1 Pro交付的SVG动画,已经达到了可以直接使用的效果。

第二,构建工程级别系统。

Gemini 3.1 Pro已经可以根据一段高复杂度的自然语言指令,直接生成一个集3D渲染、实时太阳星历计算、API异步拉取和物理光效于一体的完整交互系统,而不是简单页面demo。

谷歌给出的示例中,用户给出文字指令,Gemini 3.1 Pro生成了构建一个高保真、可交互的3D国际空间站(ISS)轨道追踪器。使用高分辨率的Blue Marble纹理贴图渲染一个精细的3D地球模型。


第三,生成交互式创意系统。

在另一个示例中,谷歌展示了Gemini 3.1 Pro编写的一个复杂的3D椋鸟群舞(murmuration)模拟。


它不仅生成视觉代码,还构建了一个沉浸式体验,用户可以通过手部追踪操控鸟群,并聆听根据鸟群运动变化的生成式配乐。

对于研究人员和设计师而言,这提供了一种强有力的方式来原型化感官丰富的界面。

第四,将文学主题转化为可运行的代码。

这个示例可能是普通人也最容易get到厉害之处的一个。


当被要求为艾米莉·勃朗特(Emily Brontë)的《呼啸山庄》(Wuthering Heights)打造一个现代个人作品集网站时,该模型并未简单地总结文本内容,而是基于小说的氛围与情绪进行推理,设计出一个简洁、当代感十足的界面,创建出一个捕捉主人公精神内核的网站。

抽象推理,这种能力的含金量不用多说。

到底有多强?

新代模型免不了过一下刷榜这一步。

而“.1”的升级,获得了动辄倍数跃升的成绩。

根据谷歌官方博文放出的测试结果,

在ARC-AGI-2基准测试中,3.1 Pro的验证得分达到了77.1%。比3 Pro的推理性能提升了一倍以上。

这也符合3.1 Pro的示例,因为这个测试评估的是模型解决全新逻辑模式的能力。用人话说就是,抽象推理解谜的能力。


此外,在GPQA Diamond(科学知识测试)中,3.1 Pro得分94.3%;智能体类基准MCP Atlas上,得分69.2%;真实网络浏览与信息整合能力的基准BrowseComp上,得分85.9%。

这些成绩,均超过了Anthropic的Sonnet 4.6、Opus 4.6,以及OpenAI的GPT-5.2与GPT-5.3-Codex。

谷歌Gemini 3.1 Pro这次在ARC抽象推理和BrowseComp搜索任务上显著拉开差距,显示出明显的Agent倾向,而非单纯知识模型。

此外,专门做大模型基准测试与对比分析的第三方评测机构也发布了相关测试结果,大赞Gemini 3.1 Pro在构成Artificial Analysis Intelligence Index的10项评测中领先6项,相较于Gemini 3 Pro Preview在多项能力上显著提升,尤其是在推理与知识、代码能力以及降低幻觉方面进步最大。


而且,Gemini 3.1 Pro Preview保持较高的token效率。

运行完整Artificial Analysis Intelligence Index约需5700万token(比Gemini 3 Pro Preview多100万)。

这一token使用量低于其他在最大推理模式下运行的前沿模型,如Opus 4.6(max)和GPT-5.2(xhigh)。

结合更低的单token定价,Gemini 3.1 Pro Preview在前沿模型中具有成本优势,运行完整Intelligence Index的成本不到Opus 4.6(max)的一半,不过仍约为领先开源模型GLM-5的两倍。

能力翻倍价格不变

谷歌官方API定价显示,Gemini 3 Pro/3.1 Pro Preview的收费结构是按token计费的:

小于200k tokens时,每百万token输入约2美元,输出价格为4美元。大于200k tokens时,每百万token输入4美元,输出18美元。

在上下文缓存方面,根据提示词规模,每百万 token 收取 0.20 至 0.40 美元,外加每小时每百万 token 4.50 美元的存储费。

这个价格,整体上和Gemini自己的上一代3 Pro一致,但要是和 Anthropic Opus 系列比起来,还是相对便宜的。 Opus这类模型输入/输出单价能在$5/$25左右。

尤其是结合当下它在模型能力上相当突出,这个价格更显得极具竞争力。

不要忘了,谷歌这次发布的只是“预览(Preview)”,谷歌很快就会推出正式版。而“.1”的迭代,谷歌也是在暗示其只是小秀肌肉。

目前,开发者可以在AI Studio、Gemini API、Gemini CLI、智能体开发平台Google Antigravity以及Android Studio使用3.1 Pro;企业用户则可以在Vertex AI和Gemini Enterprise使用;普通用户在Gemini应用和NotebookLM都能用上,不过后者仅限Pro和Ultra订阅用户。

各个社区里已经有不少人迫不及待上手操作,真的就和谷歌的演示一样,手搓了不少惊艳的玩意。

有人用Gemini 3.1 Pro 生成了一个可交互的 3D 机械级汽车悬架系统模拟器,包含真实几何结构、连杆约束与实时转向和行程计算,相当于把机械工程建模、物理逻辑和3D可视化一次性写成可运行工具,接近工程级原型能力。


有人用3.1 Pro制作“捉鬼猎人走过一栋闹鬼的房子”的循环动画,惊呼“Gemini没有开玩笑”。


总之,谷歌这回是真憋了个大招。

小小一个“.1”,却把推理和代码能力拉得飞起,定价还这么稳。

社区里满溢的手搓demo的热情,也证明了它的能力与实用性。

AI圈越来越现实了。模型再强,终究得看账单值不值。企业开始精打细算每个token的回报,开发者也得掂量掂量性价比。谷歌这一步,不仅是抢回王座,更是把竞争推向“谁更会过日子”的新阶段。

且看接下来,捏着拳头的Anthropic和OpenAI,以及xAI、Meta、微软等一众竞争对手该如何应对吧。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
骑士110-112猛龙,输球不可怕,可怕是哈登赛后一席话 心气打没了

骑士110-112猛龙,输球不可怕,可怕是哈登赛后一席话 心气打没了

宝哥精彩赛事
2026-05-02 14:16:20
高盛栽了!新进14只A股龙头全跌超20% 最高亏42%

高盛栽了!新进14只A股龙头全跌超20% 最高亏42%

慧眼看世界哈哈
2026-05-02 13:30:02
一把好牌打得稀烂,直到张军被调查,才懂刘国梁当初选择有多明智

一把好牌打得稀烂,直到张军被调查,才懂刘国梁当初选择有多明智

笑饮孤鸿非
2026-05-02 05:45:34
港独、骂中国人,如今却还想来内地捞金,这3位香港明星令人作呕

港独、骂中国人,如今却还想来内地捞金,这3位香港明星令人作呕

傲傲讲历史
2026-04-19 01:20:08
季后赛被打废!最失望阵容:从核心到角色,顶薪打飞了!

季后赛被打废!最失望阵容:从核心到角色,顶薪打飞了!

篮球盛世
2026-05-02 01:12:29
美军封锁逼退41艘伊朗油轮6900万桶原油,德黑兰内外交困

美军封锁逼退41艘伊朗油轮6900万桶原油,德黑兰内外交困

新浪财经
2026-05-01 15:20:11
18亿!凌晨!无国足!国际足联凭什么对中国球迷狮子大开口?

18亿!凌晨!无国足!国际足联凭什么对中国球迷狮子大开口?

曹老师评球
2026-05-01 14:08:15
辣眼!侃爷澳洲妻子再穿暴露连体衣,大方展示...!外媒都看不下去了

辣眼!侃爷澳洲妻子再穿暴露连体衣,大方展示...!外媒都看不下去了

澳洲红领巾
2026-04-29 14:44:16
雷德利·斯科特不导只监制的剧,凭什么全球登顶

雷德利·斯科特不导只监制的剧,凭什么全球登顶

追星雷达站
2026-05-01 00:03:00
傅作义亲手放走5个蒋介石嫡系将领,几十年后才知他保全的是什么

傅作义亲手放走5个蒋介石嫡系将领,几十年后才知他保全的是什么

睡前讲故事
2025-12-09 13:06:03
40岁女人亲口承认:最抵抗不了男人的4种“坏”,越坏越离不开

40岁女人亲口承认:最抵抗不了男人的4种“坏”,越坏越离不开

皓皓情感说
2026-05-02 07:45:03
欧冠大战前全轮休!马竞为死磕阿森纳豁出去了,联赛直接放了

欧冠大战前全轮休!马竞为死磕阿森纳豁出去了,联赛直接放了

林子说事
2026-05-02 13:39:08
有种后悔叫买了“第四代住宅”,不好住也卖不掉,彻底成为不动产

有种后悔叫买了“第四代住宅”,不好住也卖不掉,彻底成为不动产

装修秀
2026-04-08 11:35:03
李小冉这也太绝了吧,我P都不敢P这么白

李小冉这也太绝了吧,我P都不敢P这么白

喜欢历史的阿繁
2026-05-02 12:43:27
骑士还给4年2.7亿续约吗?场均23+5,球星气质顶级,但天赋太差了

骑士还给4年2.7亿续约吗?场均23+5,球星气质顶级,但天赋太差了

你的篮球频道
2026-05-02 11:09:48
董卿五一带儿子现身浙江,坐游艇出海,13岁儿子长相普通肚子好鼓

董卿五一带儿子现身浙江,坐游艇出海,13岁儿子长相普通肚子好鼓

东方不败然多多
2026-05-02 12:46:50
上映多时票房只有零元,一个观众都没有,五一档最惨电影诞生了

上映多时票房只有零元,一个观众都没有,五一档最惨电影诞生了

影视高原说
2026-05-01 08:47:30
特斯拉加拿大地区迎来大降价,直接降价 15 万

特斯拉加拿大地区迎来大降价,直接降价 15 万

XCiOS俱乐部
2026-05-02 14:17:53
吴亦凡二审维持13年!继续在里面踩缝纫机当班长,网友神评笑死个人

吴亦凡二审维持13年!继续在里面踩缝纫机当班长,网友神评笑死个人

八卦王者
2026-05-01 14:05:38
黑咖啡立大功!中科院发现降糖成分,效果远超常用降糖药!

黑咖啡立大功!中科院发现降糖成分,效果远超常用降糖药!

思思夜话
2026-05-02 11:45:05
2026-05-02 16:39:00
钛媒体APP incentive-icons
钛媒体APP
独立财经科技媒体
133086文章数 862131关注度
往期回顾 全部

科技要闻

AI热潮耗尽库存,Mac Mini起售调高200美元

头条要闻

单亲妈妈被无辜羁押821天申请国赔被叫停 最新消息来了

头条要闻

单亲妈妈被无辜羁押821天申请国赔被叫停 最新消息来了

体育要闻

休赛期总冠军,轮到休斯顿火箭

娱乐要闻

白百何罕晒大儿子 18岁元宝越来越帅

财经要闻

雷军很努力 小米还是跌破了30港元大关

汽车要闻

新纪录!零跑汽车4月交付达71387台

态度原创

旅游
亲子
手机
游戏
公开课

旅游要闻

“五一”来彭州宝山 感受“彭派生活”

亲子要闻

完了,

手机要闻

俞浩再放狠话:追觅手机要与苹果、三星三分天下

《007》新作口碑爆了!年度最佳有力竞争者

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版