网易首页 > 网易号 > 正文 申请入驻

Gemini 3 Flash 倒反天罡了:关键性能居然超过了 Pro!

0
分享至


作者 | 周一笑
邮箱 | zhouyixiao@pingwest.com

12 月 17 日,Google 正式发布 Gemini 3 Flash。一个定价只有 Claude 1/5、GPT 1/4 的“轻量模型”,在编码上超过 Claude Sonnet 4.5,在推理和多模态上全面碾压,和 GPT-5.2 也互有胜负。


MMMU-Pro,多模态的评估效果:


更夸张的是,它甚至超过了自家旗舰:在 SWE-bench 上,Gemini 3 Flash 78%,Gemini 3 Pro 76.2%,这也是 Flash 系列诞生以来超过同代 Pro 模型的第一次。


数据可能还是有点抽象,直接看它能干什么:

Gemini 3 Flash 单次生成完整动画 3D 程序化房间


用Gemini 3 Flash 一句话生成可玩游戏


Resemble AI 用Gemini 3 Flash 实时分析 deepfake 视频:他们的产品需要把复杂的音视频取证数据即时转化为普通人能理解的分析结果。在测试中,他们发现 3 Flash 的多模态分析速度比 2.5 Pro 快了 4 倍,能够在不拖慢关键工作流的情况下处理原始的技术输出数据

一个月前,Gemini 3 Pro 和 Deep Think 的发布让 Google 重新站回 AI 第一梯队,Gemini 3 Pro 登顶 LMArena,Deep Think 在 ARC-AGI 上打出其他模型三倍的成绩。发布以来,Gemini API 日均处理量突破 1 万亿 tokens。现在,Flash 的到来补齐了 Gemini 3 家族的最后一块拼图。

但这次的 Gemini 3 Flash 和以往不一样。过去我们对 Flash 的认知很清晰,快、便宜、但能力打折。想要速度,就得接受智能上的妥协。然而Gemini 3 Flash 打破了这个惯例,它用轻量模型的价格,打出了旗舰级的能力。

1

1/5 的价格,凭什么打旗舰?

先说和其他家的对比。

在博士级科学推理基准 GPQA Diamond 上,Gemini 3 Flash 拿到 90.4%,大幅领先 Claude Sonnet 4.5 的 83.4%,接近 GPT-5.2 的 92.4%。在多模态理解基准 MMMU-Pro 上,Flash 81.2%,超过 GPT-5.2 的 79.5%,更是甩开 Claude Sonnet 4.5 十几个百分点。

在人类最后考试 Humanity's Last Exam 上(无工具),Gemini 3 Flash 33.7%,Claude Sonnet 4.5 只有 13.7%——差距接近 20 个百分点。


编码能力同样亮眼。在 SWE-bench Verified 上,Gemini 3 Flash 78%,超过了 Claude Sonnet 4.5 的 77.2%,头一次超过了自家 3 Pro 的 76.2%。

把价格因素放进来看就更夸张了,Flash 的价格大约是 Claude 的 1/5、GPT 的 1/4,但在多项指标上打平甚至领先。 如果说以前选 Flash 是快、省钱但有所妥协,现在选 Flash 是省钱还省心。

么一个问题自然出现,Gemini 3 Pro 还有什么用?

极限推理场景。GPQA Diamond 上 Pro 91.9% vs Flash 90.4%,Humanity's Last Exam 上 Pro 37.5% vs Flash 33.7%,加上只有Gemini 3 Pro才有的 Deep Think 模式。Pro 适合极限推理,Flash 适合高频 agent 任务,这是 Google 给出的新分工。

但对大多数场景来说,Flash 不仅够用,而且性价比炸裂。

效率层面同样显著。根据 Artificial Analysis 测试,Gemini 3 Flash 比 2.5 Pro 快 3 倍,处理日常任务平均节省 30% token 消耗。定价方面,输入 $0.50/百万 tokens,输出 $3/百万 tokens,只有 3 Pro 的四分之一。


Gemini 3 Flash 在性能、成本与速度的权衡关系上推进了最优边界

Google 的官方说法是:“速度和规模,不必以牺牲智能为代价。” 放在以前的 Flash 上可能是句口号,但这次数据确实撑得起来。

1

免费用户,旗舰体验

Gemini 3 Flash 的发布不只是 API 层面的事,它会直接改变普通用户的日常体验。

在 Gemini App 里,Gemini 3 Flash 会替代原来的 2.5 Flash,成为新的默认模型。这意味全球所有的 Gemini 用户,包括免费用户,都将自动升级到 Gemini 3 级别的体验,不需要付费,不需要做任何设置。

升级后的 App 会提供三种模式供用户选择:

  • Fast(极速):默认由Gemini 3 Flash 驱动,秒回日常问题。

  • Thinking(思考):同样由 Flash 3 驱动,但激活了它的“深度思考”能力,专门处理复杂逻辑。

  • Pro(专业):继续保留 Gemini 3 Pro,作为处理高难度数学和代码问题的首选。

在 Google Search 里,AI Mode 的默认模型也会在全球范围内升级到 3 Flash。Google 表示,得益于 3 Flash 强大的推理和多模态能力,AI Mode 现在能更精准地理解用户意图,处理更复杂、更有多重约束条件的问题,同时生成结构清晰、易于消化的回答。

对于美国用户,Google 还开放了更多选项,可以在 AI Mode 里选择"Thinking with 3 Pro"来获得更深度的帮助,图像生成模型 Nano Banana Pro 也向更多美国用户开放了。

对于普通用户来说,这可能是感知最明显的一次升级。你打开 Gemini,它已经是前沿级别的模型了;你在 Google 搜索里问复杂问题,背后跑的是一个融入了顶级大模型能力的引擎。换句话说,免费用户现在用的默认模型,能力已经不输其他家的付费旗舰。

1

开发者:省钱还赚到

以前做 agentic 应用,想用旗舰级模型就得付旗舰级价格。Gemini 3 Flash 改变了这个局面。

过去开发者面临一个两难选择,要么用快但笨的小模型,牺牲任务完成质量;要么用聪明但慢且贵的大模型,面对延迟和成本的双重压力。尤其是在需要多轮调用、高频迭代的 agent 场景里,这个取舍几乎是绑死的。Gemini 3 Flash 提供了一个新选项,足够快、足够聪明、成本可控。在 SWE-bench 上 78% 的成绩说明它完全有能力处理复杂的编码任务,同时 3 倍于 2.5 Pro 的速度让它能胜任对延迟敏感的实时场景,而 1/5 于竞品的价格让大规模部署成为可能。

目前,Gemini 3 Flash 已经在以下平台上线(preview):

  • Google AI Studio 和 Gemini API

  • Gemini CLI

  • Android Studio

  • Vertex AI(面向企业)

  • Google Antigravity:这是 Google 新推出的 agentic 开发平台,专门为 AI 主导的软件开发流程设计,让 AI Agent 可以直接操作编辑器、终端和浏览器

在高频调用场景,Google 还提供了配套的成本优化方案。Context Caching 功能可以在重复 token 使用达到一定阈值时降低 90% 的成本;Batch API 支持异步批量处理,成本可以再降 50%,同时提供更高的调用配额。对那些需要在生产环境里大规模跑 agent 任务的团队,这套组合拳相当有吸引力。

1

Flash 的含义变了

Gemini 3 Flash 的发布,某种程度上重新定义了“Flash”这个品类的含义。

Flash,终于不只是快速和效率了。

过去,Flash 或者说轻量级模型的定位非常明确:用能力换取速度和成本优势。你选择 Flash,就意味着接受它在智能上的折扣。但 Gemini 3 Flash 证明了另一种可能,当底层的基础模型足够强大时,轻量版本不一定要做太多能力阉割,它可以只是“更高效的满配版”。

Google 在博客里提到,Gemini 3 Flash 的核心模型能力已经强到一个程度:在很多任务上,关掉思考模式的 3 Flash,比开着思考模式的 2.5 版本表现还好。 以前你需要牺牲速度来换准确,现在不用了。

这次发布也让 Gemini 3 家族阵容正式成型:Gemini 3 Pro、Gemini 3 Deep Think、Gemini 3 Flash 三个版本,覆盖了从轻度用户到硬核开发者的完整需求谱系。想要极致推理深度,用 Deep Think;想要最强综合能力,用 Pro;想要又快又好还便宜,用 Flash。各取所需,不再是单选题。

从数据来看,Google 在 AI 产品化这条路上跑得相当稳。Gemini App 的月活已经突破 6.5 亿,开发者数量达到 1300 万,API 调用量同比增长 3 倍。上季度到这季度,用户数从 4.5 亿猛增到 6.5 亿。

目前,普通用户可以直接在 Gemini App 和 Google Search 的 AI Mode 中体验新模型;开发者可以通过 Google AI Studio 和 Gemini API 开始构建应用。

当 Google 用 Flash 模型 1/5 的价格打出旗舰级能力,Flash 这个品类的想象空间被彻底打开了。


点个爱心,再走 吧

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
阿努廷,“狂飙突进”

阿努廷,“狂飙突进”

中国新闻周刊
2026-03-25 22:26:41
没想到不翻不知道,一翻吓一跳,张雪峰几乎每个月都在网上喊累

没想到不翻不知道,一翻吓一跳,张雪峰几乎每个月都在网上喊累

岁月有情1314
2026-03-26 12:13:10
Manus的两名联合创始人被告知不要离开中国

Manus的两名联合创始人被告知不要离开中国

新浪财经
2026-03-26 13:50:59
4月1日医保7号令落地!1965-1985年出生的,这6件事务必抓紧办

4月1日医保7号令落地!1965-1985年出生的,这6件事务必抓紧办

混沌录
2026-03-25 15:50:11
博主被陌生网友辱骂3个月,默默观察其2年半,终于找到机会碰面了

博主被陌生网友辱骂3个月,默默观察其2年半,终于找到机会碰面了

离离言几许
2026-03-26 15:01:41
大陆对全体台胞发出邀请:两岸统一之时,即可从台岛自驾直达北京

大陆对全体台胞发出邀请:两岸统一之时,即可从台岛自驾直达北京

小童历史
2026-03-25 18:20:29
伊朗军方:霍尔木兹海峡局势发展由伊朗掌控

伊朗军方:霍尔木兹海峡局势发展由伊朗掌控

澎湃新闻
2026-03-26 01:17:13
突发!以色列彻底失控!

突发!以色列彻底失控!

财经要参
2026-03-26 21:58:11
砸6700亿建雄安,面积抵3个纽约,如今究竟咋样了?

砸6700亿建雄安,面积抵3个纽约,如今究竟咋样了?

娱乐圈的笔娱君
2026-03-26 12:15:32
现货黄金跌幅扩大至2.5%

现货黄金跌幅扩大至2.5%

财联社
2026-03-27 00:24:12
伊朗称已组织超百万人为地面战斗做准备

伊朗称已组织超百万人为地面战斗做准备

财联社
2026-03-26 22:50:26
曾在恒大赚上亿!40岁郜林吐槽:在中乙当老总1个月工资不够油费

曾在恒大赚上亿!40岁郜林吐槽:在中乙当老总1个月工资不够油费

我爱英超
2026-03-26 20:47:14
万科高管被要求退还薪酬

万科高管被要求退还薪酬

地产微资讯
2026-03-26 12:22:04
联大通过决议,宣布“最严重反人类罪”

联大通过决议,宣布“最严重反人类罪”

澎湃新闻
2026-03-26 11:03:06
人狂自有天收

人狂自有天收

李老逵乱摆龙门阵
2025-09-11 09:01:28
翻到张雪峰2016年婚纱照,瞬间看哭了!

翻到张雪峰2016年婚纱照,瞬间看哭了!

魔都姐姐杂谈
2026-03-26 22:06:50
突发,雷军辞职董事长!

突发,雷军辞职董事长!

品牌头版
2026-03-26 14:46:17
尺度大到曾下架!模特冠军泳装大雷出演影游即将发售

尺度大到曾下架!模特冠军泳装大雷出演影游即将发售

游民星空
2026-03-26 11:58:13
手机放床头辐射伤身?央视实验给出答案:这样放手机,辐射降10倍

手机放床头辐射伤身?央视实验给出答案:这样放手机,辐射降10倍

天气观察站
2026-03-24 19:02:53
中国、俄罗斯、伊朗等123票赞成,美国、以色列等3票反对,联合国认定:最严重反人类罪!英法德日等52国投弃权票

中国、俄罗斯、伊朗等123票赞成,美国、以色列等3票反对,联合国认定:最严重反人类罪!英法德日等52国投弃权票

每日经济新闻
2026-03-26 13:25:09
2026-03-27 03:16:49
硅星人 incentive-icons
硅星人
硅(Si)是创造未来的基础,欢迎来到这个星球。
2960文章数 10473关注度
往期回顾 全部

数码要闻

8.8英寸天玑9500小钢炮!REDMI K Pad 2入网:下月见

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

健康
教育
艺术
数码
房产

转头就晕的耳石症,能开车上班吗?

教育要闻

精准研判,提质增效丨我校召开2026届毕业生就业工作研判会

艺术要闻

北京大兴机场和青岛胶东机场“撞脸”,长得像就是抄袭?

数码要闻

英特尔发Q1.26版Arc Pro专业显卡驱动,支持B70 / B65显卡

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

无障碍浏览 进入关怀版