网易首页 > 网易号 > 正文 申请入驻

Gemini 3 Flash 倒反天罡了:关键性能居然超过了 Pro!

0
分享至


作者 | 周一笑
邮箱 | zhouyixiao@pingwest.com

12 月 17 日,Google 正式发布 Gemini 3 Flash。一个定价只有 Claude 1/5、GPT 1/4 的“轻量模型”,在编码上超过 Claude Sonnet 4.5,在推理和多模态上全面碾压,和 GPT-5.2 也互有胜负。


MMMU-Pro,多模态的评估效果:


更夸张的是,它甚至超过了自家旗舰:在 SWE-bench 上,Gemini 3 Flash 78%,Gemini 3 Pro 76.2%,这也是 Flash 系列诞生以来超过同代 Pro 模型的第一次。


数据可能还是有点抽象,直接看它能干什么:

Gemini 3 Flash 单次生成完整动画 3D 程序化房间


用Gemini 3 Flash 一句话生成可玩游戏


Resemble AI 用Gemini 3 Flash 实时分析 deepfake 视频:他们的产品需要把复杂的音视频取证数据即时转化为普通人能理解的分析结果。在测试中,他们发现 3 Flash 的多模态分析速度比 2.5 Pro 快了 4 倍,能够在不拖慢关键工作流的情况下处理原始的技术输出数据

一个月前,Gemini 3 Pro 和 Deep Think 的发布让 Google 重新站回 AI 第一梯队,Gemini 3 Pro 登顶 LMArena,Deep Think 在 ARC-AGI 上打出其他模型三倍的成绩。发布以来,Gemini API 日均处理量突破 1 万亿 tokens。现在,Flash 的到来补齐了 Gemini 3 家族的最后一块拼图。

但这次的 Gemini 3 Flash 和以往不一样。过去我们对 Flash 的认知很清晰,快、便宜、但能力打折。想要速度,就得接受智能上的妥协。然而Gemini 3 Flash 打破了这个惯例,它用轻量模型的价格,打出了旗舰级的能力。

1

1/5 的价格,凭什么打旗舰?

先说和其他家的对比。

在博士级科学推理基准 GPQA Diamond 上,Gemini 3 Flash 拿到 90.4%,大幅领先 Claude Sonnet 4.5 的 83.4%,接近 GPT-5.2 的 92.4%。在多模态理解基准 MMMU-Pro 上,Flash 81.2%,超过 GPT-5.2 的 79.5%,更是甩开 Claude Sonnet 4.5 十几个百分点。

在人类最后考试 Humanity's Last Exam 上(无工具),Gemini 3 Flash 33.7%,Claude Sonnet 4.5 只有 13.7%——差距接近 20 个百分点。


编码能力同样亮眼。在 SWE-bench Verified 上,Gemini 3 Flash 78%,超过了 Claude Sonnet 4.5 的 77.2%,头一次超过了自家 3 Pro 的 76.2%。

把价格因素放进来看就更夸张了,Flash 的价格大约是 Claude 的 1/5、GPT 的 1/4,但在多项指标上打平甚至领先。 如果说以前选 Flash 是快、省钱但有所妥协,现在选 Flash 是省钱还省心。

么一个问题自然出现,Gemini 3 Pro 还有什么用?

极限推理场景。GPQA Diamond 上 Pro 91.9% vs Flash 90.4%,Humanity's Last Exam 上 Pro 37.5% vs Flash 33.7%,加上只有Gemini 3 Pro才有的 Deep Think 模式。Pro 适合极限推理,Flash 适合高频 agent 任务,这是 Google 给出的新分工。

但对大多数场景来说,Flash 不仅够用,而且性价比炸裂。

效率层面同样显著。根据 Artificial Analysis 测试,Gemini 3 Flash 比 2.5 Pro 快 3 倍,处理日常任务平均节省 30% token 消耗。定价方面,输入 $0.50/百万 tokens,输出 $3/百万 tokens,只有 3 Pro 的四分之一。


Gemini 3 Flash 在性能、成本与速度的权衡关系上推进了最优边界

Google 的官方说法是:“速度和规模,不必以牺牲智能为代价。” 放在以前的 Flash 上可能是句口号,但这次数据确实撑得起来。

1

免费用户,旗舰体验

Gemini 3 Flash 的发布不只是 API 层面的事,它会直接改变普通用户的日常体验。

在 Gemini App 里,Gemini 3 Flash 会替代原来的 2.5 Flash,成为新的默认模型。这意味全球所有的 Gemini 用户,包括免费用户,都将自动升级到 Gemini 3 级别的体验,不需要付费,不需要做任何设置。

升级后的 App 会提供三种模式供用户选择:

  • Fast(极速):默认由Gemini 3 Flash 驱动,秒回日常问题。

  • Thinking(思考):同样由 Flash 3 驱动,但激活了它的“深度思考”能力,专门处理复杂逻辑。

  • Pro(专业):继续保留 Gemini 3 Pro,作为处理高难度数学和代码问题的首选。

在 Google Search 里,AI Mode 的默认模型也会在全球范围内升级到 3 Flash。Google 表示,得益于 3 Flash 强大的推理和多模态能力,AI Mode 现在能更精准地理解用户意图,处理更复杂、更有多重约束条件的问题,同时生成结构清晰、易于消化的回答。

对于美国用户,Google 还开放了更多选项,可以在 AI Mode 里选择"Thinking with 3 Pro"来获得更深度的帮助,图像生成模型 Nano Banana Pro 也向更多美国用户开放了。

对于普通用户来说,这可能是感知最明显的一次升级。你打开 Gemini,它已经是前沿级别的模型了;你在 Google 搜索里问复杂问题,背后跑的是一个融入了顶级大模型能力的引擎。换句话说,免费用户现在用的默认模型,能力已经不输其他家的付费旗舰。

1

开发者:省钱还赚到

以前做 agentic 应用,想用旗舰级模型就得付旗舰级价格。Gemini 3 Flash 改变了这个局面。

过去开发者面临一个两难选择,要么用快但笨的小模型,牺牲任务完成质量;要么用聪明但慢且贵的大模型,面对延迟和成本的双重压力。尤其是在需要多轮调用、高频迭代的 agent 场景里,这个取舍几乎是绑死的。Gemini 3 Flash 提供了一个新选项,足够快、足够聪明、成本可控。在 SWE-bench 上 78% 的成绩说明它完全有能力处理复杂的编码任务,同时 3 倍于 2.5 Pro 的速度让它能胜任对延迟敏感的实时场景,而 1/5 于竞品的价格让大规模部署成为可能。

目前,Gemini 3 Flash 已经在以下平台上线(preview):

  • Google AI Studio 和 Gemini API

  • Gemini CLI

  • Android Studio

  • Vertex AI(面向企业)

  • Google Antigravity:这是 Google 新推出的 agentic 开发平台,专门为 AI 主导的软件开发流程设计,让 AI Agent 可以直接操作编辑器、终端和浏览器

在高频调用场景,Google 还提供了配套的成本优化方案。Context Caching 功能可以在重复 token 使用达到一定阈值时降低 90% 的成本;Batch API 支持异步批量处理,成本可以再降 50%,同时提供更高的调用配额。对那些需要在生产环境里大规模跑 agent 任务的团队,这套组合拳相当有吸引力。

1

Flash 的含义变了

Gemini 3 Flash 的发布,某种程度上重新定义了“Flash”这个品类的含义。

Flash,终于不只是快速和效率了。

过去,Flash 或者说轻量级模型的定位非常明确:用能力换取速度和成本优势。你选择 Flash,就意味着接受它在智能上的折扣。但 Gemini 3 Flash 证明了另一种可能,当底层的基础模型足够强大时,轻量版本不一定要做太多能力阉割,它可以只是“更高效的满配版”。

Google 在博客里提到,Gemini 3 Flash 的核心模型能力已经强到一个程度:在很多任务上,关掉思考模式的 3 Flash,比开着思考模式的 2.5 版本表现还好。 以前你需要牺牲速度来换准确,现在不用了。

这次发布也让 Gemini 3 家族阵容正式成型:Gemini 3 Pro、Gemini 3 Deep Think、Gemini 3 Flash 三个版本,覆盖了从轻度用户到硬核开发者的完整需求谱系。想要极致推理深度,用 Deep Think;想要最强综合能力,用 Pro;想要又快又好还便宜,用 Flash。各取所需,不再是单选题。

从数据来看,Google 在 AI 产品化这条路上跑得相当稳。Gemini App 的月活已经突破 6.5 亿,开发者数量达到 1300 万,API 调用量同比增长 3 倍。上季度到这季度,用户数从 4.5 亿猛增到 6.5 亿。

目前,普通用户可以直接在 Gemini App 和 Google Search 的 AI Mode 中体验新模型;开发者可以通过 Google AI Studio 和 Gemini API 开始构建应用。

当 Google 用 Flash 模型 1/5 的价格打出旗舰级能力,Flash 这个品类的想象空间被彻底打开了。


点个爱心,再走 吧

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
手握全球10万亿矿产,年进账7227亿!力压华为的中国“隐形首富”

手握全球10万亿矿产,年进账7227亿!力压华为的中国“隐形首富”

文史道
2024-08-05 17:10:46
不是危言耸听!假如中美开战,中国输了,全世界都得回到石器时代

不是危言耸听!假如中美开战,中国输了,全世界都得回到石器时代

我心纵横天地间
2026-02-01 13:13:56
王毅外长:今后世上再无“中国台湾省”之外的任何模糊称谓。

王毅外长:今后世上再无“中国台湾省”之外的任何模糊称谓。

南权先生
2026-02-02 15:59:44
1985年许世友病逝,遗体肿胀装不进棺材,尤太忠急调两棵百年楠木,南京城为此惊动了派出所

1985年许世友病逝,遗体肿胀装不进棺材,尤太忠急调两棵百年楠木,南京城为此惊动了派出所

寄史言志
2025-12-12 21:42:05
善恶有报,宋小宝整容成瘾、抛妻娶粉,谁都救不了得意忘形的他

善恶有报,宋小宝整容成瘾、抛妻娶粉,谁都救不了得意忘形的他

孤酒老巷QA
2026-02-02 18:14:30
申花前锋官宣留洋,加入西乙队,曾入选国足,战非洲杯

申花前锋官宣留洋,加入西乙队,曾入选国足,战非洲杯

桃叶渡春
2026-02-01 13:30:42
相亲吃饭后男方失联,女方花8000元独自买单,律师:男子行为或构成不当得利

相亲吃饭后男方失联,女方花8000元独自买单,律师:男子行为或构成不当得利

环球网资讯
2026-02-01 13:52:32
江西18岁男孩被母亲宠坏,面对青春期困扰,母亲的做法让人意外

江西18岁男孩被母亲宠坏,面对青春期困扰,母亲的做法让人意外

夜阑故事集
2025-05-15 16:40:38
气运之子!38岁成豪门主帅,2年带队西部第二,如今成全明星主帅

气运之子!38岁成豪门主帅,2年带队西部第二,如今成全明星主帅

大卫的篮球故事
2026-02-02 20:29:33
台湾命理师:徐熙媛活不过50岁,只因她被迫做了一件不该做的事

台湾命理师:徐熙媛活不过50岁,只因她被迫做了一件不该做的事

吴学华看天下
2025-02-06 14:34:05
为啥老人炒菜都放葱姜蒜等调料,而年轻人却觉得这些调料可有可无

为啥老人炒菜都放葱姜蒜等调料,而年轻人却觉得这些调料可有可无

向航说
2026-01-29 00:55:03
28岁川大博士在意大利失联十余天,室友发声:他平时非常刻苦,每天早上出门学习到深夜10点,节假日也不休息

28岁川大博士在意大利失联十余天,室友发声:他平时非常刻苦,每天早上出门学习到深夜10点,节假日也不休息

极目新闻
2026-02-02 22:50:31
一场雨下了1000万年,冥古宙时期的地球上,究竟发生了什么?

一场雨下了1000万年,冥古宙时期的地球上,究竟发生了什么?

观察宇宙
2026-01-30 22:38:57
2026年春节红包大变!别再给200和500,聪明人都改包这3数

2026年春节红包大变!别再给200和500,聪明人都改包这3数

牛锅巴小钒
2026-02-01 19:55:50
刘晓庆哽咽致谢:张纪中当年帮过我,我与王晓玉曾经领了结婚证

刘晓庆哽咽致谢:张纪中当年帮过我,我与王晓玉曾经领了结婚证

银河史记
2026-02-02 12:29:49
重磅!加州将开征“里程税”,两车家庭每年或缴4200美元

重磅!加州将开征“里程税”,两车家庭每年或缴4200美元

大洛杉矶LA
2026-02-02 06:45:18
辽宁营商环境焕新三记

辽宁营商环境焕新三记

人民网
2026-01-27 09:02:38
拿600万,被姜伟泽打爆!关键时刻不敢投,国手后卫原形毕露

拿600万,被姜伟泽打爆!关键时刻不敢投,国手后卫原形毕露

弄月公子
2026-02-02 22:22:23
上海纪梵希酒会上:30岁章若楠大浓妆亮相,网红挨个合照险被艳压

上海纪梵希酒会上:30岁章若楠大浓妆亮相,网红挨个合照险被艳压

嫹笔牂牂
2026-01-31 07:07:41
股民站稳扶好!两部委发声,信号很强烈,A股或将重现惊人历史行情了

股民站稳扶好!两部委发声,信号很强烈,A股或将重现惊人历史行情了

股市皆大事
2026-02-02 07:50:06
2026-02-03 01:56:49
硅星人 incentive-icons
硅星人
硅(Si)是创造未来的基础,欢迎来到这个星球。
2836文章数 10435关注度
往期回顾 全部

数码要闻

华为Mate 90系列核心配置首曝!率先商用新一代OLED 国产自主可控

头条要闻

周生生足金挂坠戴1天被刮花 检测后发现含铁、银、钯

头条要闻

周生生足金挂坠戴1天被刮花 检测后发现含铁、银、钯

体育要闻

澳网男单决赛,属于阿尔卡拉斯的加冕仪式

娱乐要闻

57岁音乐人袁惟仁去世,家属发文悼念

财经要闻

金银暴跌 全球股市遭遇“黑色星期一”

科技要闻

阿里筑墙,腾讯寄生,字节偷家

汽车要闻

雷克萨斯LC500将于今年底停产 "最美雷克萨斯"谢幕

态度原创

亲子
旅游
本地
公开课
军事航空

亲子要闻

萌娃哄生气的妈妈,人小鬼大逗得妈妈生不起气来了

旅游要闻

解锁勐泐 4 大玩法,读懂真正的傣家风情!

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

委内瑞拉外长会见美外交使团团长

无障碍浏览 进入关怀版