网易首页 > 网易号 > 正文 申请入驻

Gemini 3 Flash 倒反天罡了:关键性能居然超过了 Pro!

0
分享至


作者 | 周一笑
邮箱 | zhouyixiao@pingwest.com

12 月 17 日,Google 正式发布 Gemini 3 Flash。一个定价只有 Claude 1/5、GPT 1/4 的“轻量模型”,在编码上超过 Claude Sonnet 4.5,在推理和多模态上全面碾压,和 GPT-5.2 也互有胜负。


MMMU-Pro,多模态的评估效果:


更夸张的是,它甚至超过了自家旗舰:在 SWE-bench 上,Gemini 3 Flash 78%,Gemini 3 Pro 76.2%,这也是 Flash 系列诞生以来超过同代 Pro 模型的第一次。


数据可能还是有点抽象,直接看它能干什么:

Gemini 3 Flash 单次生成完整动画 3D 程序化房间


用Gemini 3 Flash 一句话生成可玩游戏


Resemble AI 用Gemini 3 Flash 实时分析 deepfake 视频:他们的产品需要把复杂的音视频取证数据即时转化为普通人能理解的分析结果。在测试中,他们发现 3 Flash 的多模态分析速度比 2.5 Pro 快了 4 倍,能够在不拖慢关键工作流的情况下处理原始的技术输出数据

一个月前,Gemini 3 Pro 和 Deep Think 的发布让 Google 重新站回 AI 第一梯队,Gemini 3 Pro 登顶 LMArena,Deep Think 在 ARC-AGI 上打出其他模型三倍的成绩。发布以来,Gemini API 日均处理量突破 1 万亿 tokens。现在,Flash 的到来补齐了 Gemini 3 家族的最后一块拼图。

但这次的 Gemini 3 Flash 和以往不一样。过去我们对 Flash 的认知很清晰,快、便宜、但能力打折。想要速度,就得接受智能上的妥协。然而Gemini 3 Flash 打破了这个惯例,它用轻量模型的价格,打出了旗舰级的能力。

1

1/5 的价格,凭什么打旗舰?

先说和其他家的对比。

在博士级科学推理基准 GPQA Diamond 上,Gemini 3 Flash 拿到 90.4%,大幅领先 Claude Sonnet 4.5 的 83.4%,接近 GPT-5.2 的 92.4%。在多模态理解基准 MMMU-Pro 上,Flash 81.2%,超过 GPT-5.2 的 79.5%,更是甩开 Claude Sonnet 4.5 十几个百分点。

在人类最后考试 Humanity's Last Exam 上(无工具),Gemini 3 Flash 33.7%,Claude Sonnet 4.5 只有 13.7%——差距接近 20 个百分点。


编码能力同样亮眼。在 SWE-bench Verified 上,Gemini 3 Flash 78%,超过了 Claude Sonnet 4.5 的 77.2%,头一次超过了自家 3 Pro 的 76.2%。

把价格因素放进来看就更夸张了,Flash 的价格大约是 Claude 的 1/5、GPT 的 1/4,但在多项指标上打平甚至领先。 如果说以前选 Flash 是快、省钱但有所妥协,现在选 Flash 是省钱还省心。

么一个问题自然出现,Gemini 3 Pro 还有什么用?

极限推理场景。GPQA Diamond 上 Pro 91.9% vs Flash 90.4%,Humanity's Last Exam 上 Pro 37.5% vs Flash 33.7%,加上只有Gemini 3 Pro才有的 Deep Think 模式。Pro 适合极限推理,Flash 适合高频 agent 任务,这是 Google 给出的新分工。

但对大多数场景来说,Flash 不仅够用,而且性价比炸裂。

效率层面同样显著。根据 Artificial Analysis 测试,Gemini 3 Flash 比 2.5 Pro 快 3 倍,处理日常任务平均节省 30% token 消耗。定价方面,输入 $0.50/百万 tokens,输出 $3/百万 tokens,只有 3 Pro 的四分之一。


Gemini 3 Flash 在性能、成本与速度的权衡关系上推进了最优边界

Google 的官方说法是:“速度和规模,不必以牺牲智能为代价。” 放在以前的 Flash 上可能是句口号,但这次数据确实撑得起来。

1

免费用户,旗舰体验

Gemini 3 Flash 的发布不只是 API 层面的事,它会直接改变普通用户的日常体验。

在 Gemini App 里,Gemini 3 Flash 会替代原来的 2.5 Flash,成为新的默认模型。这意味全球所有的 Gemini 用户,包括免费用户,都将自动升级到 Gemini 3 级别的体验,不需要付费,不需要做任何设置。

升级后的 App 会提供三种模式供用户选择:

  • Fast(极速):默认由Gemini 3 Flash 驱动,秒回日常问题。

  • Thinking(思考):同样由 Flash 3 驱动,但激活了它的“深度思考”能力,专门处理复杂逻辑。

  • Pro(专业):继续保留 Gemini 3 Pro,作为处理高难度数学和代码问题的首选。

在 Google Search 里,AI Mode 的默认模型也会在全球范围内升级到 3 Flash。Google 表示,得益于 3 Flash 强大的推理和多模态能力,AI Mode 现在能更精准地理解用户意图,处理更复杂、更有多重约束条件的问题,同时生成结构清晰、易于消化的回答。

对于美国用户,Google 还开放了更多选项,可以在 AI Mode 里选择"Thinking with 3 Pro"来获得更深度的帮助,图像生成模型 Nano Banana Pro 也向更多美国用户开放了。

对于普通用户来说,这可能是感知最明显的一次升级。你打开 Gemini,它已经是前沿级别的模型了;你在 Google 搜索里问复杂问题,背后跑的是一个融入了顶级大模型能力的引擎。换句话说,免费用户现在用的默认模型,能力已经不输其他家的付费旗舰。

1

开发者:省钱还赚到

以前做 agentic 应用,想用旗舰级模型就得付旗舰级价格。Gemini 3 Flash 改变了这个局面。

过去开发者面临一个两难选择,要么用快但笨的小模型,牺牲任务完成质量;要么用聪明但慢且贵的大模型,面对延迟和成本的双重压力。尤其是在需要多轮调用、高频迭代的 agent 场景里,这个取舍几乎是绑死的。Gemini 3 Flash 提供了一个新选项,足够快、足够聪明、成本可控。在 SWE-bench 上 78% 的成绩说明它完全有能力处理复杂的编码任务,同时 3 倍于 2.5 Pro 的速度让它能胜任对延迟敏感的实时场景,而 1/5 于竞品的价格让大规模部署成为可能。

目前,Gemini 3 Flash 已经在以下平台上线(preview):

  • Google AI Studio 和 Gemini API

  • Gemini CLI

  • Android Studio

  • Vertex AI(面向企业)

  • Google Antigravity:这是 Google 新推出的 agentic 开发平台,专门为 AI 主导的软件开发流程设计,让 AI Agent 可以直接操作编辑器、终端和浏览器

在高频调用场景,Google 还提供了配套的成本优化方案。Context Caching 功能可以在重复 token 使用达到一定阈值时降低 90% 的成本;Batch API 支持异步批量处理,成本可以再降 50%,同时提供更高的调用配额。对那些需要在生产环境里大规模跑 agent 任务的团队,这套组合拳相当有吸引力。

1

Flash 的含义变了

Gemini 3 Flash 的发布,某种程度上重新定义了“Flash”这个品类的含义。

Flash,终于不只是快速和效率了。

过去,Flash 或者说轻量级模型的定位非常明确:用能力换取速度和成本优势。你选择 Flash,就意味着接受它在智能上的折扣。但 Gemini 3 Flash 证明了另一种可能,当底层的基础模型足够强大时,轻量版本不一定要做太多能力阉割,它可以只是“更高效的满配版”。

Google 在博客里提到,Gemini 3 Flash 的核心模型能力已经强到一个程度:在很多任务上,关掉思考模式的 3 Flash,比开着思考模式的 2.5 版本表现还好。 以前你需要牺牲速度来换准确,现在不用了。

这次发布也让 Gemini 3 家族阵容正式成型:Gemini 3 Pro、Gemini 3 Deep Think、Gemini 3 Flash 三个版本,覆盖了从轻度用户到硬核开发者的完整需求谱系。想要极致推理深度,用 Deep Think;想要最强综合能力,用 Pro;想要又快又好还便宜,用 Flash。各取所需,不再是单选题。

从数据来看,Google 在 AI 产品化这条路上跑得相当稳。Gemini App 的月活已经突破 6.5 亿,开发者数量达到 1300 万,API 调用量同比增长 3 倍。上季度到这季度,用户数从 4.5 亿猛增到 6.5 亿。

目前,普通用户可以直接在 Gemini App 和 Google Search 的 AI Mode 中体验新模型;开发者可以通过 Google AI Studio 和 Gemini API 开始构建应用。

当 Google 用 Flash 模型 1/5 的价格打出旗舰级能力,Flash 这个品类的想象空间被彻底打开了。


点个爱心,再走 吧

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
许昕一句话,把樊振东彻底推上风口浪尖!王皓早有预判

许昕一句话,把樊振东彻底推上风口浪尖!王皓早有预判

十点街球体育
2026-04-10 13:51:25
高圆圆的脚是我见过最漂亮的脚丫子。

高圆圆的脚是我见过最漂亮的脚丫子。

别人都叫我阿螫
2026-04-09 17:29:15
开国上将闹离婚:结发40年竟遭发妻死命举报,六名子女为何如释重负

开国上将闹离婚:结发40年竟遭发妻死命举报,六名子女为何如释重负

睡前讲故事
2026-04-07 14:43:34
周末天气有变!江苏多地有雨,气温跌到20℃以下

周末天气有变!江苏多地有雨,气温跌到20℃以下

扬子晚报
2026-04-10 21:13:41
日本电动汽车销量大涨80%,比亚迪却卖不动了?

日本电动汽车销量大涨80%,比亚迪却卖不动了?

热点科技
2026-04-08 13:06:00
德比惨败张庆鹏真卧底!边缘化张帆+孟子凯,进攻无战术,防守为0

德比惨败张庆鹏真卧底!边缘化张帆+孟子凯,进攻无战术,防守为0

篮球资讯达人
2026-04-10 22:21:36
女子出轨被丈夫捉奸在床

女子出轨被丈夫捉奸在床

太阳来
2026-04-10 17:15:06
梅根复活节晒娃效果出人意料,莉莉贝特阿奇的三个疑点被揪住不放

梅根复活节晒娃效果出人意料,莉莉贝特阿奇的三个疑点被揪住不放

老吴教育课堂
2026-04-10 18:20:07
真主党最高领导人卡西姆身亡

真主党最高领导人卡西姆身亡

桑未落
2026-04-09 19:24:34
广东官方紧急提醒!毒性极强可致命,很多深圳人天天吃

广东官方紧急提醒!毒性极强可致命,很多深圳人天天吃

环球网资讯
2026-04-10 16:52:30
张钧甯与导演男友同游西班牙,两人气质好搭,交往2年多见过父母

张钧甯与导演男友同游西班牙,两人气质好搭,交往2年多见过父母

大眼妹妹
2026-04-10 21:59:59
就业卷到极限,12人花30万买高铁工作,月薪才两千,还是劳务派遣

就业卷到极限,12人花30万买高铁工作,月薪才两千,还是劳务派遣

眼光很亮
2026-04-09 16:15:14
续约已经泡汤,下课声第三次响起,科斯塔别再让穆里尼奥独自前行

续约已经泡汤,下课声第三次响起,科斯塔别再让穆里尼奥独自前行

穆里尼奥主义者
2026-04-10 08:52:11
韩媒:36 连胜遭王祉怡终结!安洗莹剑指亚锦赛冠军复仇,全满贯近在咫尺

韩媒:36 连胜遭王祉怡终结!安洗莹剑指亚锦赛冠军复仇,全满贯近在咫尺

去山野间追风
2026-04-10 19:35:30
换帅!卢建军书记突然卸任,西安交通大学迎来了新书记!

换帅!卢建军书记突然卸任,西安交通大学迎来了新书记!

凯旋学长
2026-04-10 17:49:30
严厉打击“饭圈”形式侮辱、诋毁运动员,公安部通报全红婵遭网暴事件

严厉打击“饭圈”形式侮辱、诋毁运动员,公安部通报全红婵遭网暴事件

界面新闻
2026-04-10 22:07:03
重大进展!哈利伯顿伤后首次参加了五对五训练

重大进展!哈利伯顿伤后首次参加了五对五训练

北青网-北京青年报
2026-04-10 19:48:07
宝安一锅端抓了12个,深圳超标电单车“斩源”再深化!

宝安一锅端抓了12个,深圳超标电单车“斩源”再深化!

深圳客
2026-04-10 20:20:01
一箱油跨多省!丰田新混动卡罗拉续航突破2000公里

一箱油跨多省!丰田新混动卡罗拉续航突破2000公里

小李子体育
2026-04-09 14:24:09
绿营将“追杀”郑丽文,爆料称高层交代不放过一人,直到达成目的

绿营将“追杀”郑丽文,爆料称高层交代不放过一人,直到达成目的

谛听骨语本尊
2026-04-10 18:30:15
2026-04-10 22:44:49
硅星人 incentive-icons
硅星人
硅(Si)是创造未来的基础,欢迎来到这个星球。
2997文章数 10481关注度
往期回顾 全部

数码要闻

飞利浦推出“27M2G5800”27英寸显示器,4999元

头条要闻

与内塔尼亚胡通话后 特朗普改口了

头条要闻

与内塔尼亚胡通话后 特朗普改口了

体育要闻

17岁赚了一百万美元,25岁被CBA裁员

娱乐要闻

黄景瑜王玉雯否认恋情!聚会细节被扒

财经要闻

李强主持召开经济形势专家和企业家座谈会

科技要闻

马斯克狂发大火箭也养不起AI 年亏50亿美元

汽车要闻

搭载第二代刀片电池及闪充技术 腾势N8L闪充版预售35万起

态度原创

艺术
游戏
旅游
公开课
军事航空

艺术要闻

于小冬2026年4月油画新作《花季》

数毛社点评批评XSS!《红色沙漠》画面糊成渣

旅游要闻

山东文旅报道|游览曹州牡丹园 感受“唯有牡丹真国色”

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普:对美国与伊朗达成和平协议“非常乐观”

无障碍浏览 进入关怀版