网易首页 > 网易号 > 正文 申请入驻

谷歌Gemini 3.1新模型深夜掀桌, 每秒狂飙363 token! 1/4价格暴击Claude

0
分享至


新智元报道

编辑:好困 桃子

【新智元导读】谷歌深夜再放大招,Gemini 3.1 Flash-Lite正式登场。输出速度363 token/s,价格仅0.25美元/百万Token,跑分却碾压GPT-5 mini和2.5 Flash,堪称最强「穷人版旗舰」。

继Gemini 3.1 Pro屠榜封神之后,谷歌又在深夜扔出一颗炸弹。

刚刚,Gemini 3.1 Flash-Lite正式上线!

速度363 tokens/s,出价格1.50美元/百万Token,跑分直接碾压GPT-5 mini和Claude 4.5 Haiku



同一任务下,相较于2.5 Flash(33分钟),3.1 Flash-Lite仅用了4分钟,token消耗最少,且正确率最高。


毫不夸张地说,3.1 Flash-Lite几乎可以做到「瞬时」输出

上传一份任何PDF、文本、图片、视频、音频,它能极速转成Markdown格式。


又或是,3.1 Flash-Lite「粒子锻造器」,迅速出模拟不同的动态效果,堪称惊艳。


目前,开发者已经可以通过Google AI Studio的Gemini API体验预览版,企业用户可通过Vertex AI接入。


用1/4的价格,跑出5倍的速度

先看最直观的数字。

3.1 Flash-Lite的输出速度达到363 tokens/s,跟自家2.5 Flash-Lite(366 tokens/s)几乎持平,但把上一代Gemini 2.5 Flash(249 tokens/s)远远甩在了身后。

而那些「贵族选手」呢?

GPT-5 mini只有71 tokens/s,Claude 4.5 Haiku也不过108 tokens/s,Grok 4.1 Fast稍好一些,145 tokens/s。

换句话说,Flash-Lite的速度是GPT-5 mini的5倍,是Claude 4.5 Haiku的3.4倍,价格却只有后者的四分之一


再看具体定价。

3.1 Flash-Lite输入0.25美元/百万Token、输出1.50美元/百万Token。


3.1 Flash-Lite比3.1 Pro便宜8倍

对比之下,GPT-5 mini的输出价格是2.00美元,Gemini 2.5 Flash是2.50美元,而Claude 4.5 Haiku更是高达5.00美元,整整贵了3倍还多。

一句话概括:跑得比你快,还比你便宜,跑分还比你高。


跑分碾压,小模型的「越级挑战」

在最考验科学知识和推理能力的GPQA Diamond上,3.1 Flash-Lite直接轰出86.9%的高分。

这一成绩不仅碾压了GPT-5 mini的82.3%和Claude 4.5 Haiku的73.0%,甚至把体量更大、价格更贵的Gemini 2.5 Flash(82.8%)也踩在了脚下。

多模态理解方面同样强悍。

在MMMU-Pro测试中,Flash-Lite拿下76.8%,力压GPT-5 mini(74.1%)、Gemini 2.5 Flash(66.7%)、Grok 4.1 Fast(63.0%)和Claude 4.5 Haiku(58.0%)。

事实准确性测试SimpleQA Verified中,差距更是断崖级

Flash-Lite以43.3%的准确率遥遥领先,而Gemini 2.5 Flash为28.1%,GPT-5 mini仅有9.5%(4.5倍),Claude 4.5 Haiku更是低到5.5%(近8倍)。

多语言能力方面,MMMLU测试中Flash-Lite以88.9%登顶,超过了Gemini 2.5 Flash的86.6%和GPT-5 mini的84.9%,在这个价位段里没有对手。

视频理解领域,Video-MMMU得分84.8%,同样是同级别最高,GPT-5 mini(82.5%)和Gemini 2.5 Flash(79.2%)均不及。


当然,3.1 Flash-Lite也并非没有短板。

LiveCodeBench代码生成测试中,Flash-Lite得分72.0%,虽然不低,但GPT-5 mini凭借80.4%明显更强,Grok 4.1 Fast也有76.5%。

Humanity's Last Exam中,Flash-Lite得分16.0%,与GPT-5 mini的16.7%基本持平,但Grok 4.1 Fast以17.6%拿到了这个级别的最高分。

但别忘了一个核心事实:Flash-Lite的价格只有这些对手的几分之一。

Arena打进全球前40

实验室跑分只是一面,真刀真枪的盲测对战才见真章。

在Chatbot Arena的文本竞技场中,3.1 Flash-Lite以1432的Elo分数排名第36

它身边的邻居是o3(1432分)和GPT-5 High(1434分),而身后紧跟着的是Grok 4.1 Fast Reasoning(1430分)。

一个定价0.25美元的轻量模型,Elo分数和OpenAI的旗舰推理模型o3打成平手,这个性价比足够让人震惊。


在代码竞技场中,3.1 Flash-Lite得分1261,排名并列35。

它在这里的对手包括Claude Haiku 4.5(1308分,第31名)和DeepSeek V3.2(1321分,第34名),差距不算大,但确实还有提升空间。


在Artificial Analysis评测中,3.1 Flash-Lite在输出速度和成本效益上,目前业界最优。


「思考深度」可调

除了硬核性能,3.1 Flash-Lite还标配了thinking levels功能,开发者可以自由设定模型在每个任务上投入多少推理资源。

  • 批量翻译、内容审核、数据分类这类高频低复杂度任务跑浅思考模式,速度和成本压到极致。

  • 生成UI界面、构建模拟环境、执行多步骤复杂指令?切到深度推理模式,效果不输大模型。


实测:轻量模型的重量级表现

在实际测试中,3.1 Flash-Lite展现出了远超其定位的能力。

电商场景:瞬间填满原型图。

给出一句指令,Flash-Lite就能在几秒内用几十个品类、数百款商品填满一整个电商界面原型,包含名称、价格、分类、图片占位。

这在以往,需要设计师手动填充半天的工作,现在一个Prompt搞定。


实时数据看板:天气预报+历史分析。

Flash-Lite能够结合最新的天气预报接口和历史数据,实时生成动态的天气数据可视化看板。

对于需要快速搭建数据展示层的开发者来说,这个能力直接省掉了一个「前端工程师」。


SaaS AI智能体:多步任务自动化。

Flash-Lite可以构建处理多步骤灵活任务的SaaS智能体,帮助企业自动化客户工单处理、订单跟踪等流程。

在低延迟和低成本的加持下,这类高频调用场景正是Flash-Lite的主战场。


海量内容处理:快速分析归类。

面对大批量的图片、文档、用户评论等非结构化内容,Flash-Lite还能够快速完成分析、标签化和归类整理。


性价比赛道,彻底变天

3.1 Flash-Lite的发布,标志着AI竞争进入了一个全新的阶段。

过去,各家大模型都在卷「谁最强」——ARC-AGI刷分、HLE拼推理、代码竞赛争排名。

但Flash-Lite的出现,把战场拉到了另一个维度。

光卷性能已经不够了。谁能用最低的成本交付最高的质量,谁才是真正的赢家。


用几分之一的价格打出旗舰级效果、用5倍的速度碾压竞品、在事实准确性上断崖领先,谷歌用Flash-Lite告诉所有人:在性价比这条赛道上,它已经跑在了前面。

而对于全球数百万开发者来说,这可能是目前最值得关注的模型之一。

毕竟,在真实的产品场景中,成本和速度有时比跑分更重要。

参考资料:

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-flash-lite/

https://storage.googleapis.com/deepmind-media/gemini/gemini_3-1_flash-lite_model_evaluation.pdf

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
多家车企大降价,我听到一片欢呼

多家车企大降价,我听到一片欢呼

新行情
2026-03-05 15:00:34
冷知识:真的不建议大家买超大蓝莓

冷知识:真的不建议大家买超大蓝莓

大象新闻
2026-03-05 20:15:04
媒体人:中国篮球历史上第一位美式后卫的生涯可能要结束了

媒体人:中国篮球历史上第一位美式后卫的生涯可能要结束了

懂球帝
2026-03-06 08:34:06
特朗普称不会接受哈梅内伊儿子担任伊朗新领导人,“我必须亲自参与任命”,伊方回应:这完全是伊朗人民的事,任何人都无权干涉

特朗普称不会接受哈梅内伊儿子担任伊朗新领导人,“我必须亲自参与任命”,伊方回应:这完全是伊朗人民的事,任何人都无权干涉

扬子晚报
2026-03-06 07:35:12
被战事打断的回家路:中国买房客与中东楼市的“暂停时刻”

被战事打断的回家路:中国买房客与中东楼市的“暂停时刻”

第一财经资讯
2026-03-05 20:48:54
印度人怒了:美军杀害的,是我们的客人!

印度人怒了:美军杀害的,是我们的客人!

环球时报国际
2026-03-05 23:59:46
成都21位企业家上榜胡润全球富豪榜!百利天恒创始人朱义成为四川首富

成都21位企业家上榜胡润全球富豪榜!百利天恒创始人朱义成为四川首富

红星新闻
2026-03-05 21:59:08
中东这仗难停了!彭博社透露:中国即将停止出口燃料及石油衍生品

中东这仗难停了!彭博社透露:中国即将停止出口燃料及石油衍生品

青青子衿
2026-03-06 01:33:39
就没人管管五粮液吗?

就没人管管五粮液吗?

不正确
2026-03-05 14:39:53
伊朗国防部警告:我们还没动用最先进的武器,不会在最初几天全部部署

伊朗国防部警告:我们还没动用最先进的武器,不会在最初几天全部部署

西游日记
2026-03-05 13:55:48
代表建议,鼓励大学生加入家政行业

代表建议,鼓励大学生加入家政行业

中国新闻周刊
2026-03-05 09:21:03
历史第一!詹姆斯超贾巴尔加冕历史进球王 无愧NBA“最长的河”

历史第一!詹姆斯超贾巴尔加冕历史进球王 无愧NBA“最长的河”

醉卧浮生
2026-03-06 11:41:44
被爆换武僧心脏、喝小孩血! 李连杰笑喷:怎么不说我换「华为心、小米肾」?

被爆换武僧心脏、喝小孩血! 李连杰笑喷:怎么不说我换「华为心、小米肾」?

ETtoday星光云
2026-03-04 16:42:06
平顶山舅舅舅妈吃绝户,亡母被再婚嫁给亲弟弟:更多关键环节曝光

平顶山舅舅舅妈吃绝户,亡母被再婚嫁给亲弟弟:更多关键环节曝光

壹月情感
2026-03-05 16:00:17
中国货船通过霍尔木兹海峡,伊朗:仅针对美以欧…

中国货船通过霍尔木兹海峡,伊朗:仅针对美以欧…

观察者网
2026-03-05 18:05:08
63岁大爷植入阴茎假体成功,60岁老伴开心不已

63岁大爷植入阴茎假体成功,60岁老伴开心不已

映射生活的身影
2026-03-05 11:59:48
网红安静公主自曝肛裂,今年手术做太多,被建议休息半个月再检查

网红安静公主自曝肛裂,今年手术做太多,被建议休息半个月再检查

君笙的拂兮
2026-03-05 07:22:01
38岁梅西率全队造访白宫!特朗普称他比贝利出色 曾夸赞C罗是GOAT

38岁梅西率全队造访白宫!特朗普称他比贝利出色 曾夸赞C罗是GOAT

风过乡
2026-03-06 06:49:04
没想到,46岁霍启刚因两会上的这一提议,让香港四大家族刮目相看

没想到,46岁霍启刚因两会上的这一提议,让香港四大家族刮目相看

寻墨阁
2026-03-06 03:58:19
伊朗发射携带1吨重弹头的导弹打击以色列

伊朗发射携带1吨重弹头的导弹打击以色列

新华社
2026-03-05 19:08:15
2026-03-06 12:07:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14650文章数 66656关注度
往期回顾 全部

数码要闻

4599元起!苹果发布MacBook Neo:搭载A18 Pro芯片,回归多彩铝合金机身

头条要闻

特朗普强势要求赦免内塔尼亚胡 曾公开贴心为其推椅子

头条要闻

特朗普强势要求赦免内塔尼亚胡 曾公开贴心为其推椅子

体育要闻

跑了24年,他终于成为英超“最长的河”

娱乐要闻

周杰伦社交媒体晒昆凌,夫妻感情稳定

财经要闻

黄金,牛市没了?!

科技要闻

独家|除夕加班、毫无黑料!林俊旸无奈离场

汽车要闻

710km长续航+闪充 宋Ultra EV预售15.5万起

态度原创

房产
健康
旅游
教育
军事航空

房产要闻

超猛!又有2800套房源砸出,2026海口安居房,彻底爆发!

转头就晕的耳石症,能开车上班吗?

旅游要闻

墨香寻踪、兵学探秘、国潮时尚……临沂老城区漫游精华版

教育要闻

脉搏还是脉膊哪个正确?

军事要闻

2026年中国国防预算增长7%

无障碍浏览 进入关怀版