网易首页 > 网易号 > 正文 申请入驻

谷歌全家桶,都被新模型“污染”了

0
分享至

Gemini 3.5 Flash发布一周就被骂上热搜——速度快是唯一优点,token消耗爆炸、输出啰嗦、综合推理能力垫底,完成任务成本是前代的5.5倍。更致命的是,谷歌把它塞进了所有产品入口,一个模型的糟糕体验污染了整个生态。

———— / BEGIN / ————

距离谷歌的Gemini 3.5 Flash发布已经一周多了。

皮查伊在谷歌发布会上口口声声地表示,Gemini 3.5 Flash性能比3.1 Pro还强,说它是Agent时代的底座。

可结果呢?网上对Gemini 3.5 Flash的评价,除了速度快这唯一的优点外,全是缺点。输出的内容错误多、啰嗦、干活token消耗量爆炸……

谷歌Antigravity负责人瓦伦·莫汉(Varun Mohan)在5月25日发帖称,谷歌已增设Gemini 3.5 Flash (Low) 模型用于优化资源消耗。

瓦伦表示,根据谷歌的内部测试数据,在处理简单任务时,Gemini 3.5 Flash (Low) 相比Gemini 3.5 Flash (Medium) 可以减少约45%的token生成量。在软件工程(SWE)任务上的表现,Gemini 3.5 Flash (Low) 普遍优于上一代旗舰模型Gemini 3 Flash (High)。

然而网友们并不买账,现在,瓦伦的评论区已经被网友们的冷嘲热讽彻底攻占。

热评第一条是“你们的产品测试过吗?看起来你们是拿我们在做测试啊!”

第二条是“能否也解决一下图像模型的生成数量限制问题?你们的能力需要对标Codex。我使用Codex可以生成1000张图像,但在谷歌的高级套餐下,我只能使用Antigravity生成24张。”


Gemini 3.0 Pro出来的时候,所有人都在为谷歌鼓掌,OpenAI甚至因此拉响红色警报,以防止被谷歌超越。

然而到了 3.5 Flash,谷歌成了小丑,眼瞅着就要步入Meta的后尘。

那我们不禁要问,谷歌,你这是咋了?

01. Gemini 3.5的表现没有达到预期

网上对Gemini 3.5 Flash的评价非常一致,很快,但是不够好。

皮查伊在发布会上反复强调模型多便宜,然而现实中情况截然相反。

按照官方定价,Gemini 3.5 Flash每百万输入token收费1.5美元,每百万输出token收费9美元,确实比Claude Opus 4.7的5美元和25美元便宜。

但这只是价格表,真正决定成本的,是完成一个任务到底要消耗多少token。

Artificial Analysis在完整评估套件中测试发现,Gemini 3.5 Flash完成全部任务的总成本是1552美元,而Gemini 3 Flash只需要282美元,前者是后者的5.5倍。

哪怕是和Gemini 3.1 Pro相比,Flash的成本也高出75%,大约是870美元。更尴尬的是,Gemini 3.5 Flash完成任务的费用,比GPT-5.5 medium还贵。

原因在于turn count,也就是完成任务需要的轮次。

在Agent评估中,Flash模型平均每个任务需要49轮对话。每一轮对话,它都会把完整的对话历史输入给模型,token成本因此暴增。

而这样的任务,GPT-5.5或者Opus 4.7,差不多只用20轮就能完成。

所以谷歌说的“成本不到一半”,指的是单位token价格。但对用户来说,Gemini 3.5 Flash一点都不便宜。

除了轮次多了,Gemini 3.5 Flash的输出非常啰嗦。

比如以前你问Gemini 3.1 Pro一个技术问题,模型会直接给出代码和简短解释。

换成3.5 Flash之后,同样的问题,模型会先解释背景,再列举三种可能的方案,然后逐一分析优缺点,最后才给出代码。

看起来很全面,实际上大部分内容都是废话。更要命的是,这些废话都算token,都要收费。

复杂任务的token消耗更是爆炸。

有用户反映,让Flash执行一个多步骤的代码重构任务,模型反复在不同文件之间跳转,每次跳转都要重新加载上下文,最终消耗的token是预期的三倍以上。

还有用户表示,只是输入了一个复杂的prompt,就直接触发了5小时使用限制。

谷歌在I/O 2026之后悄悄修改了AI Pro订阅的额度规则,从固定消息数,改成了基于计算资源的配额(compute-based quota)。

就是说你一个任务,如果让模型思考得多,那即使它给你回复的内容不变,花的钱也比以前更多。

那么问题来了,我怎么知道一个任务会让模型消耗多少算力?而且,我也推算不出来我还剩多少算力。

可能我只是跟它打个招呼,就花掉很多token。让它执行一个长周期任务,反而不怎么消耗token。

有用户在外网论坛上直接把新限制称为“骗局”,称单个prompt就消耗了13%的配额,某些Gemini AI Plus功能一次能烧掉将近30%。

那为什么Gemini 3.5 Flash表现会这么一般?

答案藏在benchmark里,Flash的表现非常不均衡。

Gemini 3.5 Flash在Terminal-Bench 2.1、MCP Atlas、Toolathlon、OSWorld这类Agent、工具调用、代码执行榜单上表现不错。Terminal-Bench 2.1拿到76.2%,MCP Atlas拿到83.6%,都算是头部成绩。

这些榜单测的是模型能不能按照指令调用工具、执行命令、完成多步骤操作。Flash在这些方面确实有优势。

但在更接近“聪明不聪明”的综合推理榜上,它的表现就有点难看了。

Humanity‘s Last Exam是40.2%,低于Gemini 3.1 Pro的44.4%和Claude Opus 4.7的46.9%。ARC-AGI-2是72.1%,低于Gemini 3.1 Pro的77.1%和GPT-5.5的84.6%。GDPval-AA也低于Claude Opus和GPT-5.5。

也就是说,Gemini 3.5 Flash有点“蠢”。你给它任务它能去干活,但它“智力不够”。它做不了现在最火的复杂推理、长链分析、创意判断。

记忆方面也有问题。

在谷歌的宣传中,Gemini 3.5 Flash有最高1M token上下文。但模型卡里的MRCR v2长上下文测试显示,128k平均成绩是77.3%,到1M pointwise只有26.6%。

Gemini 3.5 Flash虽然能一口吃下很多内容,但是到用的时候就开始糊涂了。

Artificial Analysis的独立测试直接打脸谷歌。

在编程指数(Coding Index)上,Artificial Analysis给Flash打了45.0分,低于Gemini 3.1 Pro的56.5分,更远低于GPT-5.5。

02. Gemini污染了谷歌的入口,导致模型问题会污染Google的所有产品体验

谷歌I/O 2026上,皮查伊宣布,Gemini是谷歌全产品宇宙的连接层。

也就是说,Gemini 3.5 Flash嵌入到了谷歌绝大多数产品里。

外媒表示,“Gemini正在变得无法避开”。

过去,一个AI不好用,你可以不用。你觉得ChatGPT不行,可以换Claude,还觉得不好你可以压根不用AI。

但谷歌把Gemini放进所有入口以后,Gemini 3.5Flash的糟糕体验,污染了谷歌所有产品。

最典型的例子是AI Overview和AI Mode的“disregard/ignore/stop”故障。

用户搜索“disregard”“ignore”“stop”等单词时,谷歌AI Overview会把它们误判成指令,导致搜索结果异常或空白。

有用户在X上发帖说,搜索“disregard”这个词,AI Overview不是给出定义,而是回复“明白了!我会忽略之前的提示,重新开始。”

搜索“stop”,AI Overview说“没问题。我已经停止当前操作。”

搜索“ignore”,AI Overview说“收到。消息已忽略。”

问题不只出现在这几个词上。

经过网友测试,“remember”、“start”、“finished”、“forget”这些词也会触发类似故障。即便在搜索词里加上“definition”,也无法让AI Overview回归正常。

谷歌方面回应称,这个问题与I/O的新搜索发布无关,是AI Overviews自身问题,团队正在修复。

搜索是谷歌的命根子,一旦搜索出了问题,所有人都只会觉得“谷歌要凉了”。

所以现在的压力给到了Gemini 3.5 Pro。

外界真正想看的,不是谷歌能不能把AI塞进所有入口。这个问题已经有答案了,谷歌确实做到了。外界想看的是,Google能不能拿出一个足够聪明、足够稳定、足够有说服力的旗舰模型,重新证明自己在模型能力上没有掉队。

这个任务Flash完成不了。它是一个执行型模型,速度快,能干活,但智力不够。它适合做Agent架构里的子任务执行器,配合强规划器使用。但它不是旗舰,它撑不起谷歌在AI时代的门面。

最终只能落到3.5 Pro。

目前,Gemini 3.5 Pro还在内部测试中。官方博客表示,“我们也在努力开发3.5 Pro。它已经在内部使用,我们期待下个月(6月)推出。”

谷歌产品负责人图尔西·多希(Tulsee Doshi)表示,“3.5 Pro像项目经理,负责想清楚事情该怎么做;Flash像执行团队,负责把一个个具体任务跑完。真正需要推理和规划的地方,要交给更大的Pro;只是需要快速调用工具、批量处理任务的地方,用Flash就够了。。”

这个架构设计本身没问题,问题在于Pro还没出来,很多场景只能让Flash一个人苦苦硬撑。

所以Gemini 3.5 Pro变成了一个二次验货节点。

如果3.5 Pro出来后表现还不错,那谷歌高低还能圆过去。

话术我都想好“全线嵌入Flash是我们一个尝试,给大家造成了一些不好的产品体验,不过我们已经发布了3.5 Pro,绝对好用,欢迎大家体验”。

Flash的问题可以被理解为一种妥协,Pro才是真正的实力展示。

但如果3.5 Pro表现不好,那谷歌在AI这块可以说是全面溃败。

AI Overview有低级错误、ChatBot啰嗦、WorkSpace消耗token过高导致价格太贵、Antigravity没什么起色。所有这些产品都会被Gemini拖累,从优势变成负担。

谷歌现在的处境很微妙。它有现金、有基础设施、有DeepMind。但自从3.0 Pro之后,它就一直缺能打的旗舰模型。

3.5 Pro要补的就是这个缺口。如果3.5 Pro做不到,谷歌真就有可能步入Meta的后尘。

03. 谷歌正在成为硬件公司

不过谷歌并非一败涂地,相反,在硬件这块,谷歌反而支棱起来了。

谷歌2026年Q1财报显示,公司收入1099亿美元,同比增长22%。谷歌Search & Other收入604亿美元,同比增长19%。YouTube广告收入约99亿美元,同比增长11%。谷歌Cloud收入200亿美元,同比增长63%。

这说明谷歌仍然是一台赚钱机器。

这份财报里最亮眼的数字,来自于谷歌Cloud的63%增长。

皮查伊在财报电话会上说,Cloud的增长是“强劲需求”的结果。其实这句话的本质,就是在说谷歌的TPU硬件和数据中心卖得非常好。


基于谷歌模型构建的AI解决方案同比增长近800%。Gemini Enterprise的付费月活用户环比增长40%。通过API使用的AI token增长到每分钟160亿个,比第四季度的100亿增长了60%。

Cloud的backlog(已经签下,但还没有确认成收入的合同金额)在本季度翻了一番,达到4620亿美元。

皮查伊说,“显然,我们在短期内受到算力限制。如果我们能够满足需求,我们的Cloud收入会更高。所以我们正在度过这个时刻,我们正在投资,但我们有一个强大的长期规划框架……我们看到了前所未有的机会。”

公司预计在未来24个月内完成50%的backlog。

虽然谷歌基座模型不行,编程工具Antigravity表现也差强人意,但TPU这块表现太好了。

我都怀疑,谷歌是不是忘了自己其实是一个互联网公司,不是一个硬件公司?

Anthropic、Meta等外部大客户正在租用或采购谷歌TPU资源。

Anthropic在5月宣布与谷歌和Broadcom签署了新的多年期协议,扩大使用谷歌Cloud的TPU。

这笔交易让Anthropic获得了多达100万个谷歌AI计算芯片的使用权,价值数百亿美元,预计将在2026年带来超过1吉瓦的容量上线。

1吉瓦的电厂,大约能给35万户家庭供电。

谷歌在Google Cloud Next 2026上宣布了第八代TPU,首次采用双芯片方法,分别针对训练和推理设计专用架构,TPU 8t和TPU 8i。

尤其是TPU 8t,它是专为大规模、计算密集型的训练工作准备的,具有更大的计算吞吐量和更多的scale-up带宽。

TPU 8i则是专为低延迟推理工作负载设计,Agent干活要反复“思考、调用工具、再思考”。每一步慢一点,几十上百步下来就会很慢,所以低延迟对Agent特别重要。

或者你可以这么理解,TPU 8t是给模型用的。

训练前沿大模型就是让几万块芯片一起跑马拉松。问题不是单块芯片够不够快,而是这几十万块芯片能不能一直持续地跑。

比如说某根网络线坏了、某块芯片不亮了、系统需要重启检查点,那么整个训练集群就会因此浪费掉大量时间。

所以Google说TPU 8t的重点不是单纯“算力更强”,而是让训练过程更少中断。

谷歌说,TPU 8t的设计目标,是goodput超过97%。

所谓goodput,你可以理解成真正用于干活的时间。

比如一台机器理论上工作100小时,但中间故障、等待、重启浪费了10小时,那有效工作时间只有90小时,goodput就是90%。

Google说TPU 8t目标超过97% goodput,意思是它希望大部分时间都真的在训练,而不是在等修复、等重启、等网络恢复。

为了实现超过97%的goodput,谷歌给TPU 8t加入了很多横向提升性能的功能。比如系统发现哪里坏了,可以自动绕路,不用人手工停机修。

TPU 8i则是给Agent用的。

Agent推理是一个非常麻烦的事情,前文提到,Agent不是回答一次就结束了的,它会反复思考、查资料、调用工具、写代码、再检查、再修正。

一次任务可能要调用模型几十次甚至上百次。

所以TPU 8i重点是让这些调用尽可能快。

它有384MB板载SRAM,可以理解成芯片旁边有一片非常快的小记忆区。Agent短期记忆就保留在这里,那么当Agent需要用这些记忆的时候,就可以直接从这里面拿,从而减少来回搬数据的时间。

它还用了更多CPU主机,也就是让旁边有更多“调度员”帮忙安排数据输入输出、任务协调。Agent跑起来不只是模型算一下,还要不断读数据、发请求、调工具、拿结果,CPU就是帮TPU处理这些杂活的。

微软曾经有过这么一个预测,到2028年将有13亿个Agent投入运行,这才是为什么,谷歌要把TPU分成8t和8i,Agent的归Agent,训练的归训练。

和谷歌传统的互联网业务相比,TPU反而是他们现在最硬的叙事。

但问题就在于:Anthropic能用TPU造出Claude Opus 4.7以及现在的Mythos,可谷歌只拿出来了Gemini 3.5 Flash。

还真就是橘生淮南则为橘,生于淮北则为枳。

本文来自公众号:字母AI 作者:苗正

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
赌砸了!炸完俄本土才48小时,泽连斯基发现局势彻底失控

赌砸了!炸完俄本土才48小时,泽连斯基发现局势彻底失控

战域笔墨
2026-06-30 12:58:13
菲律宾爆发混乱,总统府被围,捅马蜂窝的马科斯,对华喊出一句话

菲律宾爆发混乱,总统府被围,捅马蜂窝的马科斯,对华喊出一句话

墨印斋
2026-07-01 11:20:34
少林寺新方丈释印乐,上任才10个月,少林寺被曝一下少了800多万

少林寺新方丈释印乐,上任才10个月,少林寺被曝一下少了800多万

许三岁
2026-06-14 09:57:24
保时捷女销冠再获2026上半年销冠:下半年冲刺全球排名;曾两年卖340台保时捷,否认年薪200万:没有潜规则,真诚是必杀技

保时捷女销冠再获2026上半年销冠:下半年冲刺全球排名;曾两年卖340台保时捷,否认年薪200万:没有潜规则,真诚是必杀技

大风新闻
2026-06-30 17:11:55
《百年孤独》最残忍的一句话_:陪你走完这一生的从来不是爱情也不是亲情,是你自己都没发现的灵魂里这样东西

《百年孤独》最残忍的一句话_:陪你走完这一生的从来不是爱情也不是亲情,是你自己都没发现的灵魂里这样东西

心理观察局
2026-07-01 07:37:07
前 TikTok 网红美女沦为流浪汉,在美国街头站街维持生活

前 TikTok 网红美女沦为流浪汉,在美国街头站街维持生活

番外行
2026-06-07 16:02:21
会谈结束,中方离开欧盟总部,临走前交换清单,冯德莱恩痛下黑手

会谈结束,中方离开欧盟总部,临走前交换清单,冯德莱恩痛下黑手

探秘全球
2026-06-30 20:30:34
拒签率高达63%,遣返狂飙234%!印度人怎么突然被全世界讨厌了?

拒签率高达63%,遣返狂飙234%!印度人怎么突然被全世界讨厌了?

安珈使者啊
2026-07-01 12:02:53
麻烦大了!短短24小时韩红再遭重挫,惊动官方机构,被圈内人士暗示名誉难保

麻烦大了!短短24小时韩红再遭重挫,惊动官方机构,被圈内人士暗示名誉难保

老吴教育课堂
2026-07-01 01:00:23
皇帝担忧儿子不懂房事,派妃子前往指导,竟意外产生下一任太子

皇帝担忧儿子不懂房事,派妃子前往指导,竟意外产生下一任太子

云居历史
2026-06-26 14:50:00
王曼昱输球不可怕,麻烦的是这三件事,国乒下半区可能守不住了

王曼昱输球不可怕,麻烦的是这三件事,国乒下半区可能守不住了

南海浪花
2026-07-01 10:20:13
学医后才知道,脑梗信号,不是手脚麻,而是频繁出现4症状

学医后才知道,脑梗信号,不是手脚麻,而是频繁出现4症状

华人星光
2026-07-01 12:01:20
CBA官宣:选秀大会7月28日10点在首钢园举办 状元大热石奎未报名

CBA官宣:选秀大会7月28日10点在首钢园举办 状元大热石奎未报名

醉卧浮生
2026-07-01 13:14:14
英国上将揭露:1997年香港回归真相,谁敢抗衡中国解放军?

英国上将揭露:1997年香港回归真相,谁敢抗衡中国解放军?

蜉蝣说
2026-06-29 11:34:20
邻居闻到恶臭报警说隔壁有死人,警方赶到后发现…骚瑞啊,是猫拉了两坨粑粑

邻居闻到恶臭报警说隔壁有死人,警方赶到后发现…骚瑞啊,是猫拉了两坨粑粑

拜见喵主子
2026-06-30 11:48:32
1935年刘文辉故意不炸泸定桥,临终含泪说出真相:那十三根铁索是川康百姓的命根子!

1935年刘文辉故意不炸泸定桥,临终含泪说出真相:那十三根铁索是川康百姓的命根子!

白驹谈人机
2026-06-29 11:19:27
刘亚仁吸毒缓刑未满,签约金已高达50亿,李小璐看了要哭晕在厕所

刘亚仁吸毒缓刑未满,签约金已高达50亿,李小璐看了要哭晕在厕所

娱乐E君
2026-06-30 17:49:49
有人还记得当年这张家喻户晓的照片吗

有人还记得当年这张家喻户晓的照片吗

年代回忆
2026-06-12 20:31:53
韩红道歉不到24小时,多家公司已退出 4位圈内人表态 岳云鹏一语成

韩红道歉不到24小时,多家公司已退出 4位圈内人表态 岳云鹏一语成

阿伧说事
2026-07-01 10:00:16
共和党人高呼警惕“共产主义渗透”,却对特朗普持股英特尔10%、MP材料15%等国有化操作集体沉默

共和党人高呼警惕“共产主义渗透”,却对特朗普持股英特尔10%、MP材料15%等国有化操作集体沉默

字节漫游指南
2026-06-30 03:44:35
2026-07-01 14:04:49
运营派
运营派
互联网运营学习交流平台
2065文章数 28关注度
往期回顾 全部

科技要闻

Claude Fable 5恢复上线方案公布

头条要闻

墨西哥2-0战胜厄瓜多尔 世界杯第二张捂嘴红牌出现

头条要闻

墨西哥2-0战胜厄瓜多尔 世界杯第二张捂嘴红牌出现

体育要闻

卖球衣救子的门将,把德国扑出了世界杯

娱乐要闻

罗晋大孤山素颜照,秃顶白发引热议

财经要闻

新氧贷款:宣传年化15%,实际顶格24%

汽车要闻

交付持续攀升再破纪录 零跑6月全球交付93376台

态度原创

亲子
艺术
手机
旅游
教育

亲子要闻

周末一家人一起动手做饭,吃得特别香!

艺术要闻

这5件2026届毕业油画作品,被中国美术学院美术馆收藏

手机要闻

消息称苹果iPhone 17生产计划削减15%,或为涨价做准备

旅游要闻

微言   “网红树”碰头被砍?文旅安全生态不该做取舍

教育要闻

刚刚,临沂中考高职志愿资格线公布!(附:一分一段表)

无障碍浏览 进入关怀版