谷歌Gemma4实测：从86%到完全翻车，本地AI的残酷真相|调用|代码|知名企业|gemma

谷歌Gemma4实测：从86%到完全翻车，本地AI的残酷真相

2026-04-26 08:02:25　来源: Ping值焦虑

北京举报

分享至

「这不是渐进改进，这是完全不同的模型类别。」——这是Gemma4发布时，技术社区对它的评价。

参数310亿、Chatbot Arena排名第3、Apache 2.0开源、单张显卡就能跑。有人把它塞进了6GB内存的手机，有人在发布后一周内就用它搭出了安卓自动化代理。工具调用基准测试τ²-bench的分数，从Gemma3的6.6%暴涨到86.4%。

但当我把它接入真实开发流程——不是聊天，不是跑分，是写代码、改代码、交付代码——故事完全不同。

前4小时：几乎想卸载Cursor

单文件编辑？又快又准。从零写函数？逻辑清晰，不瞎编依赖。没有API延迟，不用等，出结果就走。

速度快到让我产生幻觉：订阅费可以省了。

第5小时：翻车开始

我让它重构一个涉及4个文件的模块——只是改个函数名、更新调用方，基础得不能再基础。

文件1：完美。我开始认真考虑迁移。

文件2：路径 hallucination。生成了一个不存在位置的文件的修改。

文件3：漏改了一处调用，编译通过，运行时崩溃。

文件4：完全没动。我问为什么，它道歉，然后改了另一份无关文件。

算笔账：本地跑的隐性成本

RTX 4090 24GB：约1.5万元。满负载功耗450W，按每天8小时、电费0.6元/度，年电费约800元。模型下载+环境配置：我的时间不算钱，但周末没了。

对比Claude Pro：20美元/月，约140元。一年1700元，零配置，不发热，能改10个文件的跨模块重构。

Gemma4不是不能用。它是「能用」和「可靠」之间的那道鸿沟——86%的工具调用成功率听起来很高，直到你发现那14%的失误需要200%的时间去兜底。

本地AI社区每隔几个月就集体高潮一次。Llama3，Qwen，Gemma3。这次也一样：数字吓人，落地谨慎。

我的结论？Gemma4是技术奇迹，但目前还不是生产力工具。至少在我愿意为它重写代码之前不是。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

谷歌Gemma4实测：从86%到完全翻车，本地AI的残酷真相

涨价浪潮下，DeepSeek推动AI“价格战”

白宫枪手系教师兼游戏开发者 曾向哈里斯总统竞选捐款

白宫枪手系教师兼游戏开发者 曾向哈里斯总统竞选捐款

那一刻开始，两支球队的命运悄然改变了

《八千里路云和月》大结局意难平

DeepSeek V4背后，梁文锋的转身

预售19.38万元起 哈弗猛龙PLUS七座版亮相

态度原创

春光正好迎假期 文旅消费暖意浓 多元“微度假”体验解锁小城引流密码

新疆温泉县：山水映校园 少年正向阳

干细胞如何让烧烫伤皮肤"再生"？

自然肌理 温润美学

新一轮教育大爆发来了！海口，开始疯狂建学校！

白宫枪手系教师兼游戏开发者曾向哈里斯总统竞选捐款

白宫枪手系教师兼游戏开发者曾向哈里斯总统竞选捐款

预售19.38万元起哈弗猛龙PLUS七座版亮相

春光正好迎假期文旅消费暖意浓多元“微度假”体验解锁小城引流密码

新疆温泉县：山水映校园少年正向阳

自然肌理温润美学