「这不是渐进改进,这是完全不同的模型类别。」——这是Gemma4发布时,技术社区对它的评价。
参数310亿、Chatbot Arena排名第3、Apache 2.0开源、单张显卡就能跑。有人把它塞进了6GB内存的手机,有人在发布后一周内就用它搭出了安卓自动化代理。工具调用基准测试τ²-bench的分数,从Gemma3的6.6%暴涨到86.4%。
但当我把它接入真实开发流程——不是聊天,不是跑分,是写代码、改代码、交付代码——故事完全不同。
前4小时:几乎想卸载Cursor
单文件编辑?又快又准。从零写函数?逻辑清晰,不瞎编依赖。没有API延迟,不用等,出结果就走。
速度快到让我产生幻觉:订阅费可以省了。
第5小时:翻车开始
我让它重构一个涉及4个文件的模块——只是改个函数名、更新调用方,基础得不能再基础。
文件1:完美。我开始认真考虑迁移。
文件2:路径 hallucination。生成了一个不存在位置的文件的修改。
文件3:漏改了一处调用,编译通过,运行时崩溃。
文件4:完全没动。我问为什么,它道歉,然后改了另一份无关文件。
算笔账:本地跑的隐性成本
RTX 4090 24GB:约1.5万元。满负载功耗450W,按每天8小时、电费0.6元/度,年电费约800元。模型下载+环境配置:我的时间不算钱,但周末没了。
对比Claude Pro:20美元/月,约140元。一年1700元,零配置,不发热,能改10个文件的跨模块重构。
Gemma4不是不能用。它是「能用」和「可靠」之间的那道鸿沟——86%的工具调用成功率听起来很高,直到你发现那14%的失误需要200%的时间去兜底。
本地AI社区每隔几个月就集体高潮一次。Llama3,Qwen,Gemma3。这次也一样:数字吓人,落地谨慎。
我的结论?Gemma4是技术奇迹,但目前还不是生产力工具。至少在我愿意为它重写代码之前不是。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.