谷歌Gemma 4 12B上手：别急着喊"本地AI革命"，先看它能不能帮用户少复制一次|编辑器|调用|工作流

谷歌Gemma 4 12B上手：别急着喊"本地AI革命"，先看它能不能帮用户少复制一次

2026-06-04 18:33:42　来源: 网易智能

北京举报

分享至

出品 | 网易智能

作者 | 小爪

编辑 | 王凤枝

不是所有文件，都适合交给云端AI。

客户名单、报价单、会议录音、内部代码、还没公开的产品方案，很多公司不是不想用AI，只是因为这些材料不能离开公司电脑。豆包、通义、ChatGPT再好用，也不敢随便往上传。

本地模型一直是理论上的解法，但此前能在笔记本上跑的，常常弱的弱、慢的慢，一碰真实工作流就卡在工具调用和运行环境上。

北京时间6月4日凌晨，谷歌发布开源模型Gemma 4 12B。它是一个12B、约120亿参数的多模态模型，原生支持音频输入，采用统一的无独立编码器架构（encoder-free）。谷歌说，它能在16GB显存或统一内存设备上本地运行。

Google Developers Blog给出的说法更直接：它想把多模态、能调用工具的AI放回笔记本里，让数据留在设备上，同时保持响应、实用性和成本效率。

第一批公开上手还没有充分验证会议录音、视频摘要这些办公场景。大家测得更多的，是一个更基础的问题：它能不能在编辑器和本地工具里真的干活？大模型本地部署，到底能不能从玩家折腾，变成普通软件里的小功能？

先看它能不能自己跑完一个小任务

在Reddit的LocalLLaMA社区里，有用户把Gemma 4 12B放进VSCodium，再接上Pi Agent，在一台RTX 4080 Super电脑上做了一个测试：让它像一个本地小助手一样写脚本、跑命令、检查结果。

任务听起来很普通：写一个Python脚本，逐行读取日志，把出错模块统计出来，再保存成JSON。

为了验证模型不是只会给一段代码，用户还要求它自己生成一份mock log，打开终端运行脚本，并检查输出结果。

按照原帖描述，Gemma 4 12B第一次提示词就跑通了：它创建脚本，生成app.log，调用终端，跑完测试，没有路径错误，也没有需要人工补救的bug。

虽然一个样本、一个任务、一台机器，不能证明它"已经很好用"。但这个测试很有启发。

因为它展示的是一段完整动作：理解任务、写文件、准备测试数据、调用终端、验证结果。 模型不只是告诉你"可以这么做"，而是开始在本地工具里把事情往前推。

这些动作，是本地AI进入日常工作的关键。 普通用户未必关心它用了什么软件外壳，但会关心它能不能少让自己做几步重复操作。

第一批视频里，它更像一个本地原型助手

YouTube上也很快出现了上手视频。

Bijan Bowen做了一条32分钟长测，把Gemma 4 12B放进LM Studio、谷歌的Mac应用、AI Edge Gallery和OpenCode里跑。这里要先说清楚：他的测试机器是Mac Studio M3 Ultra，256GB统一内存，远远不是普通办公电脑。

所以这条视频不能证明"普通企业笔记本已经能顺滑跑"。

它的价值在于展示真实用法。

作者让模型写浏览器OS、微型GTA场景、3D打印机模拟、图片转SVG、线框图转高端网站、C++ 滑板小游戏、飞行战斗模拟器、地铁FPS、2D鼓机。它不是每次都完美，经常在import、括号、语法和依赖路径上出错，有些地方还需要作者提示，甚至要借助更强模型修补细节。

可它能把很多任务的骨架搭出来。

C++ 滑板游戏那段尤其明显。模型在OpenCode里遇到编译错误、依赖问题和语法问题，反复尝试修正，跑出了一个可玩的结果。这个过程不像"神奇模型一次生成完美答案"，更像一个初级但勤快的本地助手：会犯错，会绕路，但能在工具环境里推进任务。

另一条AI with Eric的Day Zero测试更短，样本也更弱，但补了一个不同角度。

作者用vLLM nightly container跑模型，提到4-bit量化后模型大小进入7GB左右，8GB显存显卡也可以尝试。他测了图像理解、工具调用、Splunk查询，还让Pi Agent生成了一个Flappy Bird小游戏。

这条上手视频更有价值的是它把本地模型的使用场景拉到了工具调用：查表、检索、执行、多步调用。 对很多人来说，AI真正省时间的地方，不是多聊几句，而是能不能少复制一次、少切换一次、少手动跑一次命令。

模型强不强，还要看软件会不会接住它

第一批上手里还有一个细节，很适合解释"产品感"从哪里来。

同样是Gemma 4 12B，有人在Pi Agent里一次跑通编程智能体测试；也有人在评论区说，自己用OpenCode跑Q8版本，连工具调用都没正常叫起来，只会回一句"Okay"。

另一位用户给出的判断是，问题可能出在工具调用格式。简单说，就是软件和模型没有用同一种"命令语言"。OpenCode使用自己的工具格式，模型未必见过；Pi Agent的格式可能更接近模型训练时接触过的工具语言。

本地AI的体验，不是模型单独决定的。

同一个模型，换一个软件外壳，换一套工具格式，体验可能完全不同。Pi Agent里能跑通，OpenCode里可能卡住；vLLM在发布初期能较快启动，LM Studio / Ollama可能还要等适配；豪华Mac Studio上能跑出复杂demo，也不代表普通企业电脑能稳定工作一整天。

本地模型要进入日常软件，光有参数不够。

它还需要合适的运行环境、清楚的工具协议、稳定的软件入口，以及能让用户开箱即用的产品设计。

谷歌这次发布Gemma 4 12B时，也在往这个方向铺路。它没有只把模型放在Hugging Face或Kaggle上，让开发者自己下载，而是同时推了AI Edge Gallery、Eloquent和LiteRT-LM：一个做本地实验，一个做本地语音编辑，一个给开发者提供本地接口。

最有产品感的是Eloquent的Voice Edit。 用户可以选中一段文字，对着电脑说"翻成英文"或"改得更正式"，模型在本地完成，不上传。

虽然这些还不是成熟的桌面产品，更像面向开发者实验和早期集成的入口。但它们把方向说清楚了：Gemma 4 12B不该只待在聊天窗口里，它可以被接进软件。

16GB是门槛下降，不是体验保证

谷歌官方说，Gemma 4 12B可以在16GB显存或统一内存设备上本地运行。

这句话很容易被误读。

谷歌说的16GB，指的是显卡显存或苹果芯片的统一内存，不是普通Windows办公本的16GB系统内存。前者是模型能直接高速访问的资源，后者还要扣掉系统、浏览器、会议软件和各种后台程序占用的部分。模型能装进去，不代表用户能无感使用一整天。

第一批上手材料也没有把这个问题解决。

Bijan Bowen的长测跑在Mac Studio M3 Ultra 256GB上，能说明模型有能力做复杂coding demo，不能说明典型企业笔记本也能承受同样任务。

AI with Eric提到4-bit量化后约7GB，让模型进入8GB显存显卡的尝试范围，但它没有提供系统性的速度、显存峰值和失败率统计。

LocalLLaMA另一条RTX 4090对比测试里，有用户把12B和26B-A4B放在同一台机器上跑HTML5 canvas物理动画。26B-A4B是同一代里更大的混合专家版本，总参数更多，但每次推理只激活一部分参数。按这组早期社区样本，12B约占9GB显存，速度约80 tokens/s；26B-A4B约占15GB显存，速度约138 tokens/s。

对比的意思不是12B更强，而是它更省显存，更可能和其他软件共存在一台16GB级设备上；代价是速度慢一截。

比较稳的判断是：Gemma 4 12B把本地多模态和本地智能体的门槛往下压了一档。 它进入了8GB量化尝试、16GB显存 / 统一内存设备、本地编辑器智能体和创作工作流可以认真测试的范围。

但它还没有证明普通企业电脑已经可以无感运行多模态AI。

边界写清楚，反而让这个变化更可信。

它适合从小任务开始

本地AI最先进入日常工作的地方，很可能不是一个新的聊天窗口。

更现实的是这些小动作：