出品 | 网易智能
作者 | 小爪
编辑 | 王凤枝
不是所有文件,都适合交给云端AI。
客户名单、报价单、会议录音、内部代码、还没公开的产品方案,很多公司不是不想用AI,只是因为这些材料不能离开公司电脑。豆包、通义、ChatGPT再好用,也不敢随便往上传。
本地模型一直是理论上的解法,但此前能在笔记本上跑的,常常弱的弱、慢的慢,一碰真实工作流就卡在工具调用和运行环境上。
北京时间6月4日凌晨,谷歌发布开源模型Gemma 4 12B。它是一个12B、约120亿参数的多模态模型,原生支持音频输入,采用统一的无独立编码器架构(encoder-free)。谷歌说,它能在16GB显存或统一内存设备上本地运行。
![]()
Google Developers Blog给出的说法更直接:它想把多模态、能调用工具的AI放回笔记本里,让数据留在设备上,同时保持响应、实用性和成本效率。
第一批公开上手还没有充分验证会议录音、视频摘要这些办公场景。大家测得更多的,是一个更基础的问题:它能不能在编辑器和本地工具里真的干活?大模型本地部署,到底能不能从玩家折腾,变成普通软件里的小功能?
先看它能不能自己跑完一个小任务
在Reddit的LocalLLaMA社区里,有用户把Gemma 4 12B放进VSCodium,再接上Pi Agent,在一台RTX 4080 Super电脑上做了一个测试:让它像一个本地小助手一样写脚本、跑命令、检查结果。
任务听起来很普通:写一个Python脚本,逐行读取日志,把出错模块统计出来,再保存成JSON。
为了验证模型不是只会给一段代码,用户还要求它自己生成一份mock log,打开终端运行脚本,并检查输出结果。
按照原帖描述,Gemma 4 12B第一次提示词就跑通了:它创建脚本,生成app.log,调用终端,跑完测试,没有路径错误,也没有需要人工补救的bug。
虽然一个样本、一个任务、一台机器,不能证明它"已经很好用"。但这个测试很有启发。
因为它展示的是一段完整动作:理解任务、写文件、准备测试数据、调用终端、验证结果。 模型不只是告诉你"可以这么做",而是开始在本地工具里把事情往前推。
这些动作,是本地AI进入日常工作的关键。 普通用户未必关心它用了什么软件外壳,但会关心它能不能少让自己做几步重复操作。
第一批视频里,它更像一个本地原型助手
YouTube上也很快出现了上手视频。
![]()
Bijan Bowen做了一条32分钟长测,把Gemma 4 12B放进LM Studio、谷歌的Mac应用、AI Edge Gallery和OpenCode里跑。这里要先说清楚:他的测试机器是Mac Studio M3 Ultra,256GB统一内存,远远不是普通办公电脑。
所以这条视频不能证明"普通企业笔记本已经能顺滑跑"。
它的价值在于展示真实用法。
作者让模型写浏览器OS、微型GTA场景、3D打印机模拟、图片转SVG、线框图转高端网站、C++ 滑板小游戏、飞行战斗模拟器、地铁FPS、2D鼓机。它不是每次都完美,经常在import、括号、语法和依赖路径上出错,有些地方还需要作者提示,甚至要借助更强模型修补细节。
可它能把很多任务的骨架搭出来。
C++ 滑板游戏那段尤其明显。模型在OpenCode里遇到编译错误、依赖问题和语法问题,反复尝试修正,跑出了一个可玩的结果。这个过程不像"神奇模型一次生成完美答案",更像一个初级但勤快的本地助手:会犯错,会绕路,但能在工具环境里推进任务。
另一条AI with Eric的Day Zero测试更短,样本也更弱,但补了一个不同角度。
作者用vLLM nightly container跑模型,提到4-bit量化后模型大小进入7GB左右,8GB显存显卡也可以尝试。他测了图像理解、工具调用、Splunk查询,还让Pi Agent生成了一个Flappy Bird小游戏。
这条上手视频更有价值的是它把本地模型的使用场景拉到了工具调用:查表、检索、执行、多步调用。 对很多人来说,AI真正省时间的地方,不是多聊几句,而是能不能少复制一次、少切换一次、少手动跑一次命令。
模型强不强,还要看软件会不会接住它
第一批上手里还有一个细节,很适合解释"产品感"从哪里来。
同样是Gemma 4 12B,有人在Pi Agent里一次跑通编程智能体测试;也有人在评论区说,自己用OpenCode跑Q8版本,连工具调用都没正常叫起来,只会回一句"Okay"。
另一位用户给出的判断是,问题可能出在工具调用格式。简单说,就是软件和模型没有用同一种"命令语言"。OpenCode使用自己的工具格式,模型未必见过;Pi Agent的格式可能更接近模型训练时接触过的工具语言。
![]()
本地AI的体验,不是模型单独决定的。
同一个模型,换一个软件外壳,换一套工具格式,体验可能完全不同。Pi Agent里能跑通,OpenCode里可能卡住;vLLM在发布初期能较快启动,LM Studio / Ollama可能还要等适配;豪华Mac Studio上能跑出复杂demo,也不代表普通企业电脑能稳定工作一整天。
本地模型要进入日常软件,光有参数不够。
它还需要合适的运行环境、清楚的工具协议、稳定的软件入口,以及能让用户开箱即用的产品设计。
谷歌这次发布Gemma 4 12B时,也在往这个方向铺路。它没有只把模型放在Hugging Face或Kaggle上,让开发者自己下载,而是同时推了AI Edge Gallery、Eloquent和LiteRT-LM:一个做本地实验,一个做本地语音编辑,一个给开发者提供本地接口。
最有产品感的是Eloquent的Voice Edit。 用户可以选中一段文字,对着电脑说"翻成英文"或"改得更正式",模型在本地完成,不上传。
虽然这些还不是成熟的桌面产品,更像面向开发者实验和早期集成的入口。但它们把方向说清楚了:Gemma 4 12B不该只待在聊天窗口里,它可以被接进软件。
16GB是门槛下降,不是体验保证
谷歌官方说,Gemma 4 12B可以在16GB显存或统一内存设备上本地运行。
这句话很容易被误读。
谷歌说的16GB,指的是显卡显存或苹果芯片的统一内存,不是普通Windows办公本的16GB系统内存。前者是模型能直接高速访问的资源,后者还要扣掉系统、浏览器、会议软件和各种后台程序占用的部分。模型能装进去,不代表用户能无感使用一整天。
第一批上手材料也没有把这个问题解决。
Bijan Bowen的长测跑在Mac Studio M3 Ultra 256GB上,能说明模型有能力做复杂coding demo,不能说明典型企业笔记本也能承受同样任务。
AI with Eric提到4-bit量化后约7GB,让模型进入8GB显存显卡的尝试范围,但它没有提供系统性的速度、显存峰值和失败率统计。
LocalLLaMA另一条RTX 4090对比测试里,有用户把12B和26B-A4B放在同一台机器上跑HTML5 canvas物理动画。26B-A4B是同一代里更大的混合专家版本,总参数更多,但每次推理只激活一部分参数。按这组早期社区样本,12B约占9GB显存,速度约80 tokens/s;26B-A4B约占15GB显存,速度约138 tokens/s。
对比的意思不是12B更强,而是它更省显存,更可能和其他软件共存在一台16GB级设备上;代价是速度慢一截。
![]()
比较稳的判断是:Gemma 4 12B把本地多模态和本地智能体的门槛往下压了一档。 它进入了8GB量化尝试、16GB显存 / 统一内存设备、本地编辑器智能体和创作工作流可以认真测试的范围。
但它还没有证明普通企业电脑已经可以无感运行多模态AI。
边界写清楚,反而让这个变化更可信。
它适合从小任务开始
本地AI最先进入日常工作的地方,很可能不是一个新的聊天窗口。
更现实的是这些小动作:
- 把会议录音转成待办;
- 把内部培训视频整理成要点;
- 把产品截图变成FAQ;
- 把客户访谈摘要成标签;
- 在编辑器里写一个小脚本,自己跑测试。
这些任务单独看都不惊人。
但它们足够高频,也足够贴近真实工作。
很多公司并不缺一个更会聊天的AI。它们缺的是一批低成本、低延迟、低风险、能嵌在现有软件里的小能力。 员工不想每次打开聊天窗口,复制一段文字,写提示词,等结果,再复制回来。他们想选中文字就改,点一下就总结,拖一个文件就分析,在编辑器里直接让模型创建文件并运行。
Gemma 4 12B的第一批上手,最有价值的地方就在这里。
它还没有解决企业部署问题,但它让"本地小模型执行工作流"这件事从概念变成了可观察的产品动作。
企业可用,还要过几关
不过现在就说Gemma 4 12B会进入企业电脑,还太早。
真实企业部署看得不是一条YouTube demo,也不是一个Reddit成功样本。
它要看设备兼容、权限管理、审计、安全策略、模型更新、数据留存、离线策略、成本核算和IT支持压力。一个开发者愿意折腾llama.cpp + cuda,不代表财务、市场或运营同事也愿意配置量化模型和聊天模板。
智能体能力越强,企业越要知道它到底做了什么。 它有没有读取不该读的文件?有没有把日志写到不该写的位置?有没有在终端里执行危险命令?最要命的是:它有没有把本地数据发给远端接口?
这些问题不解决,本地模型也不能因为"本地"两个字自动变安全。
竞争也不会只有谷歌。
千问、DeepSeek、Llama、Phi和其他开源模型都会争这个位置。谷歌的优势未必只是Gemma 4 12B本身,还有AI Edge、Android、Chrome、Google Cloud、开发者工具和Gemini生态。模型能力只是第一层,能不能被软件接住,才是第二层。
![]()
谷歌做的,是把一个本地多模态模型和一套可见工具链放到了一起。第一批上手者已经开始把它塞进编辑器、智能体、数据分析和创作工作流里;但这套东西离普通企业用户每天稳定使用,还有一段距离。
下一轮竞争,是谁能少让用户切一次屏
云端大模型不会因为Gemma 4 12B消失。
复杂推理、大规模检索、长期任务、多工具协作、企业级知识库和高质量生成,短期内还是云端模型占优。
本地模型更像一个前置层。
能在本地处理的,先在本地处理;需要更强能力的,再交给云端。这样可以降低成本,减少数据外传,也让用户在离线、弱网或不方便上传文件的环境里继续工作。
接下来,AI产品的竞争会慢慢转向另一个问题:
谁能让用户少复制一次、少上传一次、少切换一次、少等一次。
第一批Gemma 4 12B上手视频和Reddit测试,给出的答案还不完整。它会犯语法错误,会受工具格式影响,会依赖具体运行环境,会在不同硬件上表现不同。
但它已经露出一个更真实的方向。
本地AI的下一步,不是成为浏览器里的另一个聊天窗口。
它要藏进编辑器、语音输入、创作软件、数据分析工具和本地智能体里,替用户做那些每天都会出现、但过去不值得调用大模型的小任务。
这听起来没有"本地AI革命"那么刺激。
但下次你在公司电脑上选中一段话,不用打开浏览器就能改完的时候,变化已经发生了。
