周三下午,一个常年在终端里折腾的工程师打开了llama.cpp的仓库。他想把Google刚放出的Gemma 4模型搬到苹果笔记本上,本地跑一跑——不靠云端、不花API费用,就用自己的GPU。过程比预想的要顺滑。
准备工作不复杂:有个Hugging Face账号,装好llama.cpp和Python环境。他先克隆llama.cpp的主分支,用CMake编译时开启了Metal加速,关掉cURL依赖,让推理全部落在本地。Python侧则新建了一个uv项目,把PyTorch、Transformers、SentencePiece、Protobuf和GGUF库一口气拉齐。这样一来,模型下载和格式转换都有了基础。
![]()
模型文件从Hugging Face直接拖到本地,选的是Gemma 4的E4B-it指令版本。下载完放在models目录下,紧挨着准备存放量化后文件的gguf文件夹。然后他跑了一行脚本,把原始的.safetensors权重大包转成llama.cpp通用的GGUF格式,输出类型指定为BF16。这一步速度很快,几分钟就完成了从安全张量到GGUF的转换。
真正的量化发生在第二步:调用llama-quantize工具,把BF16的GGUF转换成Q4_K_M格式。这个精度能在保持足够推理质量的同时,把模型体积大幅压缩,更适合在个人设备上运行。等待了一会儿,量化结束,gemma-4-E4B-it-Q4_K_M.gguf文件出现在gguf目录中,一切就绪。
他用llama-cli加载新出炉的量化模型,指定了99层都跑在GPU上,温度0.7,上下文窗口4096。终端里先是刷出了llama.cpp经典的彩色LOGO,随后构建信息、模型路径、模态类型一一列出。测试阶段,他敲下最简单的“hello”,模型每秒生成40个token,延迟几乎感知不到。接着又让模型自我介绍,Gemma 4立刻进入思考链,在Thinking Process里逐条理清自己的身份、开发方、能力和知识截止日期,回答规整得像个老朋友在聊天。
原本只在云端或寒武纪集群上讨论的Gemma 4,就这样安安静静地跑在了Mac的NPU和GPU混合算力上。没有复杂的配置,没有绕不开的依赖地狱,几下命令就让这个多模态大模型住进了笔记本。对于想要离线使用、想自己动手捏模型细节的产品和开发者来说,这套流程把“本地大模型”从PPT上的目标,变成了终端里实测可用的工具。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.