在Mac上用llama.cpp量化Gemma 4|mac|python|人工智能模型

在Mac上用llama.cpp量化Gemma 4

2026-05-30 06:41:40　来源: 硬核玩家2哈

北京举报

分享至

周三下午，一个常年在终端里折腾的工程师打开了llama.cpp的仓库。他想把Google刚放出的Gemma 4模型搬到苹果笔记本上，本地跑一跑——不靠云端、不花API费用，就用自己的GPU。过程比预想的要顺滑。

准备工作不复杂：有个Hugging Face账号，装好llama.cpp和Python环境。他先克隆llama.cpp的主分支，用CMake编译时开启了Metal加速，关掉cURL依赖，让推理全部落在本地。Python侧则新建了一个uv项目，把PyTorch、Transformers、SentencePiece、Protobuf和GGUF库一口气拉齐。这样一来，模型下载和格式转换都有了基础。

模型文件从Hugging Face直接拖到本地，选的是Gemma 4的E4B-it指令版本。下载完放在models目录下，紧挨着准备存放量化后文件的gguf文件夹。然后他跑了一行脚本，把原始的.safetensors权重大包转成llama.cpp通用的GGUF格式，输出类型指定为BF16。这一步速度很快，几分钟就完成了从安全张量到GGUF的转换。

真正的量化发生在第二步：调用llama-quantize工具，把BF16的GGUF转换成Q4_K_M格式。这个精度能在保持足够推理质量的同时，把模型体积大幅压缩，更适合在个人设备上运行。等待了一会儿，量化结束，gemma-4-E4B-it-Q4_K_M.gguf文件出现在gguf目录中，一切就绪。

他用llama-cli加载新出炉的量化模型，指定了99层都跑在GPU上，温度0.7，上下文窗口4096。终端里先是刷出了llama.cpp经典的彩色LOGO，随后构建信息、模型路径、模态类型一一列出。测试阶段，他敲下最简单的“hello”，模型每秒生成40个token，延迟几乎感知不到。接着又让模型自我介绍，Gemma 4立刻进入思考链，在Thinking Process里逐条理清自己的身份、开发方、能力和知识截止日期，回答规整得像个老朋友在聊天。

原本只在云端或寒武纪集群上讨论的Gemma 4，就这样安安静静地跑在了Mac的NPU和GPU混合算力上。没有复杂的配置，没有绕不开的依赖地狱，几下命令就让这个多模态大模型住进了笔记本。对于想要离线使用、想自己动手捏模型细节的产品和开发者来说，这套流程把“本地大模型”从PPT上的目标，变成了终端里实测可用的工具。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.