网易首页 > 网易号 > 正文 申请入驻

Gemma 4 全系列本地部署指南:Ollama / llama.cpp / MLX / vLLM,附 TurboQuant 显存优化

0
分享至

一句话总结:这是目前参数效率最高的开源模型家族,十分之一参数量,媲美旗舰模型


四款模型,各有定位

Gemma 4 一口气发布了四个尺寸的模型:


来逐个看看它们的定位:

31B Dense —— 全密集架构,31B 参数全部激活,主打桌面工作站和单卡 H100。这是 Gemma 4 家族的当家花旦,在 Arena AI 开源模型排行榜文本赛道排名第三。不做量化的情况下,可以塞进一张 80GB 的 H100。

26B MoE(混合专家架构) —— 总参数 26B,单次推理只激活 3.8B 参数。在排行榜上排第六。MoE 的优势是推理速度快、延迟低,同一张卡上的 TPS 远超 Dense 版本。如果你更在乎推理速度,MoE 是更好的选择。

E4B —— 有效参数 4.5B(加上 embedding 约 8B),为移动端 + Jetson / 树莓派设计。是跟 Google Pixel 团队、高通、联发科联合开发的。

E2B —— 有效参数 2.3B(加上 embedding 约 5B),主打手机 / IoT / 边缘设备。这是整个家族里最适合端侧部署的版本。

这里解释一下 E2B 和 E4B 的「E」代表什么。小模型采用了 Per-Layer Embeddings(PLE)技术来最大化参数效率——每个 decoder 层都有自己的小型 embedding 表,这些表虽然体积大但只用来做快速查找,所以实际激活的参数远少于总参数。「E」就是 Effective(有效)的意思。

全系列支持的能力统一且强悍:

  • 多模态输入 :全系列原生支持图像和视频理解,小模型额外支持音频输入和语音识别

  • 超长上下文 :大模型 256K,小模型 128K

  • Agent 工作流 :原生函数调用(Function Call)、结构化 JSON 输出、System Instruction

  • 140+ 语言 :原生训练支持 140 多种语言

  • 代码生成 :高质量离线代码生成,可以当本地代码助手用

跑分表现

先看 Google 官方给出的基准测试数据:



Gemma 4 31B 在 Arena AI 开源排行榜文本赛道排第三,26B MoE 排第六,Google 说它们超过了体量大 20 倍的模型。

再看第三方评测机构 Artificial Analysis 的测试。在科学推理评估 GPQA Diamond 上,Gemma 4 31B(Reasoning)拿到 85.7%,在 40B 以下的开权重模型中排第二,仅次于 Qwen3.5 27B(85.8%)。差距只有 0.1 个百分点,基本算打平。


更有意思的是 Token 效率,Gemma 4 31B 在同一个评估里只用了约 120 万个输出 token,比 Qwen3.5 27B 的 150 万和 Qwen3.5 35B A3B 的 160 万都少。也就是说,达到差不多的准确率,Gemma 4 用的 token 更少,推理成本更低。


正面对决 Qwen3.5 27B

说到开源模型,现在绕不开中国选手。来看 Gemma 4 和 Qwen3.5 27B 的细项对比:


坦率讲,逐项看下来基本每一项都是 Qwen3.5 27B 领先。不过 Gemma 4 31B 在 Arena AI 排行榜的 Elo 分和 Qwen3.5 差不多打平,说明在人类偏好评估上两者体验接近。跑分和实际使用体感有时候就是两码事。

架构解析:为什么没变还能起飞

知名 AI 博主 Sebastian Raschka 第一时间拆解了 Gemma 4 的架构。他的结论很有意思:


✅ 架构几乎没变——还是经典的 Pre/Post-norm 设置 + 5:1 混合注意力机制(滑动窗口局部层 + 全注意力全局层) + 分组查询注意力(GQA)

✅ 但性能直接起飞!基准测试里完胜 Gemma 3,和 Qwen3.5 27B 难分高下

✅ MoE 版本(26B 激活 4B 参数)跑分只比 Dense 版本差一点点,性价比极高

✅ 终于换成标准 Apache 2.0 许可,没那么多限制了

所以架构没什么创新,但性能提升巨大,大概率是训练数据和训练方法的功劳。有时候不需要架构革命,数据和训练配方做对了,效果就是质的飞跃。

本地怎么跑

这才是大家最关心的部分。

Gemma 4 发布当天,主流推理框架全部跟进了适配,生态确实给力。

Ollama

Ollama 0.20+ 版本直接支持:

ollama run gemma4:e2b     # 2B 有效参数,端侧
ollama run gemma4:e4b # 4B 有效参数,移动端
ollama run gemma4:26b # 26B MoE(激活 4B)
ollama run gemma4:31b # 31B Dense
llama.cpp

llama.cpp 同步跟进,可以用 Homebrew 安装最新版:

brew install llama.cpp --HEAD
llama-server -hf ggml-org/gemma-4-26B-A4B-it-GGUF:Q4_K_M
MLX(Mac 用户看这里)

Mac 用户的福音——mlx-vlm v0.4.3 发布当天就支持了 Gemma 4 全系列,包括视觉、音频和 MoE 模型。社区大佬几个小时内上传了 125 个量化模型。如果你是 Mac 开发者,现在就可以跑起来了:

uv pip install -U mlx-vlm

更猛的是,MLX-vlm 0.4.3 搭配 TurboQuant KV 缓存压缩,Gemma 4 31B 在 128K 上下文下的内存表现直接起飞:

  • KV 缓存内存 :13.3 GB → 4.9 GB(减少 63%)

  • 峰值内存 :75.2 GB → 65.8 GB(直接省了 9.4 GB)

  • 质量保持 :压缩后几乎无损

TurboQuant 的压缩效果跟序列长度成正比,上下文越长省得越多。想在 Mac 上体验的话,一行命令搞定:

uv run mlx_vlm.generate --model google/gemma-4-31b-it --kv-bits 3.5 --kv-quant-scheme turboquant

目前已知解码速度会有约 1.5 倍的下降(内核启动开销导致),官方说后续版本会修复。但光是内存省下来的这些空间,对于 Mac 用户来说已经很值了——本来跑不下的上下文长度,现在能跑了。

Unsloth 量化版

我之前介绍过的 Unsloth 也第一时间出了量化版。E2B 和 E4B 大约只需要 6GB 内存就能跑,26B MoE 和 31B 大约需要 18GB。


有个好玩的演示:Gemma 4 E4B 在 Unsloth Studio 里只用 6GB 内存就能搜索并引用 10+ 个网站、执行代码来找最佳答案。用 6GB 内存跑一个能搜网页、写代码的 AI Agent,放两年前说出来没人信。

GGUFs 下载:https://huggingface.co/collections/unsloth/gemma-4

vLLM

vLLM 同步支持,原生多模态(视觉 + 音频),支持 256K 上下文,跨主流 GPU 架构和 TPU。


已经有人用 vLLM v0.18.2 + transformers v5.5.0 跑通了 Gemma 4 31B 的工具调用:


工具调用能力测试

ToolCall-15 是一个专门测试大模型工具调用能力的基准,我之前介绍过。来看 Gemma 4 全家族的成绩:


关键发现:Gemma 4 31B 和 Qwen3.5 27B 都拿到了满分 15/15。在工具调用这个维度上两者完全打平。

但差距在小模型上就明显了:Qwen3.5 9B 就能拿到 13/15,Gemma 4 需要上到 26B 才能匹配这个水平。在小模型的工具调用能力上,Qwen3.5 还是有优势。

实际运行性能

别光看跑分了,来看实际跑起来的速度。有人在单张 RTX 4090 上测试了 Gemma 4 26B MoE:

  • 解码速度:162 token/s

  • 预填充:8,400 token/s

  • 完整 262K 原生上下文

  • 显存占用:19.5 GB

  • Elo 分只比 31B Dense 低 10 分

双卡配置(RTX 4090 + RTX 3090)跑 Q8_0 量化的 31B Dense:

  • 预填充 10K token:9,024 token/s

  • 全 262K 上下文:2,537 token/s —— 一部小说大约 100 秒就能处理完

配合 TurboQuant 分支做 KV cache 量化,还能再省 1.8 GB 显存,几乎没有性能损失。

单卡 4090 跑满 262K 上下文的命令(MoE Q4_K_M 量化版):

llama-server -m gemma-4-26B-A4B-it-UD-Q4_K_M.gguf \
-c 262144 -np 1 -ctk q8_0 -ctv turbo3 \
-fa on --fit off --cache-ram 0 -dev CUDA0

MoE 版本的解码速度是 Dense 版本的 3.7 倍。单张 4090 就能跑满 262K 上下文,这个数据对于想本地部署长上下文 Agent 的开发者来说,非常有吸引力。

TurboQuant+ 权重压缩(实验性)

TurboQuant 不只是压 KV 缓存,最新的 TurboQuant+ 分支还支持模型权重压缩。原理是对模型权重施加 WHT 旋转 + Lloyd-Max 极化量化,属于训练后量化,不需要重新训练或校准,直接对 Q8_0 的 GGUF 模型操作就行。

Gemma 4 31B 的效果:30.4 GB 压缩至 18.9 GB,全系列模型都能享受 TurboQuant+ KV 缓存同样的好处。

目前支持 Apple Silicon(Metal)、NVIDIA(CUDA)和 AMD(ROCm/HIP)三大平台。想尝鲜的话,从实验分支开始:

git clone https://github.com/TheTom/llama-cpp-turboquant.git
cd llama-cpp-turboquant
git checkout pr/tq4-weight-compression

# Apple Silicon
cmake -B build -DGGML_METAL=ON -DCMAKE_BUILD_TYPE=Release
cmake --build build -j

# NVIDIA
cmake -B build -DGGML_CUDA=ON -DCMAKE_BUILD_TYPE=Release
cmake --build build --config Release -j

详细文档:https://github.com/TheTom/turboquant_plus/blob/main/docs/getting-started.md-compression-tq4_1s--experimental

对于显存敏感的本地部署场景,30.4→18.9 GB 的压缩意味着原来需要双卡的配置,现在可能单卡就够了。这个实验分支值得关注。

英伟达优化

NVIDIA 这次也没缺席。Google 和 NVIDIA 联合对 Gemma 4 做了针对性优化,覆盖了从数据中心到桌面再到边缘的全栈场景——RTX GPU、DGX Spark 个人 AI 超算、甚至 Jetson Orin Nano 边缘模块都能跑。

NVIDIA 官方给出了性能基准:所有配置使用 Q4_K_M 量化,BS=1,ISL=4096,OSL=128,在 RTX 5090 和 Mac M3 Ultra 上用 llama.cpp 的 llama-bench 工具测试。

具体来说:

  • E2B / E4B :为边缘场景而生,在 Jetson Nano 上也能完全离线运行,延迟接近零

  • 26B / 31B :针对 RTX GPU 和 DGX Spark 做了优化,主打 Agent 开发工作流——代码助手、推理引擎、函数调用都是强项

  • OpenClaw 兼容 :Gemma 4 全系列兼容 NVIDIA 的 OpenClaw 本地 AI Agent 框架,可以直接从个人文件、应用和工作流中提取上下文来自动化任务

NVIDIA Tensor Core 对 AI 推理的加速在这里体现得很明显——更高的吞吐、更低的延迟,加上 CUDA 生态的广泛兼容性,新模型基本都是 Day-1 就能高效运行。

想了解完整部署指南,可以看 NVIDIA 的技术博客:https://developer.nvidia.com/blog/bringing-ai-closer-to-the-edge-and-on-device-with-gemma-4/

Simon Willison 的评价

知名开发者 Simon Willison 第一时间测试了 Gemma 4。他用 LM Studio 跑了 GGUF 版本,2B、4B 和 26B MoE 都运行正常,但 31B Dense 出了问题——对每个 prompt 都输出 "---\n" 死循环。这种早期 bug 后续应该会修复。

他还发现了一个有趣的点:E2B 和 E4B 虽然支持音频输入,但目前 LM Studio 和 Ollama 都还没实现这个功能。想在本地跑音频理解,可能还得等等。

Google 特别强调了「前所未有的参数效率」。Simon Willison 认为这说明在当前 AI 研究中,如何做出好用的小模型正在成为最热门的方向之一。

总结

Gemma 4 的核心价值:

优势:

  • Apache 2.0 开源许可,商用无障碍,这是最大的进步

  • 参数效率极高,31B 模型能和大几倍的模型掰手腕

  • MoE 版本性价比炸裂,单卡 4090 就能跑满 262K 上下文

  • 原生多模态 + 工具调用 + 超长上下文,Agent 开发直接可用

  • 端侧模型能跑在手机和树莓派上,6GB 内存就能跑 Agent

  • 生态完善,Ollama、llama.cpp、vLLM、MLX 全部 Day-1 支持

  • TurboQuant+ 加持下,31B 权重从 30.4 GB 压到 18.9 GB,MLX 上 128K 上下文 KV 缓存省 63%

不足:

  • 跟 Qwen3.5 27B 正面比,多数跑分项目略逊

  • 小模型的工具调用能力不如同参数量级的 Qwen

  • 31B Dense 在部分推理框架上还有早期 bug

  • 音频输入功能暂时只能通过 Google AI Studio 体验,本地工具还没适配

我的建议:

  • 如果你需要商业部署开源模型,Gemma 4 的 Apache 2.0 许可证是一个很重要的加分项

  • 本地跑推荐 26B MoE 版本,速度快、显存占用相对小,性能只比 Dense 差一点点

  • 有条件上 Dense 就上 Dense,毕竟是质量天花板

  • Mac 用户直接走 MLX,体验最佳

  • 端侧开发者可以重点关注 E2B 和 E4B,6GB 内存跑 Agent 的未来已经来了

官方博客:https://blog.google/innovation-and-ai/technology/developers-tools/gemma-4/

GGUFs 下载:https://huggingface.co/collections/unsloth/gemma-4

Unsloth 指南:https://unsloth.ai/docs/models/gemma-4

.0

制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个,谢谢你看我的文章,我们下篇再见!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一人毁掉整部剧?央视剧《主角》唯一败笔,观众:看他演戏真别扭

一人毁掉整部剧?央视剧《主角》唯一败笔,观众:看他演戏真别扭

老黯谈娱
2026-05-26 12:47:27
扔吸管女子暴怒原因曝光,警方已对其拘留五日罚款五百

扔吸管女子暴怒原因曝光,警方已对其拘留五日罚款五百

映射生活的身影
2026-05-26 02:21:04
乔丹评历史最强五人组,网友:这阵容能82胜0负,保底十连冠

乔丹评历史最强五人组,网友:这阵容能82胜0负,保底十连冠

钱说体育
2026-05-26 10:04:26
中纪委怒批高校“四宗罪”,每一刀都切在要害上

中纪委怒批高校“四宗罪”,每一刀都切在要害上

细说职场
2026-05-24 15:32:38
奇痒无比!这种夏天手上超爱长的“小水泡”,到底怎么对付呀?

奇痒无比!这种夏天手上超爱长的“小水泡”,到底怎么对付呀?

大象新闻
2026-05-26 08:37:06
人在北京突然撂挑子,30多份“托孤协议”,武契奇把命押给中国

人在北京突然撂挑子,30多份“托孤协议”,武契奇把命押给中国

叹为观止易
2026-05-26 05:27:05
穷果然不养人!家里破产后,王文也面相都变了,公主开始吃路边摊

穷果然不养人!家里破产后,王文也面相都变了,公主开始吃路边摊

残梦重生来
2026-05-25 04:29:17
国产显卡1000块秒没:60人抢1块的疯狂

国产显卡1000块秒没:60人抢1块的疯狂

山月不知2
2026-05-25 21:54:35
刚在北京东城区办完退休,52岁,社保刚好缴满15年

刚在北京东城区办完退休,52岁,社保刚好缴满15年

岁月有情1314
2026-05-26 14:23:17
25岁姑娘私处肿痛,红着脸去找医生看,结果医生一开口就把姑娘吓哭了

25岁姑娘私处肿痛,红着脸去找医生看,结果医生一开口就把姑娘吓哭了

张晓磊
2026-05-23 11:50:34
30位情妇、60辆豪车,有钱人的生活能有多奢淫?比赌王过得还潇洒

30位情妇、60辆豪车,有钱人的生活能有多奢淫?比赌王过得还潇洒

历史伟人录
2026-05-24 20:05:31
男乒夺冠的最大功臣既不是梁靖崑,也不是兜底的王楚钦,而是王皓

男乒夺冠的最大功臣既不是梁靖崑,也不是兜底的王楚钦,而是王皓

鸿印百合
2026-05-26 15:48:10
最高院:提供 “口交” “肛交”等进入式性服务,是否属卖淫行为?

最高院:提供 “口交” “肛交”等进入式性服务,是否属卖淫行为?

周军律师聊案子
2026-04-21 09:50:16
稻城亚丁景区:违规放行员工已被处理,禁止社会车辆进入景区

稻城亚丁景区:违规放行员工已被处理,禁止社会车辆进入景区

映射生活的身影
2026-05-25 16:55:04
台独大佬突然倒戈!向北京喊话:可以考虑统一,但有个条件!

台独大佬突然倒戈!向北京喊话:可以考虑统一,但有个条件!

菁菁子衿
2026-05-25 13:30:46
广州一批买房人,天塌了……

广州一批买房人,天塌了……

鸣金网
2026-05-26 16:42:05
A股:收盘后,传来一个消息,明天,周三或将这样走!

A股:收盘后,传来一个消息,明天,周三或将这样走!

明心
2026-05-26 16:25:30
官媒下场,耿同学又爆猛料!

官媒下场,耿同学又爆猛料!

麦杰逊
2026-05-26 16:39:22
运往中国的俄液化气船在地中海遭袭爆炸,俄方开始破解“黑匣子”

运往中国的俄液化气船在地中海遭袭爆炸,俄方开始破解“黑匣子”

桂系007
2026-05-25 23:58:59
749局高人揭秘:人死后大概率轮回为畜生,活人进入轮回永不超生

749局高人揭秘:人死后大概率轮回为畜生,活人进入轮回永不超生

飞云如水
2024-11-16 13:10:04
2026-05-26 19:19:00
Ai学习的老章 incentive-icons
Ai学习的老章
Ai学习的老章
3424文章数 11160关注度
往期回顾 全部

科技要闻

中国AI要向外卷,而不只是做第二个OpenAI

头条要闻

25岁海归男恋上32岁离异女 因88.8万彩礼闹掰追讨12万

头条要闻

25岁海归男恋上32岁离异女 因88.8万彩礼闹掰追讨12万

体育要闻

上赛季差点降入英甲,下赛季要踢英超了

娱乐要闻

台媒贴脸!S妈被问大S嗑药当场沉默

财经要闻

中国铝行业爆单 下一个“煤炭”大周期?

汽车要闻

涉水加强 福特烈马亚马逊限量版上市 售价39.98万

态度原创

教育
亲子
手机
数码
旅游

教育要闻

工科三巨头:电子信息、计算机、电气,普通家庭到底怎么选才不亏

亲子要闻

宝蓝爸爸把宝蓝的钓鱼玩具弄坏了,赶紧让宝蓝叔叔来修理。

手机要闻

2nm天玑之王稳了!vivo X500系列参数偷跑:全球首发天玑9600 Pro

数码要闻

618消费观察:当“情价比”取代性价比,怎样的电视正在被买走?

旅游要闻

漫步虎山公园 邂逅泰安初夏的温柔

无障碍浏览 进入关怀版