网易首页 > 网易号 > 正文 申请入驻

Gemma 4 全系列本地部署指南:Ollama / llama.cpp / MLX / vLLM,附 TurboQuant 显存优化

0
分享至

一句话总结:这是目前参数效率最高的开源模型家族,十分之一参数量,媲美旗舰模型


四款模型,各有定位

Gemma 4 一口气发布了四个尺寸的模型:


来逐个看看它们的定位:

31B Dense —— 全密集架构,31B 参数全部激活,主打桌面工作站和单卡 H100。这是 Gemma 4 家族的当家花旦,在 Arena AI 开源模型排行榜文本赛道排名第三。不做量化的情况下,可以塞进一张 80GB 的 H100。

26B MoE(混合专家架构) —— 总参数 26B,单次推理只激活 3.8B 参数。在排行榜上排第六。MoE 的优势是推理速度快、延迟低,同一张卡上的 TPS 远超 Dense 版本。如果你更在乎推理速度,MoE 是更好的选择。

E4B —— 有效参数 4.5B(加上 embedding 约 8B),为移动端 + Jetson / 树莓派设计。是跟 Google Pixel 团队、高通、联发科联合开发的。

E2B —— 有效参数 2.3B(加上 embedding 约 5B),主打手机 / IoT / 边缘设备。这是整个家族里最适合端侧部署的版本。

这里解释一下 E2B 和 E4B 的「E」代表什么。小模型采用了 Per-Layer Embeddings(PLE)技术来最大化参数效率——每个 decoder 层都有自己的小型 embedding 表,这些表虽然体积大但只用来做快速查找,所以实际激活的参数远少于总参数。「E」就是 Effective(有效)的意思。

全系列支持的能力统一且强悍:

  • 多模态输入 :全系列原生支持图像和视频理解,小模型额外支持音频输入和语音识别

  • 超长上下文 :大模型 256K,小模型 128K

  • Agent 工作流 :原生函数调用(Function Call)、结构化 JSON 输出、System Instruction

  • 140+ 语言 :原生训练支持 140 多种语言

  • 代码生成 :高质量离线代码生成,可以当本地代码助手用

跑分表现

先看 Google 官方给出的基准测试数据:



Gemma 4 31B 在 Arena AI 开源排行榜文本赛道排第三,26B MoE 排第六,Google 说它们超过了体量大 20 倍的模型。

再看第三方评测机构 Artificial Analysis 的测试。在科学推理评估 GPQA Diamond 上,Gemma 4 31B(Reasoning)拿到 85.7%,在 40B 以下的开权重模型中排第二,仅次于 Qwen3.5 27B(85.8%)。差距只有 0.1 个百分点,基本算打平。


更有意思的是 Token 效率,Gemma 4 31B 在同一个评估里只用了约 120 万个输出 token,比 Qwen3.5 27B 的 150 万和 Qwen3.5 35B A3B 的 160 万都少。也就是说,达到差不多的准确率,Gemma 4 用的 token 更少,推理成本更低。


正面对决 Qwen3.5 27B

说到开源模型,现在绕不开中国选手。来看 Gemma 4 和 Qwen3.5 27B 的细项对比:


坦率讲,逐项看下来基本每一项都是 Qwen3.5 27B 领先。不过 Gemma 4 31B 在 Arena AI 排行榜的 Elo 分和 Qwen3.5 差不多打平,说明在人类偏好评估上两者体验接近。跑分和实际使用体感有时候就是两码事。

架构解析:为什么没变还能起飞

知名 AI 博主 Sebastian Raschka 第一时间拆解了 Gemma 4 的架构。他的结论很有意思:


✅ 架构几乎没变——还是经典的 Pre/Post-norm 设置 + 5:1 混合注意力机制(滑动窗口局部层 + 全注意力全局层) + 分组查询注意力(GQA)

✅ 但性能直接起飞!基准测试里完胜 Gemma 3,和 Qwen3.5 27B 难分高下

✅ MoE 版本(26B 激活 4B 参数)跑分只比 Dense 版本差一点点,性价比极高

✅ 终于换成标准 Apache 2.0 许可,没那么多限制了

所以架构没什么创新,但性能提升巨大,大概率是训练数据和训练方法的功劳。有时候不需要架构革命,数据和训练配方做对了,效果就是质的飞跃。

本地怎么跑

这才是大家最关心的部分。

Gemma 4 发布当天,主流推理框架全部跟进了适配,生态确实给力。

Ollama

Ollama 0.20+ 版本直接支持:

ollama run gemma4:e2b     # 2B 有效参数,端侧
ollama run gemma4:e4b # 4B 有效参数,移动端
ollama run gemma4:26b # 26B MoE(激活 4B)
ollama run gemma4:31b # 31B Dense
llama.cpp

llama.cpp 同步跟进,可以用 Homebrew 安装最新版:

brew install llama.cpp --HEAD
llama-server -hf ggml-org/gemma-4-26B-A4B-it-GGUF:Q4_K_M
MLX(Mac 用户看这里)

Mac 用户的福音——mlx-vlm v0.4.3 发布当天就支持了 Gemma 4 全系列,包括视觉、音频和 MoE 模型。社区大佬几个小时内上传了 125 个量化模型。如果你是 Mac 开发者,现在就可以跑起来了:

uv pip install -U mlx-vlm

更猛的是,MLX-vlm 0.4.3 搭配 TurboQuant KV 缓存压缩,Gemma 4 31B 在 128K 上下文下的内存表现直接起飞:

  • KV 缓存内存 :13.3 GB → 4.9 GB(减少 63%)

  • 峰值内存 :75.2 GB → 65.8 GB(直接省了 9.4 GB)

  • 质量保持 :压缩后几乎无损

TurboQuant 的压缩效果跟序列长度成正比,上下文越长省得越多。想在 Mac 上体验的话,一行命令搞定:

uv run mlx_vlm.generate --model google/gemma-4-31b-it --kv-bits 3.5 --kv-quant-scheme turboquant

目前已知解码速度会有约 1.5 倍的下降(内核启动开销导致),官方说后续版本会修复。但光是内存省下来的这些空间,对于 Mac 用户来说已经很值了——本来跑不下的上下文长度,现在能跑了。

Unsloth 量化版

我之前介绍过的 Unsloth 也第一时间出了量化版。E2B 和 E4B 大约只需要 6GB 内存就能跑,26B MoE 和 31B 大约需要 18GB。


有个好玩的演示:Gemma 4 E4B 在 Unsloth Studio 里只用 6GB 内存就能搜索并引用 10+ 个网站、执行代码来找最佳答案。用 6GB 内存跑一个能搜网页、写代码的 AI Agent,放两年前说出来没人信。

GGUFs 下载:https://huggingface.co/collections/unsloth/gemma-4

vLLM

vLLM 同步支持,原生多模态(视觉 + 音频),支持 256K 上下文,跨主流 GPU 架构和 TPU。


已经有人用 vLLM v0.18.2 + transformers v5.5.0 跑通了 Gemma 4 31B 的工具调用:


工具调用能力测试

ToolCall-15 是一个专门测试大模型工具调用能力的基准,我之前介绍过。来看 Gemma 4 全家族的成绩:


关键发现:Gemma 4 31B 和 Qwen3.5 27B 都拿到了满分 15/15。在工具调用这个维度上两者完全打平。

但差距在小模型上就明显了:Qwen3.5 9B 就能拿到 13/15,Gemma 4 需要上到 26B 才能匹配这个水平。在小模型的工具调用能力上,Qwen3.5 还是有优势。

实际运行性能

别光看跑分了,来看实际跑起来的速度。有人在单张 RTX 4090 上测试了 Gemma 4 26B MoE:

  • 解码速度:162 token/s

  • 预填充:8,400 token/s

  • 完整 262K 原生上下文

  • 显存占用:19.5 GB

  • Elo 分只比 31B Dense 低 10 分

双卡配置(RTX 4090 + RTX 3090)跑 Q8_0 量化的 31B Dense:

  • 预填充 10K token:9,024 token/s

  • 全 262K 上下文:2,537 token/s —— 一部小说大约 100 秒就能处理完

配合 TurboQuant 分支做 KV cache 量化,还能再省 1.8 GB 显存,几乎没有性能损失。

单卡 4090 跑满 262K 上下文的命令(MoE Q4_K_M 量化版):

llama-server -m gemma-4-26B-A4B-it-UD-Q4_K_M.gguf \
-c 262144 -np 1 -ctk q8_0 -ctv turbo3 \
-fa on --fit off --cache-ram 0 -dev CUDA0

MoE 版本的解码速度是 Dense 版本的 3.7 倍。单张 4090 就能跑满 262K 上下文,这个数据对于想本地部署长上下文 Agent 的开发者来说,非常有吸引力。

TurboQuant+ 权重压缩(实验性)

TurboQuant 不只是压 KV 缓存,最新的 TurboQuant+ 分支还支持模型权重压缩。原理是对模型权重施加 WHT 旋转 + Lloyd-Max 极化量化,属于训练后量化,不需要重新训练或校准,直接对 Q8_0 的 GGUF 模型操作就行。

Gemma 4 31B 的效果:30.4 GB 压缩至 18.9 GB,全系列模型都能享受 TurboQuant+ KV 缓存同样的好处。

目前支持 Apple Silicon(Metal)、NVIDIA(CUDA)和 AMD(ROCm/HIP)三大平台。想尝鲜的话,从实验分支开始:

git clone https://github.com/TheTom/llama-cpp-turboquant.git
cd llama-cpp-turboquant
git checkout pr/tq4-weight-compression

# Apple Silicon
cmake -B build -DGGML_METAL=ON -DCMAKE_BUILD_TYPE=Release
cmake --build build -j

# NVIDIA
cmake -B build -DGGML_CUDA=ON -DCMAKE_BUILD_TYPE=Release
cmake --build build --config Release -j

详细文档:https://github.com/TheTom/turboquant_plus/blob/main/docs/getting-started.md-compression-tq4_1s--experimental

对于显存敏感的本地部署场景,30.4→18.9 GB 的压缩意味着原来需要双卡的配置,现在可能单卡就够了。这个实验分支值得关注。

英伟达优化

NVIDIA 这次也没缺席。Google 和 NVIDIA 联合对 Gemma 4 做了针对性优化,覆盖了从数据中心到桌面再到边缘的全栈场景——RTX GPU、DGX Spark 个人 AI 超算、甚至 Jetson Orin Nano 边缘模块都能跑。

NVIDIA 官方给出了性能基准:所有配置使用 Q4_K_M 量化,BS=1,ISL=4096,OSL=128,在 RTX 5090 和 Mac M3 Ultra 上用 llama.cpp 的 llama-bench 工具测试。

具体来说:

  • E2B / E4B :为边缘场景而生,在 Jetson Nano 上也能完全离线运行,延迟接近零

  • 26B / 31B :针对 RTX GPU 和 DGX Spark 做了优化,主打 Agent 开发工作流——代码助手、推理引擎、函数调用都是强项

  • OpenClaw 兼容 :Gemma 4 全系列兼容 NVIDIA 的 OpenClaw 本地 AI Agent 框架,可以直接从个人文件、应用和工作流中提取上下文来自动化任务

NVIDIA Tensor Core 对 AI 推理的加速在这里体现得很明显——更高的吞吐、更低的延迟,加上 CUDA 生态的广泛兼容性,新模型基本都是 Day-1 就能高效运行。

想了解完整部署指南,可以看 NVIDIA 的技术博客:https://developer.nvidia.com/blog/bringing-ai-closer-to-the-edge-and-on-device-with-gemma-4/

Simon Willison 的评价

知名开发者 Simon Willison 第一时间测试了 Gemma 4。他用 LM Studio 跑了 GGUF 版本,2B、4B 和 26B MoE 都运行正常,但 31B Dense 出了问题——对每个 prompt 都输出 "---\n" 死循环。这种早期 bug 后续应该会修复。

他还发现了一个有趣的点:E2B 和 E4B 虽然支持音频输入,但目前 LM Studio 和 Ollama 都还没实现这个功能。想在本地跑音频理解,可能还得等等。

Google 特别强调了「前所未有的参数效率」。Simon Willison 认为这说明在当前 AI 研究中,如何做出好用的小模型正在成为最热门的方向之一。

总结

Gemma 4 的核心价值:

优势:

  • Apache 2.0 开源许可,商用无障碍,这是最大的进步

  • 参数效率极高,31B 模型能和大几倍的模型掰手腕

  • MoE 版本性价比炸裂,单卡 4090 就能跑满 262K 上下文

  • 原生多模态 + 工具调用 + 超长上下文,Agent 开发直接可用

  • 端侧模型能跑在手机和树莓派上,6GB 内存就能跑 Agent

  • 生态完善,Ollama、llama.cpp、vLLM、MLX 全部 Day-1 支持

  • TurboQuant+ 加持下,31B 权重从 30.4 GB 压到 18.9 GB,MLX 上 128K 上下文 KV 缓存省 63%

不足:

  • 跟 Qwen3.5 27B 正面比,多数跑分项目略逊

  • 小模型的工具调用能力不如同参数量级的 Qwen

  • 31B Dense 在部分推理框架上还有早期 bug

  • 音频输入功能暂时只能通过 Google AI Studio 体验,本地工具还没适配

我的建议:

  • 如果你需要商业部署开源模型,Gemma 4 的 Apache 2.0 许可证是一个很重要的加分项

  • 本地跑推荐 26B MoE 版本,速度快、显存占用相对小,性能只比 Dense 差一点点

  • 有条件上 Dense 就上 Dense,毕竟是质量天花板

  • Mac 用户直接走 MLX,体验最佳

  • 端侧开发者可以重点关注 E2B 和 E4B,6GB 内存跑 Agent 的未来已经来了

官方博客:https://blog.google/innovation-and-ai/technology/developers-tools/gemma-4/

GGUFs 下载:https://huggingface.co/collections/unsloth/gemma-4

Unsloth 指南:https://unsloth.ai/docs/models/gemma-4

.0

制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个,谢谢你看我的文章,我们下篇再见!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
菲尔兹奖得主牵头近2000名数学家拒绝赴美,数学家大会陷入争议

菲尔兹奖得主牵头近2000名数学家拒绝赴美,数学家大会陷入争议

DeepTech深科技
2026-04-04 12:10:59
快讯!欧盟终于对中国下手了!

快讯!欧盟终于对中国下手了!

达文西看世界
2026-04-05 14:59:00
詹姆斯:我不喜欢去两座城市打球有啥问题?我也不喜欢回老家打球

詹姆斯:我不喜欢去两座城市打球有啥问题?我也不喜欢回老家打球

罗说NBA
2026-04-05 05:06:33
金庸给了她最难听的名字,小时候觉得好听,30岁后读出来都会脸红

金庸给了她最难听的名字,小时候觉得好听,30岁后读出来都会脸红

耳东文史
2026-04-04 00:02:10
告别一年,才懂他的无价!德布劳内——被低估的中场天花板

告别一年,才懂他的无价!德布劳内——被低估的中场天花板

体育闲话说
2026-04-04 21:31:21
美国发出全球通缉令,逮捕中国芯片科学家陈正坤,现在怎么样了

美国发出全球通缉令,逮捕中国芯片科学家陈正坤,现在怎么样了

吕醿极限手工
2026-04-04 16:15:31
从“铁榔头”到“整容狂魔”,64岁医美失败的郎平,差点认不出来

从“铁榔头”到“整容狂魔”,64岁医美失败的郎平,差点认不出来

潮鹿逐梦
2026-04-04 18:24:42
为什么领导在大领导面是前背手,在小领导面前是后背手?

为什么领导在大领导面是前背手,在小领导面前是后背手?

深度报
2026-04-03 21:40:01
美国伤亡人数出炉

美国伤亡人数出炉

杨兴文
2026-04-04 22:04:35
被售后工人怒斥:你的筒自洁,纯粹是在浪费时间!

被售后工人怒斥:你的筒自洁,纯粹是在浪费时间!

装修秀
2026-04-04 11:35:03
陈光标称要送张雪1300万元劳斯莱斯,张雪想卖了捐款,二手车商公开喊话:如果真送车,我第一时间接洽收购

陈光标称要送张雪1300万元劳斯莱斯,张雪想卖了捐款,二手车商公开喊话:如果真送车,我第一时间接洽收购

极目新闻
2026-04-03 14:47:02
蒋介石孙子召开发布会,提出“两蒋”移灵大陆,2句话让世人唏嘘

蒋介石孙子召开发布会,提出“两蒋”移灵大陆,2句话让世人唏嘘

老谢谈史
2026-03-18 18:33:35
签完反华声明,马克龙离开日本,临走前一锤定音,G7峰会拒邀中国

签完反华声明,马克龙离开日本,临走前一锤定音,G7峰会拒邀中国

兴史兴谈
2026-04-05 15:27:24
2女3狗穷游云南拒付车费续:女子曝光狗群出名,官方起诉警方介入

2女3狗穷游云南拒付车费续:女子曝光狗群出名,官方起诉警方介入

奇思妙想草叶君
2026-04-04 16:23:53
终于有了结果,曾医生能保住医院的工作,最应该感谢的三位贵人!

终于有了结果,曾医生能保住医院的工作,最应该感谢的三位贵人!

凌风的世界观
2025-11-14 08:38:31
家里有废旧手机的要留意,手机店员工说漏嘴,记得提醒家人朋友

家里有废旧手机的要留意,手机店员工说漏嘴,记得提醒家人朋友

小谈食刻美食
2026-04-02 08:57:37
英媒终于承认:中东打一仗才发现,中国这3张底牌,谁都学不来!

英媒终于承认:中东打一仗才发现,中国这3张底牌,谁都学不来!

阿器谈史
2026-04-02 15:33:03
气笑了!雷迪克:达拉斯影像团队把里夫斯的MRI扫描位置搞错了

气笑了!雷迪克:达拉斯影像团队把里夫斯的MRI扫描位置搞错了

懂球帝
2026-04-05 13:24:07
真惨!一家五口出国旅游后回不了美国,工作也没了

真惨!一家五口出国旅游后回不了美国,工作也没了

华人生活网
2026-04-05 04:12:43
美媒:阿联酋一石化工厂因“防空系统拦截袭击后坠落的碎片”引发火情

美媒:阿联酋一石化工厂因“防空系统拦截袭击后坠落的碎片”引发火情

环球网资讯
2026-04-05 16:34:05
2026-04-05 17:16:49
Ai学习的老章 incentive-icons
Ai学习的老章
Ai学习的老章
3306文章数 11129关注度
往期回顾 全部

科技要闻

花200薅5千算力,Claude冷血断供“龙虾”

头条要闻

高速停车救人发生二次事故致死伤 男子被认定次责不服

头条要闻

高速停车救人发生二次事故致死伤 男子被认定次责不服

体育要闻

CBA最老球员,身价7500万美元

娱乐要闻

好用心!宋慧乔为好友庆生做一桌美食

财经要闻

谁造出了优思益这头“怪物”?

汽车要闻

家用SUV没驾驶乐趣?极氪8X第一个不同意

态度原创

时尚
艺术
房产
旅游
军事航空

女人不管多大年纪衣服不要随便穿,这些穿搭可借鉴,优雅显瘦

艺术要闻

21位中国当代名家的26幅油画

房产要闻

小阳春全面启动!现房,才是这波行情里最稳的上车票

旅游要闻

视点|北京阵风达七八级,什刹海景区游船停运

军事要闻

美飞行员获救细节:美伊发生激烈交火 至少4死1伤

无障碍浏览 进入关怀版