网易首页 > 网易号 > 正文 申请入驻

最强开源端侧小模型?Google Gemma 4首次允许商用

0
分享至

(来源:至顶AI实验室)

上周Google DeepMind发布了 Gemma 4模型。这一次不是小幅迭代,而是在架构、能力和授权三个维度同时跃进的里程碑版本。

Gemma 4 基于首次以 Apache 2.0 许可证开源发布,彻底扫除了企业商业部署的法律障碍。

四款型号,全谱覆盖

Gemma 4 家族共推出四个尺寸,分别针对从移动端到专业工作站的不同硬件场景:

Gemma 4 E2B(端侧 · 移动优先) 约 2.3B 有效参数,专为智能手机、树莓派、NVIDIA Jetson Orin Nano 设计。支持文本、图像、视频与音频输入,128K 上下文。离线零延迟推理。显存需求:7.2GB(4-bit 量化)。

Gemma 4 E4B(端侧 · 笔记本友好) 约 4.5B 有效参数,面向现代笔记本电脑与消费级 GPU。同样支持完整多模态能力,推理质量显著高于 E2B,128K 上下文。显存需求:9.6GB(4-bit)/ 16GB(BF16)。

Gemma 4 26B A4B(MoE · 效率旗舰) 混合专家架构(MoE),总参数 26B,推理时仅激活 3.8B。以接近 4B 模型的速度与显存,提供接近 13B 模型的质量。256K 上下文。显存需求:18GB(4-bit)/ 52GB(BF16)。

Gemma 4 31B Dense(Dense · 质量旗舰) 密集架构,31B 参数,最强推理能力。适合精调(Fine-tuning)与高质量推理场景。一张 80GB H100 可运行未量化版本。256K 上下文。显存需求:20GB(4-bit)/ 62GB(BF16)。

架构创新

Gemma 4 采用混合注意力机制,交替使用局部滑动窗口注意力与全局注意力,最后一层始终为全局注意力。这一设计在保留轻量模型速度与低内存占用的同时,确保了处理长上下文任务所需的深度感知能力。全局层使用统一的 Keys/Values,并应用比例位置编码(p-RoPE)优化长上下文性能。

E2B 与 E4B 中的"E"代表"Effective(有效参数)",这两款端侧模型引入了逐层嵌入(Per-Layer Embeddings,PLE)技术,为每个 token 在每一解码层生成专属的低维向量,使 E2B 在受支持的移动设备上内存占用低至 1.5GB。

核心能力

这一代Gemma的更新主要体现在:推理与 Thinking 模式、原生函数调用、多模态:文本/图像/视频、音频(E2B/E4B)、256K 超长上下文、140+ 语言 、结构化 JSON 输出,以及Apache 2.0 商用免费。

Gemma 4 首次在 Gemma 家族中引入原生 system role 支持,配置推理(Thinking)模式只需在系统提示开头加入 <|think|> 标记,无需任何额外工程。

基准测试成绩

Gemma 4 相比上一代 Gemma 3 27B 的提升不是渐进式的,而是跨级别的。

基准测试

Gemma 3 27B

Gemma 4 31B

Gemma 4 26B MoE

MMLU Pro

(多学科问答)

85.2%

82.6%

AIME 2026

(数学竞赛)

20.8%

89.2%

88.3%

LiveCodeBench v6

(代码竞赛)

29.1%

80.0%

77.1%

GPQA Diamond

(研究生科学)

42.4%

84.3%

82.3%

τ²-bench

(智能体工具调用)

6.6%

86.4%

85.5%

在 Arena AI 全球开放模型排行榜上,Gemma 4 31B(ELO ≈ 1452)位列第 3,26B MoE(ELO ≈ 1441)位列第 6。τ²-bench 的跃升:从 6.6% 到 86.4%,或许是最能说明实际价值的数字。这意味着 Gemma 4 终于具备了可靠的多步工具调用与智能体工作流能力。

硬件需求

ollama(4bit)

huggingface(16bit)

E2B

7.2GB

10.3GB

E4B

9.6GB

16GB

26B MoE

18GB

51.6 GB

31B Dense

20GB

62.6GB

Gemma 4的三种使用方式

Gemma 4 首日即获得主流推理框架的完整支持,包括 Ollama、vLLM、llama.cpp、MLX、Hugging Face Transformers、NVIDIA NIM、SGLang、LM Studio 等。以下重点介绍最常用的两种本地部署方式。

方式一:Ollama(推荐入门)

Ollama 在 Gemma 4 发布后 24 小时内即推出 v0.20.0 支持版本,是目前社区最广泛推荐的本地推理工具。它自动处理模型权重下载、量化格式选择和运行时配置,用户无需了解底层细节。

步骤:

  1. 从 ollama.com 下载对应系统的安装包,完成安装后确认 CLI 可用

  2. 拉取模型(以 E4B 为例,适合 8GB+ VRAM 的笔记本/台式机)

  3. 启动对话,也可通过 REST API 集成到应用中

# 版本确认,需要是v0.20.0ollama version# 拉取模型ollama pull gemma4:e4b# 直接对话ollama run gemma4:e4b# 其他尺寸:# ollama pull gemma4:e2b   # 手机/树莓派# ollama pull gemma4:27b   # 26B MoE(需要 18GB+)# ollama pull gemma4:31b   # 最强版本(需要 20GB+)

Ollama 默认上下文窗口仅为 4096,如果想发挥 Gemma 4 的长上下文优势,建议手动扩大:

# 进入模型后,在提示符中执行:/set parameter num_ctx 32768/save gemma4:e4b-32k/bye# 此后以新名称启动即可使用 32K 上下文ollama run gemma4:e4b-32k

Ollama同时暴露本地REST API(默认端口 11434),兼容OpenAI接口格式,便于对接Open WebUI、Claude Code CLI等上层工具:

# REST API 调用示例curl http://localhost:11434/api/generate \  -d '{    "model": "gemma4:e4b",    "prompt": "用 Python 实现快速排序",    "stream": false  }'# 或使用 OpenAI 兼容接口curl http://localhost:11434/v1/chat/completions \  -H "Content-Type: application/json" \  -d '{    "model": "gemma4:e4b",    "messages": [{"role": "user", "content": "解释 MoE 架构"}]  }'

方式二:vLLM(生产级高吞吐)

vLLM 适合需要高并发、批量推理的服务端部署。Gemma 4 首日即获支持。不过,vLLM 目前存在一个已知 bug,在部分 RTX 4090 等硬件上会将 Gemma 4 的推理速度限制在约 9 tokens/s(正常应为 40–60 tokens/s),遇到这种情况建议切换 Ollama。

# 安装 vLLM(需要 Python 3.10+)pip install vllm# 以 OpenAI 兼容服务方式启动 31B 模型vllm serve google/gemma-4-31b-it \  --dtype bfloat16 \  --max-model-len 32768 \  --tensor-parallel-size 1# 调用(与 OpenAI SDK 完全兼容)python -c "from openai import OpenAIclient = OpenAI(base_url='http://localhost:8000/v1', api_key='na')resp = client.chat.completions.create(    model='google/gemma-4-31b-it',    messages=[{'role': 'user', 'content': '分析以下代码的时间复杂度'}])print(resp.choices[0].message.content)"

方式三:Hugging Face Transformers(精调/研究)

# 安装依赖pip install transformers torch accelerate# Python 调用(开启 Thinking 模式)python -c "from transformers import pipelinepipe = pipeline(    'text-generation',    model='google/gemma-4-e4b-it',    device_map='auto')# 系统提示开头加 <|think|> 即启用推理模式messages = [    {'role': 'system', 'content': '<|think|> 你是一个数学助手。'},    {'role': 'user', 'content': '证明:无穷多个质数存在'}]result = pipe(messages, max_new_tokens=512)print(result[0]['generated_text'][-1]['content'])"

可执行测试案例

如果你想测试新版Gemma 4的新能力,可以从下面两个测试入手:分别验证 Gemma 4 的推理能力与代码生成能力。建议使用 Ollama + gemma4:e4b 或更大型号运行。

测试 1:Thinking 模式下的逻辑推理

这个测试旨在验证模型在开启逐步推理(Chain-of-Thought)时对复杂逻辑问题的处理能力。将以下内容作为 system prompt 使用,并观察 <|channel>thought 块内的思考过程。

# Ollama REST API 测试脚本(保存为 test_thinking.sh)curl http://localhost:11434/api/chat -d '{  "model": "gemma4:e4b",  "messages": [    {      "role": "system",      "content": "<|think|> 你是一个严谨的逻辑推理助手,请逐步思考后给出答案。"    },    {      "role": "user",      "content": "一个房间里有 3 盏灯,房间外有 3 个开关,每个开关对应一盏灯。你在房间外,看不到里面的灯。你只能进入房间一次。请描述如何通过操作开关,在进入房间一次后确定每个开关对应哪盏灯。"    }  ],  "stream": false}' | python3 -m json.tool

预期结果:模型应在 thought 块中逐步推理出"先打开开关 A 等待数分钟,再关掉,打开 B,进入房间后:亮着的是 B,热但不亮是 A,冷且不亮是 C"的经典解法。

测试 2:代码生成与函数调用

这个测试目的是验证 Gemma 4 的原生 Function Calling 能力,这是 Gemma 3 时代的薄弱环节,也是 Gemma 4 重点强化的方向。

# Python 函数调用测试(test_tool_use.py)import json, requeststools = [    {        "type": "function",        "function": {            "name": "get_weather",            "description": "获取指定城市的天气信息",            "parameters": {                "type": "object",                "properties": {                    "city": {"type": "string", "description": "城市名称"},                    "unit": {"type": "string", "enum": ["celsius", "fahrenheit"]}                },                "required": ["city"]            }        }    }]payload = {    "model": "gemma4:e4b",    "messages": [        {"role": "user", "content": "北京今天的天气怎么样?用摄氏度表示。"}    ],    "tools": tools,    "stream": False}resp = requests.post("http://localhost:11434/v1/chat/completions",                     json=payload).json()# 检查模型是否正确生成了 tool_callmsg = resp["choices"][0]["message"]if msg.get("tool_calls"):    tc = msg["tool_calls"][0]    print(f"✓ 工具名: {tc['function']['name']}")    print(f"✓ 参数: {tc['function']['arguments']}")else:    print("✗ 未生成 tool_call,检查模型版本或提示词")

预期结果:该测试应返回格式类似 {"city": "北京", "unit": "celsius"} 的结构化 JSON 参数,而非自由文本回答。若模型输出正确,即表明 Gemma 4 的函数调用能力可用于实际 Agent 开发。

综合评价

社区和专家反应都不错:

"这不是对 Gemma 3 的渐进式改进,而是完全不同量级的模型。AIME 分数从 20.8% 跳到 89.2%,我最初不相信这个数字,直到自己拉下来测试了 40 分钟。" —— Medium 技术博主(Data Science Collective,2026年4月)
"Gemma 4 的成功与否将完全取决于易用性,而不是 benchmark 分数的 5-10% 差距。它已经足够强、足够小、有正确的许可证,来自美国,很多公司会直接把它放进去。" —— interconnects.ai 分析文章,2026年4月
"以前 Gemma 的自定义许可证让法务团队头疼,很多企业直接跳过选了 Mistral 或 Qwen。Apache 2.0 是行业标准的'真正免费使用'信号,这次终于补上了。" —— MindStudio 技术博客,2026年4月

在 Reddit r/LocalLLaMA 社区,26B A4B MoE 版本获得了 16GB 显存用户的高度评价,被认为是该显存区间内性价比最优的选择。用户分享了针对推理和代码任务的最优参数组合:

--temp 0.3 --top-p 0.9 --min-p 0.1 --top-k 20

客观评估

  • Arena AI 排名(31B Dense):#3,全球开放模型榜,ELO ≈ 1452

  • Arena AI 排名(26B MoE):#6,仅 3.8B 激活参数达成

  • GPQA Diamond 独立测试:85.7%,40B 以下开放模型第 2 名

  • Codeforces ELO:2150(Gemma 3 仅为 110)

优势与局限

Gemma 4 最突出的价值在于三点叠加:Apache 2.0 商业免费、端侧到工作站的全硬件覆盖、以及在同参数量级别内的顶级 benchmark 成绩。26B MoE 型号尤为特殊——它以约 4B 的推理成本,提供了接近 13B 模型的输出质量,是显存受限场景下的"隐藏王牌"。

但 Gemma 4 并非没有局限。它的定位是端侧小模型,所以在最顶级的推理能力维度,它落后于 Qwen 3.5 397B、GLM-5 Reasoning 等中国超大型开放模型,以及 DeepSeek V3.2 在 IMO/IOI/ICPC 2026 竞赛中展示的极致数学能力。对于必须使用最强开源推理模型、且不计算资源成本的场景,这些竞争对手仍是更优选择。

此外,vLLM 目前存在已知的速度 bug(在部分 GPU 上被节流至 9 tok/s),社区建议在官方修复前优先使用 Ollama 作为替代。Gemma 历代版本在精调易用性上也曾受到批评,Gemma 4 能否在这一环节改善,仍有待社区精调实践的检验。

至顶AI实验室洞见

Gemma 4 是 Google 在开放模型赛道上交出的最有说服力的答卷。Apache 2.0 授权扫清了商业部署的法律障碍,端侧型号将真正可用的多模态 AI 带入了手机和树莓派,31B Dense 在单张 H100 上达到了与闭源 API 媲美的推理水准。对于希望在自有硬件上部署可靠、高性能开源模型的开发者和企业,Gemma 4 是目前最值得认真考虑的选项之一。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
FIFA以1.2亿美元“贱卖”世界杯转播权,CCTV该不该接?

FIFA以1.2亿美元“贱卖”世界杯转播权,CCTV该不该接?

新浪财经
2026-05-10 18:02:01
美国卫星:中国“羚羊礁”快变成西沙最大“填岛”

美国卫星:中国“羚羊礁”快变成西沙最大“填岛”

世家宝
2026-05-11 10:25:10
美国突曝海量UFO文件!中国三大经典UFO事件:萧山机场真相颠覆!

美国突曝海量UFO文件!中国三大经典UFO事件:萧山机场真相颠覆!

大稻网络科技
2026-05-09 09:29:34
合同到期!浙江男篮顶薪后卫或提前选择退役,季后赛场均仅2分3板

合同到期!浙江男篮顶薪后卫或提前选择退役,季后赛场均仅2分3板

老叶评球
2026-05-11 18:40:32
美股大型科技股盘前普跌,特斯拉跌0.7%

美股大型科技股盘前普跌,特斯拉跌0.7%

每日经济新闻
2026-05-11 16:12:19
美媒文章:美国面对的是已然阔步前行的中国

美媒文章:美国面对的是已然阔步前行的中国

参考消息
2026-05-10 15:38:08
订单排到3年后!硬核国产,全球爆火

订单排到3年后!硬核国产,全球爆火

看看新闻Knews
2026-05-11 11:56:13
一季度全国结婚登记169.7万对

一季度全国结婚登记169.7万对

第一财经资讯
2026-05-10 10:17:17
孙颖莎拒绝沾光!让日本输得心服口服,张本美和对王曼昱成功祛魅

孙颖莎拒绝沾光!让日本输得心服口服,张本美和对王曼昱成功祛魅

三十年莱斯特城球迷
2026-05-10 19:59:48
泰国敲定克拉陆桥! 新加坡靠马六甲躺赚的好日子,其实已经到头了

泰国敲定克拉陆桥! 新加坡靠马六甲躺赚的好日子,其实已经到头了

牛锅巴小钒
2026-05-11 14:30:01
克里米亚大桥传出10起爆炸!乌克兰完全清理库皮扬斯克俄军

克里米亚大桥传出10起爆炸!乌克兰完全清理库皮扬斯克俄军

项鹏飞
2026-05-09 20:56:35
澳网黄自曝“下海”辛酸史:被生父断绝关系,遭粉丝索要粪便内裤

澳网黄自曝“下海”辛酸史:被生父断绝关系,遭粉丝索要粪便内裤

澳洲红领巾
2026-05-11 15:30:10
雅思宣布:中国大陆地区,9月1日起取消纸笔考试

雅思宣布:中国大陆地区,9月1日起取消纸笔考试

南方都市报
2026-05-10 23:34:08
夺12连冠!随着国乒3-0日本,诞生3个不可思议,还有2个不争事实

夺12连冠!随着国乒3-0日本,诞生3个不可思议,还有2个不争事实

侃球熊弟
2026-05-11 01:44:31
39岁吴雨霏母亲节宣布再做妈妈,晒婴儿脚照,已有仨娃又收养一娃

39岁吴雨霏母亲节宣布再做妈妈,晒婴儿脚照,已有仨娃又收养一娃

一盅情怀
2026-05-11 16:54:59
钱再多有什么用?68岁刘莉莉东京豪宅养老,却为女儿一事夜夜难眠

钱再多有什么用?68岁刘莉莉东京豪宅养老,却为女儿一事夜夜难眠

南万说娱26
2026-05-10 11:46:09
大快人心!国家出手擒下3名华人首富,他们干的事,根本不能饶恕

大快人心!国家出手擒下3名华人首富,他们干的事,根本不能饶恕

墨印斋
2026-03-24 21:34:56
悉尼妹《亢奋》第三季过于露骨 豆瓣暴跌至6.9

悉尼妹《亢奋》第三季过于露骨 豆瓣暴跌至6.9

小椰的奶奶
2026-05-11 14:56:52
放得越久越值钱!“这6样”千万别扔掉,第2种家家户户都有!

放得越久越值钱!“这6样”千万别扔掉,第2种家家户户都有!

Home范
2026-05-11 11:45:07
6月入户调查启动!不查房产不查存款,看完这些彻底不慌了

6月入户调查启动!不查房产不查存款,看完这些彻底不慌了

老特有话说
2026-05-11 13:39:00
2026-05-11 21:55:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
3173470文章数 7320关注度
往期回顾 全部

科技要闻

黄仁勋:你们赶上了一代人一次的大机会

头条要闻

母女二人一年用水量高达400多吨 警方发现背后隐情

头条要闻

母女二人一年用水量高达400多吨 警方发现背后隐情

体育要闻

梁靖崑:可能是最后一届了,想让大家记住这个我

娱乐要闻

“孕妇坠崖案”王暖暖称被霸凌协商解约

财经要闻

宗馥莉罢免销售负责人 部分业务将外包

汽车要闻

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

家居
健康
本地
艺术
公开课

家居要闻

多元生活 此处无声

干细胞能让人“返老还童”吗

本地新闻

用苏绣的方式,打开江西婺源

艺术要闻

陆抑非写竹,笔力遒劲

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版