Gemma 4 突袭发布！为谷歌迄今最强大开源模型家族，31B模型击败大20倍对手|安卓|知名企业|apache|谷歌gemma4

Gemma 4 突袭发布！为谷歌迄今最强大开源模型家族，31B模型击败大20倍对手

2026-04-03 01:54:47　来源: 鲸选AI

北京举报

分享至

4月2日凌晨，谷歌 DeepMind 的 CEO Demis Hassabis 在 X 上发了四颗钻石 emoji，神秘感拉满。

几个小时后，谜底揭晓。谷歌正式发布了Gemma 4系列，包含 E2B、E4B、26B-A4B、31B 4种型号，这是他们迄今为止最强大的开源模型家族。

更让人意外的是，这次谷歌彻底放下了姿态，直接用上了 Apache 2.0开源协议。要知道，之前 Gemma 3那套自定义协议，开发者们可是抱怨了一整年。

看完发布内容，我觉得这次谷歌是真的在开源模型上动真格了。31B 版本直接冲到 Arena AI 排行榜全球第三，用不到十分之一的参数量就能跟那些4000亿参数的巨无霸掰手腕。这种参数效率的提升，对想在本地跑模型的人来说，意义比什么都大。

Gemma 4与国产大模型跑分对比

Gemma 4最大的技术亮点，是它直接继承了 Gemini 3的研究成果和技术架构。谷歌在官方博客里说得很明白：“Gemma 4基于与 Gemini 3相同的世界级研究和技术打造。”这意味着什么？就是谷歌把自家闭源旗舰模型的核心能力，下放到了开源模型上。

这种“技术下放”在大厂里其实不常见。通常闭源模型和开源模型是两条完全不同的技术路线，但谷歌这次选择让 Gemma 4跟 Gemini 3共享底层技术，这也解释了为什么 Gemma 4的性能提升这么明显。

小身材，大能量：31B 击败397B 巨无霸

其实在正式发布之前，社区里就已经有人嗅到了风声。LMSYS Chatbot Arena 上突然出现了一个代号叫“significant-otter”的匿名模型，有用户好奇地问它是谁，它直接回答：“I am Gemma 4, a large language model developed by Google DeepMind。”

Reddit 上 r/LocalLLaMA 社区的用户反馈说，这个模型响应速度快得吓人，而且不是那种专门搞推理的模型，基础能力测试全都通过了。

Hassabis 那四颗钻石 emoji，就是在暗示 Gemma 4的四个版本。这位 DeepMind 的掌门人，在发布会上直接放话：“这是全球同等规模下最好的开源模型。”

最让人震惊的是 Gemma 4 31B 的实际表现。在业界标准的 Arena AI 文本排行榜上，31B Dense 版本直接冲到了全球开源模型第三名，仅次于 GLM-5和 Kimi 2.5，而26B MoE 版本排第六。这意味着什么？它们击败了一大堆参数量是自己20倍的巨无霸模型。

要知道，像 Qwen 3.5 397B 这种级别的模型，参数量接近4000亿，跟 Gemini 3 Pro、Claude Opus 4.5、GPT-5.2在一个性能档次。但 Gemma 4 31B 用不到十分之一的参数量，就能在排行榜上跟这些巨无霸掰手腕。谷歌把这叫做“每参数智能”——用更少的参数，达到更高的性能。

从实测数据来看，Gemma 4 31B 在多个关键测试中表现惊艳。MMLU Pro 测试拿到了85.2% 的成绩，AIME 2026数学竞赛题目达到89.2% 的准确率，LiveCodeBench v6代码测试80.0%，Codeforces 编程竞赛 ELO 评分高达2150。

要知道，上一代 Gemma 3 27B 在 AIME 2026上只有20.8%，这次直接翻了四倍多。

更夸张的是视觉和多模态能力。在 MMMU Pro 多模态理解测试中，31B 版本拿到了76.9%，MATH-Vision 数学视觉题目85.6%，医学图像评估 MedXpertQA MM 达到61.3%。就连音频处理能力也没落下，E4B 和 E2B 这两个移动端版本在 CoVoST 语音翻译测试中分别拿到了35.54和33.47的分数。

这种参数效率的提升，对于想在本地跑模型的开发者来说意义重大。你不需要花几万块买一张 H100，一张消费级显卡就能跑起来接近顶级的性能。

从手机到工作站，四个版本各有所长

Gemma 4这次发布了四个版本，从手机到服务器全覆盖。

最小的 Effective 2B（E2B）和 Effective 4B（E4B）是专门为移动设备设计的，可以完全离线运行在你的 Android 手机上，甚至树莓派上都能跑。谷歌跟 Pixel 团队、高通、联发科一起合作优化，延迟几乎为零。

26B 的 MoE（混合专家）版本更有意思，它虽然有260亿参数，但推理时只激活38亿参数，这意味着速度快得飞起，每秒生成的 token 数量比同等规模的模型高出一大截。在 MMLU Pro 上拿到82.6%，AIME 2026达到88.3%，跟31B 版本咬得很紧，但推理速度快太多了。

31B Dense 版本则是追求极致质量，谷歌说这是为了让开发者能在上面做精细化微调的。在 GPQA Diamond 科学推理测试中拿到84.3%，Tau2综合测试平均76.9%，BigBench Extra Hard 超难任务74.4%。这些分数放在开源模型里，已经是顶尖水平了。

所有版本都原生支持视频和图像输入，能做 OCR 和图表理解。E2B 和 E4B 还支持原生音频输入，可以做语音识别和理解。更夸张的是，Gemma 4原生训练了140多种语言，上下文窗口边缘模型有12.8万 token，大模型有25.6万 token。

Apache 2.0：谷歌终于听进去了开发者的抱怨

如果说性能提升是意料之中，那协议的改变就是真正的惊喜了。之前 Gemma 3用的是谷歌自己定制的协议，里面有一堆限制条款，谷歌还能单方面随时修改使用规则，开发者必须在所有基于 Gemma 的项目里执行谷歌的规定。有些条款甚至可以被解读为，如果你用 Gemma 生成了合成数据，这个协议还能延伸到你用这些数据训练的其他 AI 模型上。这让很多开发者对用谷歌的开源模型心存顾虑。

这次 Gemma 4直接换成了 Apache 2.0协议，这是业界最宽松、最成熟的开源协议之一。没有那些过度限制的使用条款，没有商业限制，谷歌也不能哪天突然说协议要改就改了。开发者们熟悉这个协议，用起来放心。谷歌在官方博客里说：“你们给了我们反馈，我们听进去了。构建 AI 的未来需要协作，我们相信应该赋能开发者生态，而不是设置限制性障碍。”

4亿次下载，10万个变体，“Gemmaverse”已经成型

自从第一代 Gemma 在2024年2月发布以来，开发者们已经下载了超过4亿次，社区创造了超过10万个变体。谷歌把这叫做“Gemmaverse”——一个围绕 Gemma 建立起来的生态宇宙。

这些变体里有些相当有意思。比如 MedGemma 是基于 Gemma 3做的医疗影像和报告生成工具，DolphinGemma 用来分析海豚的声音，SignGemma 则是做手语翻译的。这些应用远远超出了通用聊天的范畴，证明了开源模型架构的潜力。

Reddit 上有开发者对比了 Gemma 27B 和其他同规模模型，他说：“Mistral 24B 的微调版本和 Gemma 27B 大概有10-20% 的时候能赢过 Qwen 27B，但80-90% 的时候还是 Qwen 更强。不过 Gemma 在长上下文能力上表现真的很出色。”这次 Gemma 4在长上下文测试 MRCR v2上，31B 版本拿到了66.4%，比上一代的13.5% 提升了整整五倍。

本地 AI 的野心：不联网也能用上顶级智能

Gemma 4最大的意义，其实是把“本地 AI”这件事推向了新高度。你可以在自己的硬件上运行这些模型，不需要连接云端，不需要担心隐私泄露，也不需要为每次 API 调用付费。

谷歌在开发者博客里说得很明白：“Gemma 4重新定义了你在自己硬件上能做到什么。现在你可以超越聊天机器人，构建能在设备上直接运行的智能体和自主 AI 应用。”Android 开发者可以通过新的 AICore Developer Preview 访问内置的 Gemma 4模型，或者用 Google AI Edge 在移动端、桌面端和边缘设备上构建智能体应用。

Arm 公司在他们的新闻稿里也提到，Gemma 4在 Arm 架构的 Android 设备上做了深度优化，开发者只要针对基于 SME2的 Arm 设备，就能自动获得开箱即用的性能优化。用户能体验到更快的响应、更流畅的持续交互、更可靠的设备端 AI，同时还能保持电池续航和散热稳定。

开源模型的战场，谷歌不想输给中国

Gemma 4的发布，其实也反映了一个更大的背景：美国在开源大语言模型领域相对中国已经落后了。DeepSeek、Qwen 这些中国的开源模型在全球范围内获得了大量关注和使用。英伟达也在推 Nemotron 系列来发展开源 AI 生态。谷歌显然不想在这个战场上缺席。

对企业来说，开源模型的价值在于可以根据具体业务场景进行定制。谷歌说 Gemma 已经有超过10万个变体，这个数字本身就说明了需求的旺盛。虽然 OpenRouter 的使用数据显示，谷歌的开源模型在实际部署中历来落后于 Meta 的 LLaMA 和 DeepSeek，但 Gemma 4这次结合了竞争力的基准测试性能、Apache 2.0协议和强大的移动端优先工程，可能会比之前任何一代 Gemma 都更有说服力。

从现在开始就能用上

Gemma 4已经在 Google AI Studio（31B 和26B MoE）和 Google AI Edge Gallery（E4B 和 E2B）上线了。你也可以从 Hugging Face、Kaggle、Ollama 下载模型权重。首日就支持 vLLM、llama.cpp、MLX、NVIDIA NIM 等平台。

谷歌还发布了一个新的 Python 包和 CLI 工具 litert-lm，让开发者可以在控制台里直接体验 Gemma，不用写任何代码。这个 CLI 支持 Linux、macOS 和树莓派，现在还支持工具调用功能。

Demis Hassabis 在发布时说的那句话，可能最能概括 Gemma 4的定位：“按字节计算，这是全球最强大的开源模型。”谷歌这次是真的想在开源 AI 这条赛道上认真跑一跑了。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.