最小仅2B！谷歌最强开源模型登场，免费商用，手机就能跑|编程|模态|智能体|工作流|电子表格|知名企业

最小仅2B！谷歌最强开源模型登场，免费商用，手机就能跑

2026-04-03 18:03:52　来源: 智东西

北京举报

分享至

智东西
编译陈佳
编辑程茜

智东西4月3日消息，今日谷歌DeepMind开源发布Gemma 4系列模型，根据官方博客，这是谷歌迄今为止最智能的开放模型，专为高级推理和智能体工作流而设计，实现了单位参数下前所未有的智能水平。

其中，31B 模型目前在行业标准的Arena AI文本排行榜上名列全球开放模型第3位，在GPQA Diamond在这一高难度科学推理基准上取得85.7%的准确率，仅次于Qwen3.5 27B的85.8%。

▲Gemma 4系列模型在多项基准测试中的表现对比（图源：blog.google）

自第一代模型发布以来，Gemma的下载量已突破4亿次，并衍生出超十万种社区变体。

Gemma 4系列是基于与Gemini 3相同的技术体系构建的，支持图像与视频（以帧序列形式）及文本输入，小模型版本进一步支持音频理解。该系列共四款型号，E2B、E4B、26B混合专家模型（MoE）与31B 稠密模型，覆盖从智能手机、树莓派到专业工作站的完整部署场景，全部采用Apache 2.0协议开放，开发者可自由修改、再分发并用于商业产品。

有开发者在社区评论中说：“基准数据一直都在，但没人愿意在一个谷歌随时可能改规则的模型上建立产品。现在它才真的可以部署了。”

▲Gemma 4官方模型集合页面（图源：Hugging Face）

在硬件覆盖上，Gemma 4采取“移动优先”的设计理念，同时兼顾全栈部署需求。E2B与E4B专为边缘设备优化，可在手机、树莓派、NVIDIA Jetson Orin Nano上完全离线运行，延迟趋近于实时；26B与31B模型的非量化bfloat16权重可在单张80GB NVIDIA H100 GPU上运行，量化版本则支持消费级GPU本地部署。

谷歌DeepMind CEO德米斯·哈萨比斯（Demis Hassabis）将Gemma 4称为“在各自参数量级下性能最优的全球开源模型”。

▲谷歌DeepMind CEO 德米斯·哈萨比斯（Demis Hassabis）在X平台的推文

Hugging Face联合创始人克莱门特·德朗格（Clément Delangue）将Gemma 4模型发布视为“本地AI正在迎来关键发展阶段”，并认为开放模型与可本地部署能力将成为未来AI的重要方向。

▲Hugging Face联合创始人克莱门特·德朗格（Clément Delangue）在X平台的推文

此次Gemma 4的发布，被多家外媒视为谷歌重返开源主战场，美国模型阵营迎来关键补位。

Hugging Face地址：https://huggingface.co/collections/google/gemma-4
官方技术博客：https://blog.google/innovation-and-ai/technology/developers-tools/gemma-4/

一、4大模型配置，性能表现超越参数规模达其20倍的模型

在官方技术博客中，谷歌说Gemma 4实现了单位参数下前所未有的智能水平，能在更低计算开销下实现更强性能。

该系列并非延续单纯扩大参数规模的路径，而是通过架构设计与训练优化的系统性改进，使开发者以更低硬件成本获得接近前沿模型的能力。

Gemma 4提供四种规模配置：E2B、E4B、26B混合专家模型（MoE）以及31B稠密模型。

31B 模型目前在行业标准的Arena AI文本排行榜上名列全球开放模型第3位，26B模型则名列第6位。在榜单中，Gemma 4的表现甚至超越了规模达其20倍的模型。对于开发者而言，这种单位参数智能水平的新高度意味着只需极低的硬件开销，即可获得前沿模型级别的能力。

▲Gemma 4 在Arena用户偏好排行榜中的参数量对比（左）与用户偏好（右）（图源：blog.google）

架构层面，26B MoE模型采用“按需激活参数”的设计，推理时仅激活约3.8B活跃参数，在显著降低算力需求的同时保持高性能输出；E2B与E4B小模型则引入Per-Layer Embeddings（PLE）机制，为解码器每一层引入独立的embedding表，从而增强各层的表达能力并提升参数利用效率，使模型在不显著增加计算负担的前提下获得更强的表征能力。

在注意力机制上，Gemma 4交替使用局部滑动窗口注意力与全局注意力机制，并在最后一层采用全局注意力，在保证长上下文能力的同时有效控制内存消耗。

在上下文处理能力上，边缘机型配备128K的上下文窗口，而更大型号则提供256K的上下文窗口，允许用户在一次提示中处理存储库或长文档。

这套架构优化的实际效果已在具体应用中得到验证。谷歌在博客中列举了两个典型案例：INSAIT基于Gemma系列开发了保加利亚语优先大模型BgGPT，耶鲁大学则与谷歌合作推进Cell2Sentence-Scale项目，探索癌症治疗新路径。这些案例基于对Gemma模型的微调与适配，体现出Gemma在垂直领域应用中的潜力。

二、原生支持图像、视频输入，可处理140种语言

Gemma 4不再局限于文本生成，而是从底层架构出发，将多模态理解与智能体（Agent）调用能力原生整合进同一模型体系。

全系四款模型均原生支持图像与视频输入，其中视频以帧序列形式处理，在OCR、图表理解等视觉任务中表现较为突出；E2B与E4B进一步集成原生音频能力，支持语音识别与理解。

在视觉处理精度上，模型支持可变分辨率与可配置token预算，官方提供70至1120 token等多档配置：低预算适用于分类与视频帧理解等速度敏感场景，高预算则用于OCR、文档解析与细粒度图像分析。

Gemma 4将函数调用（function calling）与结构化输出能力直接训练进模型本身，而非依赖提示工程引导。模型可原生输出结构化JSON，支持多工具调用与多轮任务执行，使其能够稳定参与自动化工作流，有效降低开发者构建智能体系统的工程成本。

在代码能力上，Gemma 4支持高质量离线代码生成，可在本地环境运行，被定位为“本地优先”的AI编程助手。在多步推理与复杂指令执行任务中，其表现较上一代显著提升。此外，模型原生支持超过140种语言。

三、采用Apache 2.0许可证开源，可在手机上离线运行

技术能力之外，Gemma 4的另一核心变化在于开放策略的调整。谷歌此次全面采用Apache 2.0许可证，取代此前的自定义授权方式，允许开发者自由修改、再分发及商业化部署，赋予其对模型、数据与基础设施更高的控制权。

▲Apache License 2.0开源协议核心条款说明（图源：devmandan）

在开发与部署层面，Gemma 4强调“从实验到生产”的完整链路支持。开发者可通过Google AI Studio（支持31B与26B MoE）与AI Edge Gallery（支持E4B与E2B）快速体验模型能力，也可在Android Studio中结合Agent模式进行移动应用开发。

在工具链适配上，Gemma 4发布首日即支持Hugging Face（含Transformers、TRL、Transformers.js、Candle）、vLLM、llama.cpp、MLX、Ollama、NVIDIA NIM和NeMo、LM Studio、Unsloth、SGLang等主流框架，模型权重通过Hugging Face、Kaggle与Ollama开放下载。

此外，Gemma 4针对NVIDIA GPU（涵盖Jetson至Blackwell架构）、AMD GPU（ROCm生态）以及谷歌自研Trillium与Ironwood TPU进行了深度优化，实现跨硬件平台的高效适配。云端方面，可通过Vertex AI、Cloud Run、GKE及TPU加速服务等多种方案扩展至生产规模。

四、实测多模态复杂任务效果一般

知名AI开发者Simon Willison在实际测试后指出，Gemma 4在“单位参数能力”（intelligence per parameter）上的表现尤为突出，这一指标反映出模型在有限参数规模下实现更高性能的能力。他认为，相较于持续扩大模型体量，如何在既有参数约束下提升性能，正逐渐成为当前模型优化的重要方向。

Willison以“骑自行车的鹈鹕”这一复杂视觉生成任务为例，对不同规模模型进行对比测试。结果显示，从2B到26B参数规模，模型生成质量呈现出明显的递进关系：小模型在复杂结构表达上仍存在不足，而中等规模模型已能够生成语义较为完整的图像。这一现象表明，尽管小模型在效率上取得进展，但在多模态复杂任务中仍对模型规模存在一定依赖。

▲Willison以“骑自行车的鹈鹕”对该模型从2B到4B再到26B-A4B的测试

Willison提到，该系列模型已不仅限于文本处理，还支持图像及视频（以帧序列形式）输入与音频。其中，E2B与E4B等小参数模型已具备语音理解能力。不过，从实际开发环境来看，这些能力尚未完全落地，本地推理框架对音频等输入形式的支持仍在完善过程中。

Hugging Face在Gemma 4技术解读中指出，与以往主要依赖云端部署的超大模型不同，Gemma 4系列覆盖从2B到31B的多种参数规模，使其既可应用于数据中心，也能够运行在本地设备乃至边缘硬件上，体现出模型向“端侧可用”的发展趋势。

Gemma 4通过结构优化与机制创新，使小参数模型在保持资源消耗可控的前提下实现能力提升。以E2B、E4B为代表的小模型，不仅支持多模态输入，还通过结构优化提升参数利用效率，使其在保持较低资源消耗的同时具备较强任务能力。

五、编程、高难度推理表现，接近Qwen3.5

从Arena榜单的对比结果来看，Gemma 4在文本类任务中的整体能力较上一代实现了全面提升。无论是在写作、编程、复杂指令执行，还是多轮对话与长文本理解等场景中，其表现均明显优于Gemma 3和Gemma 2，并在多个维度接近当前开源模型的第一梯队。

具体来看，Gemma 4在“专家级文本理解”和“代码生成”等高难度任务上提升尤为显著，同时在创意写作、复杂提示处理等场景中也表现出更稳定的输出质量。这种全维度外扩的能力曲线，意味着该模型不再只在个别任务上优化，而是在通用文本能力上实现整体提升。

▲Gemma系列模型在Arena文本类别排名对比（图源：Arena.ai）

根据独立AI评测媒体ai.rs对Gemma 4、Qwen与Llama的对比评测分析，此次升级被认为是开源模型领域“单代提升幅度最大的一次”，其进步并非渐进式优化，而是跨越式跃升。

尤其在编程能力上，Gemma 4的Codeforces ELO评分相较上一代Gemma 3的110分（接近勉强可用水平），大幅提升至2150分（接近竞技编程专家级）。

▲Gemma 4编码能力测试（图源：ai.rs）

ai.rs进一步指出，在高难度推理与代码生成等关键任务上，Gemma 4整体表现达到当前开源模型中的领先水平。

独立AI基准测试机构Artificial Analysis发布的GPQA Diamond排行榜显示，谷歌Gemma 4 31B模型在高难度科学推理基准上取得85.7%的准确率，位列榜单前列，与Qwen3.5 27B（85.8%）表现接近。

该基准包含198道由博士级专家编写的“防搜索”问题，涵盖生物、化学和物理领域，要求模型具备真正的研究生级科学推理能力，而非依赖外部知识检索。相比之下，人类领域专家的平均准确率约为65%。

值得注意的是，Gemma 4系列在参数效率上表现出色：其26B和31B变体在得分与参数量的对比图中落入高效象限，证明Gemma 4以相对较小的参数规模实现了高性能。

▲GPQA Diamond基准测试结果（柱状图）及得分与参数量关系（散点图）（图源：Artificial Analysis）

结语：从“能用”到“可部署”，效率、成本与生态的综合较量

从此次Gemma 4的发布来看，其意义并不只在于单一指标的提升，而是性能、部署方式与授权策略的同步变化。Gemma 4一方面通过架构优化提升参数利用效率，小模型能力持续逼近中等规模模型，另一方面多模态能力与本地部署能力同步推进，在部分场景下减少对云端算力的依赖。

从更宏观的视角来看，开源大模型竞争已不再局限于性能指标，而是转向效率、成本与生态的综合较量。谁能在“好用、可部署、可扩展”之间取得平衡，谁才更有可能在下一阶段占据主导地位。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.