AI必须活在云端吗?Google DeepMind刚刚用一份Apache 2.0许可证颠覆了这个假设。
Gemma 4的发布标志着前沿AI从服务器机房向个人设备的迁移。这不是简单的模型迭代,而是一次关于"可及性、隐私与主权"的理念转向。核心问题已从"能否本地运行大模型"变成"你将用它创造什么"。
![]()
四档配置,覆盖全硬件层级
Google设计了一套"智能阶梯",让不同算力条件都能找到对应方案:
E2B(Edge 2 Billion):总参数量51亿,有效激活23亿,上下文窗口12.8万token。内存可压缩至1.5GB以下,专为移动设备和物联网优化,内置音频编码器支持语音识别与翻译。
E4B(Edge 4 Billion):总参数量80亿,有效激活45亿,上下文窗口12.8万token。定位旗舰手机与MacBook,被Google称为"大多数开发者的甜点区"。
26B A4B(MoE架构):总参数量252亿,但每token仅激活约40亿。采用128个小型专家网络,每token路由8个专家加1个共享专家。以约12%的计算量达到密集31B模型97%的质量水平,上下文窗口25.6万token,面向企业级部署。
31B Dense:总参数量310亿,上下文窗口25.6万token。需要18-24GB内存,追求极限推理能力时的选择。
性能跃迁:小模型的重量级表现
Gemma 3到Gemma 4的跨越不是渐进改良,而是代际更替。在Artificial Analysis Intelligence Index上,Gemma 4 31B得分39分,较前代Gemma 3 27B的10分提升29分。
具体基准测试数据:
数学推理(AIME 2026):从20.8%跃升至89.2%,提升超4倍。
编程能力(LiveCodeBench):从29.1%跃升至80.0%,提升近3倍。
研究生级科学问题(GPQA Diamond):达到84.3%,性能翻倍。
智能体工作流(T2-Bench):从6.6%跃升至86.4%。
当310亿参数的模型能在多项任务上超越参数量10-20倍于己的竞品——包括Qwen3.5-397B和DeepSeek v3.2-671B——本地部署的经济账被彻底重写。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.