谷歌把310亿参数塞进手机，开源模型排名直接杀进前三|树莓派|工作流|阶跃星辰|知名企业

谷歌把310亿参数塞进手机，开源模型排名直接杀进前三

2026-04-03 07:47:33　来源: 赛博兰博

北京举报

分享至

谷歌今天扔了个不大不小的炸弹——Gemma 4 正式发布，官方说法是"迄今为止最智能的开源模型"。但比起这个定语，我更在意它背后那个被反复提到的词："单位参数智能水平"。

翻译一下：同样的活儿，别人要请20倍的人手，Gemma 4 一个小团队就能干完。

这次谷歌端出了四道菜：20亿和40亿的轻量版（E2B/E4B）、260亿的MoE、310亿的稠密模型。后两者在Arena AI榜单上分别排到开源第三和第六，而它们要对抗的是自身体量20倍的对手。对开发者来说，这意味着用一张80GB的H100就能跑满血版，量化后甚至消费级显卡也能伺候——工作站变成本地AI编程助手这件事，终于不那么像科幻了。

端侧部署是另一场戏。E2B和E4B没有盲目堆参数，而是把筹码押在多模态、低延迟和生态整合上。视频图像原生支持，OCR和图表理解随手就来；轻量版还额外塞进了音频输入，语音识别彻底离线完成。上下文窗口拉到128K（大模型256K），单次塞进去一个代码库没问题。

140多种语言的原生训练、函数调用、结构化JSON输出、智能体工作流……这些功能清单读起来像AI模型的标准体检报告，但谷歌这次的重点明显不在"我有"，而在"我能跑在哪"。与Pixel团队、高通、联发科的深度合作，让这套模型可以完整离线运行在手机上，甚至树莓派和Jetson Orin Nano这种边缘设备。安卓开发者现在就能在AICore预览版里搭智能体流程，还能向前兼容Gemini Nano 4。

26B的MoE模型玩了个花活：总参数260亿，推理时只激活38亿，用"假装人多实际就几个干活"的策略换低延迟。31B稠密模型则走另一条路——不调戏，纯堆性能，给微调留足空间。

谷歌这次的产品逻辑很清晰：不是造一个最强的模型，而是造一组能活在不同硬件里的模型。从H100到树莓派，每个层级都有对应的解法。开源模型的竞争正在从"参数军备赛"转向"落地效率赛"，而Gemma 4 的押注是——开发者更想要一个随时随地能跑起来的聪明助手，而不是一个只能在云端供着的性能怪兽。

至于这个策略能不能成，Arena AI榜单上的排名已经给了一部分答案。剩下的，要看有多少开发者真的愿意把模型从服务器搬到口袋里。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.