![]()
谷歌今天扔了个不大不小的炸弹——Gemma 4 正式发布,官方说法是"迄今为止最智能的开源模型"。但比起这个定语,我更在意它背后那个被反复提到的词:"单位参数智能水平"。
翻译一下:同样的活儿,别人要请20倍的人手,Gemma 4 一个小团队就能干完。
这次谷歌端出了四道菜:20亿和40亿的轻量版(E2B/E4B)、260亿的MoE、310亿的稠密模型。后两者在Arena AI榜单上分别排到开源第三和第六,而它们要对抗的是自身体量20倍的对手。对开发者来说,这意味着用一张80GB的H100就能跑满血版,量化后甚至消费级显卡也能伺候——工作站变成本地AI编程助手这件事,终于不那么像科幻了。
端侧部署是另一场戏。E2B和E4B没有盲目堆参数,而是把筹码押在多模态、低延迟和生态整合上。视频图像原生支持,OCR和图表理解随手就来;轻量版还额外塞进了音频输入,语音识别彻底离线完成。上下文窗口拉到128K(大模型256K),单次塞进去一个代码库没问题。
140多种语言的原生训练、函数调用、结构化JSON输出、智能体工作流……这些功能清单读起来像AI模型的标准体检报告,但谷歌这次的重点明显不在"我有",而在"我能跑在哪"。与Pixel团队、高通、联发科的深度合作,让这套模型可以完整离线运行在手机上,甚至树莓派和Jetson Orin Nano这种边缘设备。安卓开发者现在就能在AICore预览版里搭智能体流程,还能向前兼容Gemini Nano 4。
26B的MoE模型玩了个花活:总参数260亿,推理时只激活38亿,用"假装人多实际就几个干活"的策略换低延迟。31B稠密模型则走另一条路——不调戏,纯堆性能,给微调留足空间。
谷歌这次的产品逻辑很清晰:不是造一个最强的模型,而是造一组能活在不同硬件里的模型。从H100到树莓派,每个层级都有对应的解法。开源模型的竞争正在从"参数军备赛"转向"落地效率赛",而Gemma 4 的押注是——开发者更想要一个随时随地能跑起来的聪明助手,而不是一个只能在云端供着的性能怪兽。
至于这个策略能不能成,Arena AI榜单上的排名已经给了一部分答案。剩下的,要看有多少开发者真的愿意把模型从服务器搬到口袋里。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.