周三下午,我把一份体检报告拖进对话框,没有上传云端。这件事放在两年前还做不到——本地模型要么笨到看不懂,要么大到跑不动。现在Gemma 4的E4B版本在我8G显存的旧电脑上流畅运行,处理完PDF里的表格和手写备注,还顺手标出了两处需要复查的指标。
这不是技术发烧友的玩具。Google DeepMind四月份发布的这一代开源模型,第一次把Apache 2.0协议用在了Gemma家族身上。意味着你可以拿走权重、微调、商用,不用翻几十页法律附件。之前几代挂着Google自己的限制性条款,这次算是真正松绑。
![]()
四个型号构成产品矩阵:E2B、E4B、26B A4B、31B。全是多模态,但有个奇怪的取舍——只有最小的两个能处理音频。我用的E4B刚好卡在甜点区:够小能本地跑,又够全支持图文音。
架构设计暴露了Google的野心。E4B是 dense 模型,不是26B那种混合专家(MoE)结构,不靠激活大参数池的局部来省算力,而是直接把模型做轻。每层嵌入(Per-Layer Embeddings)降低活跃计算量,注意力机制搞成混合方案:前面层用局部滑动窗口,只在最后一层开全局视野。翻译成人话就是,它不会同时记住整本书,但知道该在什么时候翻目录。
Q4量化后显存占用3到6GB。这个数值得细品——设计目标本来是手机和树莓派,PC反而成了舒适区。我的使用场景很普通:私人文件、健康财务相关、需要长时间对话不被用量限制打断的研究。多模态能力意外改变了体验边界。扔张截图进去,丢段录音,它能做跨模态推理,不只是转文字。
云AI当然更强。但"强"和"能用"之间出现了新的缝隙。Gemma 4没打算在代码生成或者复杂数学证明上硬碰硬,它解决的是一个更务实的问题:当你的数据不想出门,你的硬件不够豪华,你仍然能拥有一个不拖后腿的助手。这个定位本身,可能比参数竞赛更有穿透力。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.