Google把4B模型塞进手机：端侧智能体时代提前3年到来？|谷歌|调用|上下文|知名企业

Google把4B模型塞进手机：端侧智能体时代提前3年到来？

2026-04-13 09:38:59　来源: 薛定谔的BUG

北京举报

分享至

一个4B参数的模型，在单张RTX 4090上跑出了32B模型的推理表现。Google Gemma 4的发布，让端侧智能体（Agentic AI）从PPT概念变成了今晚就能下载的权重文件。

这不是参数竞赛的又一次内卷。Gemma 4用架构创新证明：小模型+长上下文+工具调用能力，正在重新定义"边缘设备能做什么"的边界。

4B参数的"作弊级"表现

Gemma 4提供4B、12B、27B三个规格。4B版本在MMLU-Pro基准测试中得分42.7，与Qwen3-8B持平，却只用了一半参数量。

更关键的是长上下文窗口：4B支持256K token，12B和27B达到1M token。作为对比，Llama 4 Maverick的1M上下文需要405B参数才能跑动。Google用结构化稀疏注意力（Structured Sparse Attention）和知识蒸馏，把内存占用压到了同类模型的1/3。

推理速度数据更直观。在NVIDIA Jetson AGX Orin上，4B版本处理128K上下文时延迟低于2秒。这意味着一部手机可以在本地消化整本技术手册，然后回答针对性问题——不需要云端接力。

12B和27B版本瞄准的是工作站场景。27B在HumanEval代码生成任务中准确率76.2%，超过Gemma 3 27B的71.4%。提升来自两个改动：分组查询注意力（Grouped-Query Attention）减少KV缓存，以及针对工具调用微调的SFT数据混合策略。

智能体能力：从"能聊天"到"能干活"

Gemma 4的模型卡里有段容易被忽略的描述：原生支持多轮工具调用和状态跟踪。翻译成人话——它能在对话中记住自己调用了什么API、拿到了什么结果、下一步该做什么。

Google同步放出了Gemma 4 for Agents技术报告。里面有个测试案例：模型被要求"查一下我下周的会议，如果和旧金山下雨冲突就发邮件改期"。

执行链路是这样的：调用日历API提取会议→调用天气API查询旧金山预报→比对时间冲突→调用邮件API起草改期请求。全程在本地完成，上下文窗口足够容纳多轮工具返回的JSON数据。

这种能力以前需要云端大模型+复杂编排框架。现在4B参数就能在树莓派上跑通。

工具调用准确率数据：在BFCL-v2基准测试中，Gemma 4 27B达到87.3%，接近GPT-4o的89.1%。4B版本也有71.5%，足够应对大多数本地自动化场景。

开源权重的商业算计

Gemma系列一直是Google对抗Meta Llama的棋子。但Gemma 4的许可条款有个微妙变化：允许月活超过7亿的产品商用，前提是"不用于训练竞争模型"。

这刀切得很准。Llama的商用限制更宽松，但要求大公司单独申请。Google用"自动授权+反竞争条款"的组合，既讨好开发者，又防着OpenAI和Anthropic拿权重去蒸馏。

生态配套也在加速。Hugging Face已经上线量化版本，4B INT4压缩后只占2.1GB内存。Ollama、llama.cpp的适配PR在发布当天合并。Google自家Pixel设备的AI Core更新预计6月推送，届时Gemma 4将接替Gemma 3成为端侧Gemini Nano的备选后端。

一个值得玩味的细节：Gemma 4的预训练数据截止到2025年1月，但技术报告提到"使用了合成数据增强工具调用能力"。合成数据的占比和生成方式没有披露——这是目前开源社区最大的黑箱。

端侧智能体的临界点

2024年，端侧AI的主流叙事还是"把7B模型塞进手机跑聊天"。Gemma 4把标准抬到了"本地智能体自主执行多步骤任务"。

这对两类产品冲击最直接。一是RPA（机器人流程自动化）软件，二是各类"AI助手"应用。如果手机本身能调度日历、邮件、地图API完成复杂任务，中间层的价值会被压缩。

硬件厂商的反应比软件更快。高通在Gemma 4发布当天宣布骁龙8 Elite的NPU优化已完成，INT8推理功耗降至1.5W。联发科天玑9400的适配也在进行中。终端侧的算力冗余，终于等来了能吃掉它的模型。

Google DeepMind负责人Demis Hassabis在发布后的AMA中回应了定价问题：「Gemma 4的权重永远免费。我们的 bets 在Gemini API和云服务上。」

这句话的潜台词是：Google用开源小模型教育市场、培养开发者习惯，真正的利润来自企业调用云端Gemini 2.5 Pro处理Gemma 4搞不定的复杂任务。开源是获客成本，不是慈善。

开发者社区的反馈分化明显。Hacker News热评第一质疑1M上下文的实际价值：「大多数RAG场景用不到这么长的窗口，除非你在本地分析整个代码库。」另一条高赞回复反驳：「这正是重点——以前需要向量数据库+重排序的架构，现在可以直接把10万行代码扔进提示词。」

技术报告里有个被忽略的基准测试：Gemma 4 27B在RULER长上下文检索任务中，1M token的准确率保持在92%以上。作为对比，Llama 3.1 405B在128K时就开始衰减。这说明Google的稀疏注意力不是噱头，是真能Hold住超长文本。

现在最大的未知数是：当端侧模型能自主调用工具、处理百万级上下文，应用层的创新会往哪个方向爆发？是彻底离线的隐私优先型产品，还是端云协同的混合架构？你的下一款AI应用，会把推理放在哪一端？

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.