开发者把Gemma 4塞进手机：断网也能跑的AI口袋|谷歌|安卓|知名企业|gemma|即时通讯工具

开发者把Gemma 4塞进手机：断网也能跑的AI口袋

2026-05-08 23:31:12　来源: 硬核玩家2哈

北京举报

分享至

2026年最可怕的事，可能是你习惯的那款AI突然用不了了。

云模型依赖大厂，说关就关；本地模型部署贵、跑得慢，答案质量还飘忽。这是过去一年很多开发者的真实困境。直到Google Gemma 4系列发布，情况开始变化。

一位叫FrowningMonk的开发者原本已对本地模型死心。他用非旗舰机荣耀200测试Gemma 4，通过Google AI Edge Gallery运行，推理速度却出乎意料。这让他重新思考：有没有可能把AI真正装进兜里，随时可用、完全可控？

于是他做了Sanctum Machina——"机器的圣所"。

这个名字带着点科幻气质，功能却很实在。它让Gemma 4的E2B或E4B模型常驻手机，不需要网络就能工作。相比Google AI Edge Gallery的测试属性——无历史记录、每次对话像无痕浏览、展示功能过重——Sanctum Machina把它改成了日常可用的工具。

本地模型有个老毛病：冷启动慢。每次加载模型进内存都要等。Sanctum Machina的解法是在App启动时后台预热，一次搞定。之后开多少对话都不用再等。

安全设计也做了限制。模型只能从硬编码的允许列表下载，下载前App会先检查设备能不能跑。完全断网运行，模型和数据都不外流。

技术栈上，Sanctum Machina通过LiteRT-LM运行Gemma 4 E2B和E4B。这两个版本是目前唯一能在中端Android机上流畅运行的Gemma 4型号。多模态输入——文本、图像、短音频——开箱即用，这在同尺寸端侧模型里不多见。

系统提示词的全权控制是另一个亮点。小模型对提示工程极其敏感，同样的模型，换一套系统提示，输出质量可能天差地别。开发者特意强调："试试就知道，系统提示能做的事会让你惊讶。"

下一步规划已经明确。一是探索工具调用和Agent模式，基于FunctionGemma 270M（litert-community的Mobile Actions微调版本）。技术层面基本打通，难点在于找到手机上真正值得用的场景。二是跟进刚发布的Multi-Token Prediction（MTP）草稿模型，E2B和E4B都有对应版本。零质量损失、3倍加速，这正是端侧推理需要的边际改进。

项目开源在GitHub，名字叫Sanctum Machina。开发者的说法很直白：哪怕世界崩塌，机器之灵也会在圣所里继续运转。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.