2026年最可怕的事,可能是你习惯的那款AI突然用不了了。
云模型依赖大厂,说关就关;本地模型部署贵、跑得慢,答案质量还飘忽。这是过去一年很多开发者的真实困境。直到Google Gemma 4系列发布,情况开始变化。
![]()
一位叫FrowningMonk的开发者原本已对本地模型死心。他用非旗舰机荣耀200测试Gemma 4,通过Google AI Edge Gallery运行,推理速度却出乎意料。这让他重新思考:有没有可能把AI真正装进兜里,随时可用、完全可控?
于是他做了Sanctum Machina——"机器的圣所"。
这个名字带着点科幻气质,功能却很实在。它让Gemma 4的E2B或E4B模型常驻手机,不需要网络就能工作。相比Google AI Edge Gallery的测试属性——无历史记录、每次对话像无痕浏览、展示功能过重——Sanctum Machina把它改成了日常可用的工具。
本地模型有个老毛病:冷启动慢。每次加载模型进内存都要等。Sanctum Machina的解法是在App启动时后台预热,一次搞定。之后开多少对话都不用再等。
安全设计也做了限制。模型只能从硬编码的允许列表下载,下载前App会先检查设备能不能跑。完全断网运行,模型和数据都不外流。
技术栈上,Sanctum Machina通过LiteRT-LM运行Gemma 4 E2B和E4B。这两个版本是目前唯一能在中端Android机上流畅运行的Gemma 4型号。多模态输入——文本、图像、短音频——开箱即用,这在同尺寸端侧模型里不多见。
系统提示词的全权控制是另一个亮点。小模型对提示工程极其敏感,同样的模型,换一套系统提示,输出质量可能天差地别。开发者特意强调:"试试就知道,系统提示能做的事会让你惊讶。"
下一步规划已经明确。一是探索工具调用和Agent模式,基于FunctionGemma 270M(litert-community的Mobile Actions微调版本)。技术层面基本打通,难点在于找到手机上真正值得用的场景。二是跟进刚发布的Multi-Token Prediction(MTP)草稿模型,E2B和E4B都有对应版本。零质量损失、3倍加速,这正是端侧推理需要的边际改进。
项目开源在GitHub,名字叫Sanctum Machina。开发者的说法很直白:哪怕世界崩塌,机器之灵也会在圣所里继续运转。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.