AI模型在手机上本地运行已经不算新鲜事,但能让它真正"动手做事"——比如调用日历查行程、控制智能家居——通常还得依赖云端大模型。Cactus Compute最近放出的Needle,直接把这套能力压缩进了2600万参数的轻量模型里,而且明确说是从Gemini身上"学"来的。
这个数字值得多看一眼。2600万参数是什么概念?现在主流的手机端模型动辄几十亿参数,Needle直接砍掉了两个数量级。开发者Henry Ndubuaku的说法很直接:团队不满于"低价智能手机也能跑的AI代理"几乎没人做,调研后发现AI代理的核心其实是工具调用,而大模型在这件事上性能过剩。
![]()
具体速度方面,Needle的预填充处理达到每秒6000 token,解码处理每秒1200 token。训练过程用了16台TPU v6e跑27小时做预训练,后续用Gemini生成的工具调用数据集微调,只花了45分钟。这种"大模型造数据、小模型执行任务"的路线,正在成为边缘AI的标配打法。
![]()
不过这里有个微妙的法律灰色地带。Needle的发布页面公开写明是从Gemini-3.1-Flash-Lite蒸馏而来,但Google的Gemini API附加条款明确禁止从Gemini进行提取或蒸馏行为。Cactus Compute选择MIT License开源,代码和模型权重都上了Hugging Face,这种"先斩后奏"的发布策略在AI圈并不罕见——毕竟等合规厘清,窗口期可能早就过了。
Cactus Compute本身也在做消费端产品。他们开发的Cactus Chat是一款让Android和iPhone本地运行AI模型聊天的免费应用,Needle的出现显然是为这类场景补上了关键拼图:能聊天的模型不少,能真正调用手机功能完成任务的却不多。Ndubuaku的野心也很清楚——让千元机用户也能用上AI代理,而不是被排斥在技术红利之外。
工具调用(Function Calling)正在成为端侧AI的必争之地。今年IBM开源的Granite 4.1系列主打prompt遵循和工具调用,Google自家的Gemma 3n也强调手机本地运行,甚至连专门操作手机界面的MAI-UI都冒了出来。Needle的差异化在于极致的轻量化和明确的开源定位,2600万参数意味着它甚至能在比智能手机更弱的设备上运行——智能手表?车载系统?想象空间被打开了。
![]()
技术实现上,Needle采用了简化版注意力网络架构。团队公开的文档显示,他们在注意力机制上做了针对性裁剪,牺牲通用能力换取工具调用的专精。这种"偏科"设计在资源受限场景下往往是更务实的选择——与其让模型什么都会一点但什么都做不好,不如把单一能力做透。
对于开发者来说,Needle的 immediate 价值在于降低了构建手机端AI代理的门槛。不需要调用云端API,不需要处理网络延迟,更不需要为用户数据隐私问题头疼。一个能在本地完成日程查询、应用跳转、基础设备控制的模型,足以支撑大量实用场景。Cactus Compute已经在GitHub放出了完整文档和示例,Hugging Face上的模型权重下载量正在爬升。
这场"模型瘦身"运动的终局尚不清晰。Google会不会对蒸馏行为采取动作?Needle在复杂工具链上的实际表现能否经得起考验?低价智能手机的硬件碎片化会不会带来新的适配噩梦?但至少现在,一个2600万参数的模型已经证明:工具调用这件事,或许真的不需要千亿参数才能做好。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.