2600万参数模型跑通手机端工具调用，Gemini蒸馏版Needle开源|谷歌|开源模型|知名企业|needle|gemini

2600万参数模型跑通手机端工具调用，Gemini蒸馏版Needle开源

2026-05-14 06:29:36　来源: 硬核玩家2哈

北京举报

分享至

AI模型在手机上本地运行已经不算新鲜事，但能让它真正"动手做事"——比如调用日历查行程、控制智能家居——通常还得依赖云端大模型。Cactus Compute最近放出的Needle，直接把这套能力压缩进了2600万参数的轻量模型里，而且明确说是从Gemini身上"学"来的。

这个数字值得多看一眼。2600万参数是什么概念？现在主流的手机端模型动辄几十亿参数，Needle直接砍掉了两个数量级。开发者Henry Ndubuaku的说法很直接：团队不满于"低价智能手机也能跑的AI代理"几乎没人做，调研后发现AI代理的核心其实是工具调用，而大模型在这件事上性能过剩。

具体速度方面，Needle的预填充处理达到每秒6000 token，解码处理每秒1200 token。训练过程用了16台TPU v6e跑27小时做预训练，后续用Gemini生成的工具调用数据集微调，只花了45分钟。这种"大模型造数据、小模型执行任务"的路线，正在成为边缘AI的标配打法。

不过这里有个微妙的法律灰色地带。Needle的发布页面公开写明是从Gemini-3.1-Flash-Lite蒸馏而来，但Google的Gemini API附加条款明确禁止从Gemini进行提取或蒸馏行为。Cactus Compute选择MIT License开源，代码和模型权重都上了Hugging Face，这种"先斩后奏"的发布策略在AI圈并不罕见——毕竟等合规厘清，窗口期可能早就过了。

Cactus Compute本身也在做消费端产品。他们开发的Cactus Chat是一款让Android和iPhone本地运行AI模型聊天的免费应用，Needle的出现显然是为这类场景补上了关键拼图：能聊天的模型不少，能真正调用手机功能完成任务的却不多。Ndubuaku的野心也很清楚——让千元机用户也能用上AI代理，而不是被排斥在技术红利之外。

工具调用（Function Calling）正在成为端侧AI的必争之地。今年IBM开源的Granite 4.1系列主打prompt遵循和工具调用，Google自家的Gemma 3n也强调手机本地运行，甚至连专门操作手机界面的MAI-UI都冒了出来。Needle的差异化在于极致的轻量化和明确的开源定位，2600万参数意味着它甚至能在比智能手机更弱的设备上运行——智能手表？车载系统？想象空间被打开了。

技术实现上，Needle采用了简化版注意力网络架构。团队公开的文档显示，他们在注意力机制上做了针对性裁剪，牺牲通用能力换取工具调用的专精。这种"偏科"设计在资源受限场景下往往是更务实的选择——与其让模型什么都会一点但什么都做不好，不如把单一能力做透。

对于开发者来说，Needle的 immediate 价值在于降低了构建手机端AI代理的门槛。不需要调用云端API，不需要处理网络延迟，更不需要为用户数据隐私问题头疼。一个能在本地完成日程查询、应用跳转、基础设备控制的模型，足以支撑大量实用场景。Cactus Compute已经在GitHub放出了完整文档和示例，Hugging Face上的模型权重下载量正在爬升。

这场"模型瘦身"运动的终局尚不清晰。Google会不会对蒸馏行为采取动作？Needle在复杂工具链上的实际表现能否经得起考验？低价智能手机的硬件碎片化会不会带来新的适配噩梦？但至少现在，一个2600万参数的模型已经证明：工具调用这件事，或许真的不需要千亿参数才能做好。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.