26M参数的"针尖"：把Gemini工具调用能力塞进手机能跑的模型|路由|开源模型|gemini

26M参数的"针尖"：把Gemini工具调用能力塞进手机能跑的模型

2026-05-14 08:51:05　来源: 薛定谔的BUG

北京举报

分享至

周三下午，Hacker News上一篇"Show HN"帖子突然爆火。一个团队宣布：他们把Google Gemini最实用的能力——工具调用（tool calling）——蒸馏进了一个只有2600万参数的模型里。这个叫Needle的小东西，小到能在树莓派上跑，准确率却接近它那个庞大的"老师"。

2600万参数是什么概念？GPT-4级别的模型大概2600亿参数，Phi-3 Mini也有38亿。Needle比它们小了1000倍，甚至比手机NPU轻松驾驭的1-5亿参数模型还要迷你一个数量级。用开发者的话说，这尺寸"在2026年标准下简直可笑"——但正是这种可笑，让它变得有趣。

工具调用是AI Agent的骨架。模型得识别用户什么时候需要外部动作，从一堆工具里挑出对的那个，把参数填对，输出结构化结果去触发真实世界的操作。查天气、订机票、调API——没这能力，大模型就是个话痨。问题是，这功能历来是"大模型专属"，小模型根本玩不转。

Needle的突破在于知识蒸馏：让大模型Gemini当老师，小模型当学生，专门学"工具路由"这一件事。结果是在工具调用任务上，Needle做到了与教师模型接近的准确率，推理成本却断崖式下跌。这对边缘部署、低延迟API、成本敏感的生产环境意味着太多可能。

但别误会，这不是银弹。Needle是专才，不是通才——复杂推理它干不了，通用LLM的位置它抢不动。真正值得关注的或许是这套蒸馏方法论本身：它证明了特定能力可以被精准剥离、压缩、复现。下一个被"针尖化"的，会是什么？

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

汽车要闻

手机 / 数码

房产 / 家居

26M参数的"针尖"：把Gemini工具调用能力塞进手机能跑的模型

马斯克说会谈很顺利 黄仁勋点赞 库克比耶

马斯克幼子装扮“火”了 衣服包包都是中国造

马斯克幼子装扮“火”了 衣服包包都是中国造

争议抽象天王山，和季后赛最稳定中锋

何九华官宣当爸！全程不提孩子妈

李强会见美国工商界代表

双零重力座椅/AI智能体/调光天幕 启境GT7内饰发布

态度原创

海南楼市新政要出！拟调公积金贷款额度，最高可贷168万！

专家揭秘干细胞回输的安全风险

花园里，花丛中

精神奢享 对话塔尖需求

马斯克说会谈很顺利黄仁勋点赞库克比耶

马斯克幼子装扮“火”了衣服包包都是中国造

马斯克幼子装扮“火”了衣服包包都是中国造

双零重力座椅/AI智能体/调光天幕启境GT7内饰发布

精神奢享对话塔尖需求