小模型才是 Agent 的未来？这篇立场文把话挑明了|调用|路由|agent

小模型才是 Agent 的未来？这篇立场文把话挑明了

2025-08-18 15:47:47　来源: AI寒武纪

江苏举报

分享至

AI圈最近什么最火？答案里一定有AI Agent

从能帮你预订机票、规划旅行的私人助理，到能自动编写、调试代码的程序员搭档，AI智能体的浪潮正汹涌而来。目前，构建这些智能体的主流方式，几乎都是把一个超大规模的语言模型（LLM），比如GPT-4，作为智能体的大脑。我们似乎都默认了一个逻辑：大脑越强，智能体就越聪明。

但是，凡事都非得大力出奇迹吗？我们真的需要用一个核反应堆来给我们手机充电吗？

最近，来自英伟达和佐治亚理工学院的研究人员发表了一篇论文《小型语言模型是智能体AI的未来》（Small Language Models are the Future of Agentic AI）。他们大胆断言：当前以LLM为中心的智能体构建方式，不仅成本高昂、效率低下，而且可能根本不是未来的方向

一句话结论：在大多数实际的 Agent 场景里，小语言模型（SLM）已经足够强、更好管、更省钱。真正需要“谈笑风生、上天入地”时，再把LLM当备用核反应堆拉出来用——默认用小、必要时用大，才是更健康的工程范式

我先把概念说清楚

SLM（小语言模型）：能在常见消费级设备上本地推理，并且延迟对单用户来说是可接受的。作者给出刻度是：<10B 参数基本可算小。（对应的，LLM就是不满足这些条件的一类）

Agent/Agentic System：带一点自主性的系统，会调用工具、读写上下文、分解任务，语言模型是它的中枢大脑。

这就埋下一个关键伏笔：Agent 里语言模型承担的工作，大多是窄而重复的子任务，不是开放域长谈

论文的核心观点（翻译成人话）

1.V1：能力足够

新一代 SLM 的真实能力，已经能覆盖相当多 Agent 子模块的需求

2. V2：工程更合拍

Agent 需要的是可控、稳定、格式对齐的小脑袋，而不是永远把全才往上塞

3. V3：经济性碾压

在大多数调用场景里，小模型的延迟/能耗/FLOPs都占优，整体成本占比更低

一句话：SLM-first、LLM-as-needed，是工程团队应当默认的系统设定

为何说能力足够？看几组代表性信号

作者并不是泛泛而谈，而是给了一串小而强的样本（我挑重点翻译）：

Phi 系列：Phi-2（2.7B）在常识推理和代码生成上能追平 30B 级别，同时推理快一个量级；Phi-3 Small（7B）把理解/常识/代码进一步推到 70B 同代的水准

Nemotron-H（2/4.8/9B）：混合结构（Mamba+Transformer），在指令跟随/代码生成上对齐 30B 密集模型，推理算力只要十分之一左右

SmolLM2（125M–1.7B）：在语言理解、工具调用、指令跟随上逼近 14B；对比两年前的 70B，已平替

Hymba-1.5B：指令跟随超 13B，吞吐高 3.5×

DeepSeek-R1-Distill（1.5–8B）：蒸馏后的小模型在常识/推理上非常能打

RETRO-7.5B：检索增强后 7.5B 直怼 GPT-3（175B）量级的语言建模能力

xLAM-2-8B：工具调用专项性能抢眼，甚至压过一些前沿闭源模型

更有意思的是：推理时增强（test-time compute）、自一致、Verifier 反馈、工具增强等拼装术，在小模型上更划算。换句话说，参数规模 ≠ 能力上限，尤其当你允许在推理时多跑几步/多投几票时

为什么说工程更合拍？

1）Agent 本质只暴露了语言模型的窄切片

绝大多数模块都在反复做有限模板化的工作：解析意图、抽取字段、调用函数（严格 JSON）、生成特定格式的结果

这类活儿最怕有时灵光、有时走神。SLM 更容易做成只会这一招、但永远不走样的专家，把格式、风格、约束写进后训练/微调，稳定性就上来了

2）Agent 天然多模型异构

复杂对话/HCI 层：可以用 LLM

工具调用/控制流/结构化生成层：用若干专科 SLM

模型本身也可作为彼此的工具，路由与分工变成一等公民

这和现代工程微服务化直觉契合

3）数据闭环白送

Agent 的每一次工具/模型调用，本来就有指令模板和效果标签。加个安全合规的埋点 Logger，自然长出高质量专科数据，你就能持续把 LLM 的接口蒸馏/迁移成更便宜的 SLM

为什么说更省钱？

单次推理成本：7B 相比 70–175B，延迟/能耗/FLOPs 常见 10–30× 优势；并且不需要跨卡/跨机并行，运维复杂度和漏损都下降

微调敏捷：LoRA/QLoRA 几个 GPU 小时就能迭代一个专家 SLM，今晚修 bug，明早发版

边缘/本地部署：实时、离线、数据不出域

乐高式系统设计：横向扩技能（多加几个小专家），比纵向堆参数更易调、更可控、更容易做 A/B 与回滚

常见质疑与回应

质疑 1：大模型的整体语言理解永远更好，为什么不用？

回应：

经典Scaling Law多数假设同构架构随规模放大，而新一代 SLM 大量引入结构创新（混合状态空间、注意力变体等），不在同一个曲线上

微调/蒸馏 + 推理时增加计算，在 SLM 上性价比更好

Agent 会主动分解任务，把复杂问题切成小步，所谓语义枢纽的潜在优势在简化子任务里体现不出来

质疑 2：LLM 集中化服务更容易摊薄成本，实际更便宜？

回应：

负载均衡/排队系统正在快速进化，SLM 高吞吐低延迟的调度越做越顺手

基础设施与人才成本确实要算，但行业数据在显示一个持续下行趋势

场景相关是关键：高并发、重对话的前台接口用 LLM 合理，但后排那堆结构化子任务很少需要

质疑 3：行业惯性太大，来不及换

回应：承认惯性。但只要你从一个高频、可度量、可回滚的接口开始做 PoC，收益（成本/延迟/稳定性）常常能用脚投票

从 LLM 迁到 SLM：一份可抄作业的转型清单

论文把迁移过程写成了一个六步算法，我把它翻成工程 checklist：

1. 安全埋点 ：记录所有非 HCI的模型/工具调用（输入、输出、参数、延迟）。注意加密、RBAC、脱敏
2. 数据清洗 ：去除 PII/PHI/敏感内容；必要时自动释义/匿名化领域数据，避免跨租户泄露风险
3. 任务聚类 ：对调用与动作做无监督聚类，找出重复性高的候选子任务（意图识别、结构化抽取、某类文档摘要、特定工具的函数调用、代码片段生成等）
4. 模型选型 ：为每个子任务挑 1–2 个候选 SLM（看指令跟随、推理能力、上下文长度、许可协议、显存/算力足迹）
5. 专科微调 ：用步骤 2/3 得到的任务数据，跑 PEFT（LoRA/QLoRA）或全参微调；必要时做蒸馏（让 SLM 学 LLM 的输出分布和边界）
6. 迭代路由 ：把 SLM 接到生产路由中，和 LLM 做灰度/AB；持续采样新数据、定期再训练 SLM 与路由策略

小建议：先挑格式严格 + 失败可回滚 + 量大稳定的接口做 PoC（比如表单抽取、工具 JSON 调用）。一旦跑通一两个点，剩下都是复制粘贴

你可能踩到的坑（以及怎么绕）

B1：基础设施惯性——团队/供应商的算力与计费都押在 LLM 上

对策：从边缘/本地与微服务后排开刀，做非侵入式替换

B2：训练/评测只盯通用基准——与 Agent 真实效用脱节

对策：引入任务内指标（工具调用成功率、结构化字段符合率、端到端成功/时延/成本）

B3：认知与宣传偏差——SLM 的市场声量更小

对策：用可视化仪表盘把"钱、省了多少；错，少了多少；快，快了多少”摆给老板看

参考系统形态（一个可落地的“三层”）

1.HCI/对话层：LLM 负责开放式对话与复杂规划（可选）

2. 执行器层：若干 SLM 专家（抽取、路由、工具 JSON、代码片段、模板化写作）
3. 工具层：数据库/搜索/API/函数执行/向量检索

配套度量与回归：覆盖正确率、延迟、P50/P95、成本、故障注入回放

写给老板的 3 条摘要

不是砍掉大模型，而是把大模型放在该用的地方；其它 70%–90% 的窄任务，交给 SLM

钱和可靠性会说话：你会看到显著的成本下降和更稳的格式输出

越早埋点、越快闭环，你的SLM 专科军团就越快长出来

以上，谢谢你看我的文章。觉得还不错的话，点个赞/在看/转发就更好了～想第一时间收到更新，记得给我加个⭐星标。～我们，下次再见

.../作者：花不玩

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.