网易首页 > 网易号 > 正文 申请入驻

小模型才是 Agent 的未来?这篇立场文把话挑明了

0
分享至


AI圈最近什么最火?答案里一定有AI Agent

从能帮你预订机票、规划旅行的私人助理,到能自动编写、调试代码的程序员搭档,AI智能体的浪潮正汹涌而来。目前,构建这些智能体的主流方式,几乎都是把一个超大规模的语言模型(LLM),比如GPT-4,作为智能体的大脑。我们似乎都默认了一个逻辑:大脑越强,智能体就越聪明。

但是,凡事都非得大力出奇迹吗?我们真的需要用一个核反应堆来给我们手机充电吗?

最近,来自英伟达和佐治亚理工学院的研究人员发表了一篇论文《小型语言模型是智能体AI的未来》(Small Language Models are the Future of Agentic AI)。他们大胆断言:当前以LLM为中心的智能体构建方式,不仅成本高昂、效率低下,而且可能根本不是未来的方向


一句话结论:在大多数实际的 Agent 场景里,小语言模型(SLM)已经足够强、更好管、更省钱。真正需要“谈笑风生、上天入地”时,再把LLM当备用核反应堆拉出来用——默认用小、必要时用大,才是更健康的工程范式

我先把概念说清楚

SLM(小语言模型):能在常见消费级设备上本地推理,并且延迟对单用户来说是可接受的。作者给出刻度是:<10B 参数基本可算小。(对应的,LLM就是不满足这些条件的一类)

Agent/Agentic System:带一点自主性的系统,会调用工具、读写上下文、分解任务,语言模型是它的中枢大脑。

这就埋下一个关键伏笔:Agent 里语言模型承担的工作,大多是窄而重复的子任务,不是开放域长谈

论文的核心观点(翻译成人话)

1.V1:能力足够

新一代 SLM 的真实能力,已经能覆盖相当多 Agent 子模块的需求

  1. 2. V2:工程更合拍

Agent 需要的是可控、稳定、格式对齐的小脑袋,而不是永远把全才往上塞

  1. 3. V3:经济性碾压

在大多数调用场景里,小模型的延迟/能耗/FLOPs都占优,整体成本占比更低

一句话:SLM-first、LLM-as-needed,是工程团队应当默认的系统设定

为何说能力足够?看几组代表性信号

作者并不是泛泛而谈,而是给了一串小而强的样本(我挑重点翻译):

Phi 系列:Phi-2(2.7B)在常识推理和代码生成上能追平 30B 级别,同时推理快一个量级;Phi-3 Small(7B)把理解/常识/代码进一步推到 70B 同代的水准

Nemotron-H(2/4.8/9B):混合结构(Mamba+Transformer),在指令跟随/代码生成上对齐 30B 密集模型,推理算力只要十分之一左右

SmolLM2(125M–1.7B):在语言理解、工具调用、指令跟随上逼近 14B;对比两年前的 70B,已平替

Hymba-1.5B:指令跟随超 13B,吞吐高 3.5×

DeepSeek-R1-Distill(1.5–8B):蒸馏后的小模型在常识/推理上非常能打

RETRO-7.5B:检索增强后 7.5B 直怼 GPT-3(175B)量级的语言建模能力

xLAM-2-8B:工具调用专项性能抢眼,甚至压过一些前沿闭源模型

更有意思的是:推理时增强(test-time compute)、自一致、Verifier 反馈、工具增强等拼装术,在小模型上更划算。换句话说,参数规模 ≠ 能力上限,尤其当你允许在推理时多跑几步/多投几票时

为什么说工程更合拍?

1)Agent 本质只暴露了语言模型的窄切片

绝大多数模块都在反复做有限模板化的工作:解析意图、抽取字段、调用函数(严格 JSON)、生成特定格式的结果

这类活儿最怕有时灵光、有时走神。SLM 更容易做成只会这一招、但永远不走样的专家,把格式、风格、约束写进后训练/微调,稳定性就上来了

2)Agent 天然多模型异构

复杂对话/HCI 层:可以用 LLM

工具调用/控制流/结构化生成层:用若干专科 SLM

模型本身也可作为彼此的工具,路由与分工变成一等公民

这和现代工程微服务化直觉契合

3)数据闭环白送

Agent 的每一次工具/模型调用,本来就有指令模板和效果标签。加个安全合规的埋点 Logger,自然长出高质量专科数据,你就能持续把 LLM 的接口蒸馏/迁移成更便宜的 SLM

为什么说更省钱?

单次推理成本:7B 相比 70–175B,延迟/能耗/FLOPs 常见 10–30× 优势;并且不需要跨卡/跨机并行,运维复杂度和漏损都下降

微调敏捷:LoRA/QLoRA 几个 GPU 小时就能迭代一个专家 SLM,今晚修 bug,明早发版

边缘/本地部署:实时、离线、数据不出域

乐高式系统设计:横向扩技能(多加几个小专家),比纵向堆参数更易调、更可控、更容易做 A/B 与回滚

常见质疑与回应

质疑 1:大模型的整体语言理解永远更好,为什么不用?

回应:

经典Scaling Law多数假设同构架构随规模放大,而新一代 SLM 大量引入结构创新(混合状态空间、注意力变体等),不在同一个曲线上

微调/蒸馏 + 推理时增加计算,在 SLM 上性价比更好

Agent 会主动分解任务,把复杂问题切成小步,所谓语义枢纽的潜在优势在简化子任务里体现不出来

质疑 2:LLM 集中化服务更容易摊薄成本,实际更便宜?

回应:

负载均衡/排队系统正在快速进化,SLM 高吞吐低延迟的调度越做越顺手

基础设施与人才成本确实要算,但行业数据在显示一个持续下行趋势

场景相关是关键:高并发、重对话的前台接口用 LLM 合理,但后排那堆结构化子任务很少需要

质疑 3:行业惯性太大,来不及换

回应:承认惯性。但只要你从一个高频、可度量、可回滚的接口开始做 PoC,收益(成本/延迟/稳定性)常常能用脚投票

从 LLM 迁到 SLM:一份可抄作业的转型清单

论文把迁移过程写成了一个六步算法,我把它翻成工程 checklist:

  1. 1. 安全埋点 :记录所有非 HCI的模型/工具调用(输入、输出、参数、延迟)。注意加密、RBAC、脱敏

  2. 2. 数据清洗 :去除 PII/PHI/敏感内容;必要时自动释义/匿名化领域数据,避免跨租户泄露风险

  3. 3. 任务聚类 :对调用与动作做无监督聚类,找出重复性高的候选子任务(意图识别、结构化抽取、某类文档摘要、特定工具的函数调用、代码片段生成等)

  4. 4. 模型选型 :为每个子任务挑 1–2 个候选 SLM(看指令跟随、推理能力、上下文长度、许可协议、显存/算力足迹)

  5. 5. 专科微调 :用步骤 2/3 得到的任务数据,跑 PEFT(LoRA/QLoRA)或全参微调;必要时做蒸馏(让 SLM 学 LLM 的输出分布和边界)

  6. 6. 迭代路由 :把 SLM 接到生产路由中,和 LLM 做灰度/AB;持续采样新数据、定期再训练 SLM 与路由策略

小建议:先挑 格式严格 + 失败可回滚 + 量大稳定 的接口做 PoC(比如表单抽取、工具 JSON 调用)。一旦跑通一两个点,剩下都是复制粘贴

你可能踩到的坑(以及怎么绕)

B1:基础设施惯性——团队/供应商的算力与计费都押在 LLM 上

对策:从边缘/本地与微服务后排开刀,做非侵入式替换

B2:训练/评测只盯通用基准——与 Agent 真实效用脱节

对策:引入任务内指标(工具调用成功率、结构化字段符合率、端到端成功/时延/成本)

B3:认知与宣传偏差——SLM 的市场声量更小

对策:用可视化仪表盘把"钱、省了多少;错,少了多少;快,快了多少”摆给老板看

参考系统形态(一个可落地的“三层”)

1.HCI/对话层:LLM 负责开放式对话与复杂规划(可选)

  1. 2. 执行器层:若干 SLM 专家(抽取、路由、工具 JSON、代码片段、模板化写作)

  2. 3. 工具层:数据库/搜索/API/函数执行/向量检索

配套度量与回归:覆盖正确率、延迟、P50/P95、成本、故障注入回放

写给老板的 3 条摘要

不是砍掉大模型,而是把大模型放在该用的地方;其它 70%–90% 的窄任务,交给 SLM

钱和可靠性会说话:你会看到显著的成本下降和更稳的格式输出

越早埋点、越快闭环,你的SLM 专科军团就越快长出来

以上,谢谢你看我的文章。觉得还不错的话,点个赞/在看/转发就更好了~想第一时间收到更新,记得给我加个⭐星标。~我们,下次再见

.../作者:花不玩

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
缅北明氏11口,节前全抄斩,大过年的,一家人最重要就是齐齐整整

缅北明氏11口,节前全抄斩,大过年的,一家人最重要就是齐齐整整

小虎新车推荐员
2026-02-01 05:45:13
谷爱凌爱上币圈诈骗犯孙宇晨?

谷爱凌爱上币圈诈骗犯孙宇晨?

爆角追踪
2026-02-01 17:28:46
高一女生被人造黄谣,妈妈24小时硬核维权:你的清白,无需自证

高一女生被人造黄谣,妈妈24小时硬核维权:你的清白,无需自证

右右细毛和爸妈
2026-01-31 21:17:02
2-2!哈兰德7轮1球,曼城痛失好局,热刺让二追二,阿森纳收大礼

2-2!哈兰德7轮1球,曼城痛失好局,热刺让二追二,阿森纳收大礼

我的护球最独特
2026-02-02 02:31:40
“极度抑郁,无颜面对所有同事员工”,深圳一公司年会取消!留几手发文

“极度抑郁,无颜面对所有同事员工”,深圳一公司年会取消!留几手发文

南方都市报
2026-02-01 12:50:46
夏朝如果存在,甲骨文为何只字不提?考古证明:商朝灭的不叫夏朝

夏朝如果存在,甲骨文为何只字不提?考古证明:商朝灭的不叫夏朝

铭记历史呀
2026-02-01 07:10:26
1斤瓜子贵过猪肉,新“刺客”来了

1斤瓜子贵过猪肉,新“刺客”来了

中国新闻周刊
2026-02-01 19:27:25
女子退货误寄6000元奔驰车钥匙,逼商家自证清白,网友吵翻了

女子退货误寄6000元奔驰车钥匙,逼商家自证清白,网友吵翻了

一盅情怀
2026-02-01 19:17:39
石达开之女押赴刑场,曾国藩瞥见袖中信物,急喝:赶快停手!

石达开之女押赴刑场,曾国藩瞥见袖中信物,急喝:赶快停手!

千秋文化
2026-02-01 20:14:28
国际黄金价格创下40年来最大单日跌幅 专家:对前期过热情绪的快速修正

国际黄金价格创下40年来最大单日跌幅 专家:对前期过热情绪的快速修正

证券时报
2026-02-02 07:31:07
深度 | 一边兵临城下,一边喊话谈判:特朗普到底想怎么搞伊朗?

深度 | 一边兵临城下,一边喊话谈判:特朗普到底想怎么搞伊朗?

上观新闻
2026-02-01 21:19:06
美智库:俄军伤亡竟然大幅下降!北约终于发现:为何打不赢俄罗斯

美智库:俄军伤亡竟然大幅下降!北约终于发现:为何打不赢俄罗斯

混沌录
2026-01-31 16:29:05
黄仁勋台北“夜宴”:汇聚近40位台企高管,还有1位陆企董事长!

黄仁勋台北“夜宴”:汇聚近40位台企高管,还有1位陆企董事长!

芯智讯
2026-01-31 22:45:50
汇川技术董事长朱兴明3小时深度反省:我们这两年最大的问题,不是战略,而是“人”

汇川技术董事长朱兴明3小时深度反省:我们这两年最大的问题,不是战略,而是“人”

36氪
2026-02-01 09:18:11
退市前暴涨192%,3万股民前赴后继,根本没人在意它已经重大违法

退市前暴涨192%,3万股民前赴后继,根本没人在意它已经重大违法

壹只灰鸽子
2026-01-30 16:49:41
善恶有报,移居英国仅2年,57岁吴秀波再迎噩耗,步入李易峰后尘

善恶有报,移居英国仅2年,57岁吴秀波再迎噩耗,步入李易峰后尘

有范又有料
2025-12-17 14:54:06
金价大跳水后,男子斥资20多万元抄底买入200克,称“不在意短期涨跌”,还有人称“肯定会回调”,工行、农行、交行公告

金价大跳水后,男子斥资20多万元抄底买入200克,称“不在意短期涨跌”,还有人称“肯定会回调”,工行、农行、交行公告

每日经济新闻
2026-02-01 10:38:04
浙江卫视炸了!7000万网红怒怼评委:你15年没歌凭啥说我?

浙江卫视炸了!7000万网红怒怼评委:你15年没歌凭啥说我?

不写散文诗
2026-01-30 12:16:42
2016年肯尼亚单方面撕毁与中企的合作合同,拒不赔付176亿违约金,还逼迫中方退还43亿

2016年肯尼亚单方面撕毁与中企的合作合同,拒不赔付176亿违约金,还逼迫中方退还43亿

史海孤雁
2026-02-01 17:32:24
以2.5吨白银建造的湖南“永兴银楼”被拍卖,其中1.75吨纯银折算1204.7万元,每克仅6.88元“白菜价”,委托方回应

以2.5吨白银建造的湖南“永兴银楼”被拍卖,其中1.75吨纯银折算1204.7万元,每克仅6.88元“白菜价”,委托方回应

极目新闻
2026-02-01 16:43:12
2026-02-02 08:52:49
AI寒武纪 incentive-icons
AI寒武纪
专注于人工智能,科技领域
1030文章数 396关注度
往期回顾 全部

科技要闻

10亿元宝红包突袭 复刻微信支付还是微视?

头条要闻

媒体:莫迪也上了爱泼斯坦文件 情节有点尴尬

头条要闻

媒体:莫迪也上了爱泼斯坦文件 情节有点尴尬

体育要闻

德约大度祝贺阿卡 幽默互动逗笑纳达尔

娱乐要闻

春晚第三次联排阵容曝光:全是实力派

财经要闻

国六货车被迫"换头" 每次收费超200元

汽车要闻

岚图汽车1月交付10515辆 同比增长31%

态度原创

教育
家居
本地
公开课
军事航空

教育要闻

现在看易中天大师的金句,感觉买德云社的门票太亏了(三)

家居要闻

蓝调空舍 自由与个性

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

委内瑞拉外长会见美外交使团团长

无障碍浏览 进入关怀版