网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

英伟达新研究：小模型才是智能体的未来

2025-08-19 08:14:00　来源: 量子位

北京举报

0

分享至

henry 发自凹非寺
量子位 | 公众号 QbitAI

大模型OUT，小模型才是智能体的未来！

这可不是标题党，而是英伟达最新论文观点：

在Agent任务中，大语言模型经常处理重复、专业化的子任务，这让它们消耗大量计算资源，且成本高、效率低、灵活性差。

相比之下，小语言模型则能在性能够用的前提下，让Agent任务的执行变得更加经济灵活

网友的实测也印证了英伟达的观点：当6.7B的Toolformer学会调用API后，其性能超越了175B的GPT-3。

7B参数的DeepSeek-R1-Distill推理表现也已胜过Claude3.5和GPT-4o。

那么，小模型是如何“四两拨千斤”，放倒大模型的？

针对硬件与任务的优化

总的来说，小模型通过优化硬件资源Agent任务设计两个方面来更高效地执行Agent任务。

首先是针对GPU资源和调度的优化

由于小模型“体积”小巧的独特优势，它们可以在GPU上高效共享资源，其可在并行运行多个工作负载的同时保持性能隔离。

相应的，小巧的体积还带来了更低的显存占用，从而使得超分配机制得以可能，进一步提升并发能力。

此外，GPU资源还能根据运行需求灵活划分，实现异构负载的弹性调度和整体资源优化。

而在GPU调度中，通过优先调度小模型的低延迟请求，同时预留部分资源应对偶发的大模型调用，就能实现更优的整体吞吐与成本控制

其次是针对特定任务的模型部署

在传统的Agent任务场景中，Agent依赖大模型完成工具调用、任务拆解、流程控制和推理规划等操作。

然而就像网友提到的，Agent任务往往是重复性的、可预测的、范围明确的。譬如，帮我“总结这份文档，提取这份信息，编写这份模板，调用这个工具”，这些最大公约数需求最常被拉起。

因此，在大部分需求中，往往不需要一个单一的大模型来执行简单重复的任务，而是需要为每个子任务选择合适的工具。

基于此，英伟达指出，与其让花费高企的通用大模型处理这些常见的任务，不如让一个个经过专业微调的小模型执行每个子任务。

这样一来，不仅可以避免Agent任务中，大模型“高射炮打蚊子”带来的资源浪费，还可以有效地降低推理成本。

举例来说，运行一个70亿参数的小模型做推理，要比用700–1750亿参数的大模型便宜10–30倍

同时，由于小模型计算资源占用低，因而也更适合在本地或边缘部署，而大模型则更多地依赖大量GPU的并行计算，依赖中心化的云计算供应商，需要花费更多地计算成本。

此外，大模型还有“大船掉头难”的毛病，不仅预训练和微调成本远高于小模型，难以快速适配新需求或新规则，而且还无法充分利用海量参数（一次推理只激活少量参数）。

与之相对，小模型则可以在较小数据量和资源条件下完成高效微调，迭代更快，同时还能凭借更合理的模型结构和定制设计，带来更高的参数利用率

不过，也有一些研究者提出了反对的声音。

例如，就有研究者认为大模型因其规模庞大而具有更好的通用理解能力，即使在专业的任务中也表现更佳。

针对这一疑问，英伟达表示，这种观点忽略了小模型的灵活性，小模型可以通过轻松的微调来达到所需的可靠性水平。

同时，先进的Agent系统会将复杂问题分解为简单的子任务，这使得大模型的通用抽象理解能力变得不那么重要。

此外，还有研究者对小模型相对大模型的经济性提出了质疑：

小模型虽然单次推理成本低，但当考虑大规模部署时，规模经济（大量使用大模型分摊成本）可能比小模型的节省更重要。

对此，英伟达表示了部分地认同，但同时也指出：

随着推理调度优化和大型推理系统模块化的发展，单体计算集群的灵活性大幅提升，同时基础设施搭建成本因技术进步持续下降。

最后，也是争议的核心——虽然小模型部署门槛正在下降，但大模型已经占先，行业惯性让创新仍集中在大模型，转型未必会真的降本增效。

这就引出了小模型在实际落地中要面临的挑战。

从大模型到小模型

英伟达表示，小模型虽然以其高效、经济的特点在特定任务中表现出了不错的潜力，但仍然需面临以下挑战：

基础设施适配：当前大部分GPU架构是为大模型优化设计，尚不完全适配多模型并发的微服务架构。
市场认知度低：小模型缺乏像大模型那样的品牌和话题热度，推广和教育成本较高。
评估标准缺失：通用基准测试往往无法全面衡量小模型在任务中的实际表现。

由此看来，一种折衷的手段就变得未尝不可：

结合不同规模和能力的多种语言模型，与查询复杂度级别相匹配，为小模型的采用提供自然的集成路径。

为此，英伟达给出了将大模型转换为小模型的方法：

首先，通过数据采集记录当前大模型的运行数据、资源占用和请求特征，然后对数据进行脱敏处理，只保留使用模式。

接着，根据请求类型和任务结构对工作负载进行聚类，识别常见子任务。

随后，选择合适的小模型，并匹配相应的GPU分配策略。在定制数据上完成模型微调后，将其部署上线服务。

最后，构建持续反馈闭环机制，不断优化模型性能和资源利用率，实现迭代提升。

小模型vs大模型

围绕英伟达的这篇论文，网友们针对“小模型才是 Agentic AI的未来”这一观点展开了讨论。

例如，就有网友分享了自己在Amazon处理产品退款的心得，他认为在这种简单的任务中，使用小模型比使用大型语言模型更具成本效益。

就像论文里指出的，大模型在处理简单任务时，其强大的通用性往往会被浪费，因此，使用小模型更为合适。

不过，也有网友提出了反对意见。

比如，小模型因其专业性在面对偏离预设流程的情况时，可能不够鲁棒。同时，为了应对这些corner case，设计者还需要预先考虑更多的变数，而大模型在应对复杂情况时可能更具适应性。

说起来，小模型就像Unix“一个程序只做好一件事”（Do One Thing and Do It Well）的设计哲学，把复杂系统（大模型）拆成小、专一、可组合的模块（小模型），每个模块做好一件事，然后让它们协同完成更大任务。

但与此同时，系统也需要在功能多样性和操作复杂度之间作出取舍。

一方面，小模型越多，那么理论上其可以完成的任务就越丰富（功能多样性高）。

另一方面，功能越多，用户和系统操作的复杂度也会随之增加，容易导致难以理解、难以维护或错误频发，到头来可能还不如一个通用的大模型方便。

到底是“少而精”的小模型更靠谱，还是“大而全”的大模型更稳？你怎么看？

[1]https://x.com/ihteshamit/status/1957089843382829262
[2]https://cobusgreyling.medium.com/nvidia-says-small-language-models-are-the-future-of-Agentic-ai-f1f7289d9565
[3]https://www.theriseunion.com/en/blog/Small-LLMs-are-future-of-AgenticAI.html
[4]https://arxiv.org/abs/2506.02153

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

英伟达23人梦之队，让AI用7天干翻了自己的GPU专家

钛媒体APP 2026-03-26 17:44:44
0 跟贴 0
30B参数超越GPT-5！REDSearcher让深度搜索Agent做到低成本可扩展

机器之心Pro 2026-03-09 13:28:51
0 跟贴 0

全球顶尖大模型一夜惨遭血洗！最难测试人类拿满分，AI第一名得0.2%分

新智元 2026-03-26 18:14:12
4 跟贴 4

Sakana AI造了个数字生命「培养皿」，AI学会打架、结盟、抢地盘

机器之心Pro 2025-11-05 13:58:14
0 跟贴 0
DeepSeek急招Agent方向！一口气放17个岗位，重度Vibe Coding优先

量子位 2026-03-25 14:39:45
5 跟贴 5

Agent运行提速10倍！斯坦福教授押注异构推理，破解AI推理瓶颈

DeepTech深科技 2026-03-25 19:52:15
0 跟贴 0

ApdativeNN：建模类人自适应感知机制，突破机器视觉不可能三角

机器之心Pro 2025-11-28 17:15:19
0 跟贴 0
AI Agent狂潮中的金融新范式：AI涨乐养了一只“金融小龙虾”，正破解投资最难一公里

钛媒体APP 2026-03-25 17:03:07
3 跟贴 3

让生物学家摆脱数据分析之苦，斯坦福团队发布首个开源自进化生物分析AI智能体，实现自动化基因组学发现

生物世界 2026-03-26 16:36:06
0 跟贴 0
MiniMax来承包你的桌面了-4

机器之心Pro 2026-01-20 20:19:42
0 跟贴 0
大模型的下半场，属于拥有云+AI全栈引擎的玩家

量子位 2026-01-30 03:29:45
0 跟贴 0
美国养老护工荒的AI处方：三个AI Agent与一场养老效率革命

钛媒体APP 2026-03-25 09:50:14
0 跟贴 0
Harness发威！Claude被榨干的秘诀公开了

智东西 2026-03-26 20:57:04
0 跟贴 0
30位大佬闭门争论2小时：工业AI如何落地

虎嗅APP 2026-03-26 17:43:08
0 跟贴 0
52天75次发布，A司这场“产品大爆炸”太猛烈了

钛媒体APP 2026-03-26 19:50:22
0 跟贴 0
浙大博士造出「机器人界的F1」：不卷脑子卷身体，要比博尔特跑得快

36氪 2026-03-26 22:37:08
0 跟贴 0
机器人着力展示“打工”技能灵巧手厂商关注度提升｜2026中关村论坛年会观察

每日经济新闻 2026-03-26 22:16:09
0 跟贴 0
战争!大佬建议搞垮英伟达DLSS5:玩家开发者团结起来

游民星空 2026-03-26 18:12:11
1 跟贴 1
黄仁勋全世界穿皮衣，唯独在中国换上了大花袄

雷科技 2026-01-27 17:19:30
17 跟贴 17
81倍市盈率的ARM豪赌AI芯片：华尔街已将"完美执行"定价入内，容错空间几乎为零

华尔街见闻官方 2026-03-26 21:11:29
0 跟贴 0
纽约时报：许多美国官员从未去过中国应该去中国看看

环球网资讯 2026-03-26 00:05:09
1958 跟贴 1958
超新星爆发揭示恒星坍缩奥秘，从量子波动到引力波的探索

老友地理 2026-03-24 16:41:31
1 跟贴 1
英伟达CEO黄仁勋：我自己也不喜欢“AI垃圾”

IT之家 2026-03-26 19:52:32
1 跟贴 1
国产版Ollama来了，Clawdbot终于不只属于Mac和英伟达-5

机器之心Pro 2026-02-03 14:47:06
0 跟贴 0
龙虾硬件能让电池更健康，支持智能充电器

爱范儿 2026-03-10 04:18:42
0 跟贴 0
黄仁勋3分钟硬核方法论：用物理极限做工程决策

不一定有用的频道 2026-03-26 10:38:51
1 跟贴 1
千万粉丝大V，微博账号被禁止关注

第一财经资讯 2026-03-26 12:19:47
1112 跟贴 1112
清华团队：1.5B 模型新基线！用「最笨」的 RL 配方达到顶尖性能

机器之心Pro 2025-11-13 14:56:23
1 跟贴 1
高阶智驾，被零跑打到了 8 万级别

极客公园 2026-03-26 21:37:21
0 跟贴 0
App删除安卓用户照片美团派专员一对一恢复数据

经济观察报 2026-03-26 11:20:24
90 跟贴 90
参数不撒谎，实力会说话！新阿维塔12凭什么降维打击

嘻哈车 2026-03-24 10:06:10
1 跟贴 1
于东来：30岁开始吃药，CT拍了上百次，身体出什么问题都不足为奇，哪天说没就没了

每日经济新闻 2026-03-25 23:58:31
726 跟贴 726
“根本不敢上路”！深圳男子买全新百万豪车，修了15次还是坏的！很多车主受害

南方都市报 2026-03-26 09:26:45
56 跟贴 56
紫光股份：公司具备支撑超大规模智算中心建设与大模型产业化落地的综合能力

每日经济新闻 2026-03-26 17:49:49
0 跟贴 0
卡普空新作遇严重崩溃问题！官方通报紧急调查中

游民星空 2026-03-26 17:09:30
1 跟贴 1
中原消费金融为催收“买”借款人手机号码三大运营商均中标或涉买卖个人信息惹争议

信网 2026-03-26 19:12:37
2 跟贴 2
“龙虾”等新型AI智能体出现哪些职业或软技能是必须具备的？

凤凰卫视 2026-03-25 15:59:19
0 跟贴 0
谷歌冲破内存墙！新算法内存占用暴砍83%，速度提升8倍！

智东西 2026-03-26 22:11:09
0 跟贴 0
五年级数学中点模型求阴影部分面积

天天数理学习分享 2026-03-22 13:47:40
4 跟贴 4
10元/斤，最近这一口“鲜货”正肥！杭州一摊主：一天上百斤不够卖

环球网资讯 2026-03-25 13:22:33
432 跟贴 432

51岁男子突发心梗猝死！不想得心梗，牢记晚饭4不吃，睡前4不要！

51岁男子突发心梗猝死！不想得心梗，牢记晚饭4不吃，睡前4不要！

健康之光

2026-03-20 17:05:06

香港这批终身不婚不育的女星已经老了，她们晚年真的孤独凄惨吗？

香港这批终身不婚不育的女星已经老了，她们晚年真的孤独凄惨吗？

八卦宝宝

2026-03-17 11:08:51

网友莫斯科遇见58岁伊能静与47岁秦昊，女方脸型紧致比男方还年轻

网友莫斯科遇见58岁伊能静与47岁秦昊，女方脸型紧致比男方还年轻

明星私服穿搭daily

2026-03-21 14:25:06

水果骗局大揭秘！这些水果其实全是假的，买了你就上当了！

水果骗局大揭秘！这些水果其实全是假的，买了你就上当了！

时评人李文君

2026-03-25 19:32:21

重返广东！李春江有了新工作，亮相篮球场，岗位曝光，杜锋期待

重返广东！李春江有了新工作，亮相篮球场，岗位曝光，杜锋期待

萌兰聊个球

2026-03-26 13:02:53

大势已去，53%反对票创纪录，梅洛尼公投惨败，意大利政坛要变

大势已去，53%反对票创纪录，梅洛尼公投惨败，意大利政坛要变

时尚的弄潮

2026-03-26 18:02:15

发生了什么？鲁尼儿子凯夺冠后发社媒：将缺阵本赛季剩余比赛

发生了什么？鲁尼儿子凯夺冠后发社媒：将缺阵本赛季剩余比赛

懂球帝

2026-03-26 21:17:50

全球首次！俄军10倍音速锆石高超音速导弹发射车：最后一刻被摧毁

全球首次！俄军10倍音速锆石高超音速导弹发射车：最后一刻被摧毁

Ck的蜜糖

2026-03-26 12:30:25

2026 期刊分区大变天！中科院分区正式退场，一区毕业神刊被标注审查，新兴国产期刊强势崛起

2026 期刊分区大变天！中科院分区正式退场，一区毕业神刊被标注审查，新兴国产期刊强势崛起

生物学霸

2026-03-26 17:13:44

痛别张雪峰！峰学蔚来接班人确定，事业将继续

痛别张雪峰！峰学蔚来接班人确定，事业将继续

大熊欢乐坊

2026-03-26 19:17:05

油价调整：注意，预计下调120元/吨，油价突破下调红线！

油价调整：注意，预计下调120元/吨，油价突破下调红线！

金投网

2026-03-26 11:16:05

唱衰国安新援！揭经纪公司勾结媒体人黑幕：85万引援动了谁的奶酪

唱衰国安新援！揭经纪公司勾结媒体人黑幕：85万引援动了谁的奶酪

体坛鉴春秋

2026-03-26 18:17:46

多个省级党委组织部部长调整

上观新闻

2026-03-26 12:48:05

俄罗斯宣传三天攻占爱沙尼亚！炮制公投，又是特别军事行动？

俄罗斯宣传三天攻占爱沙尼亚！炮制公投，又是特别军事行动？

项鹏飞

2026-03-24 20:28:43

因祸得福！烧129年的地下火被灭，新疆凭空多了个金饭碗

因祸得福！烧129年的地下火被灭，新疆凭空多了个金饭碗

混沌录

2026-03-24 23:03:10

大众中国回应斯柯达退出中国市场

大众中国回应斯柯达退出中国市场

澎湃新闻

2026-03-26 17:33:03

朝鲜权力格局再洗牌！金正恩连任背后

朝鲜权力格局再洗牌！金正恩连任背后

新浪财经

2026-03-26 00:04:55

意大利附加赛半决赛名单：斯卡马卡、坎比亚索、坎比亚吉缺席

意大利附加赛半决赛名单：斯卡马卡、坎比亚索、坎比亚吉缺席

懂球帝

2026-03-26 19:42:06

出狱后的雷政富沧桑感袭面而来，前后对比引人唏嘘

出狱后的雷政富沧桑感袭面而来，前后对比引人唏嘘

霹雳炮

2026-03-14 22:49:47

法拉利发布F1日本大奖赛海报，画风帅气但“铃鹿”拼错了

法拉利发布F1日本大奖赛海报，画风帅气但“铃鹿”拼错了

懂球帝

2026-03-26 16:09:08

追踪人工智能动态

12348文章数 176425关注度

往期回顾全部

科技要闻

美团发布外卖大战后成绩单：亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了，然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声！称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普？一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

旅游

家居

教育

艺术

手机

旅游要闻

探访资中文旅新地标邂逅千年古城的诗与远方

家居要闻

傍海而居静观蝴蝶海

教育要闻

骂人没有杀伤力？那不是白忙活吗？

艺术要闻

哪一座桥不是风景？

手机要闻

OPPO K15 Pro 系列定档，岚影呼吸灯搭配金属中框

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版