网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

别让米其林主厨削土豆！英伟达用「小脑指挥大脑」，重构AGI生产力

2025-12-12 07:18:57　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：peter东

【新智元导读】觉得大模型消耗的算力过大，英伟达推出的8B模型Orchestrator化身「拼好模」，通过组合工具降本增效，使用30%的预算，在HLE上拿下37.1%的成绩。

最近，NVIDIA Research发现，只要经过适当微调，小模型已足以「指挥」大模型

英伟达研究团队的新模型Orchestrator仅有 80 亿参数（8B）的模型，不仅比以往的工具使用类AI智能体准确率更高、成本更低，还能在工具选择上精准对齐用户的偏好。

在HLE基准测试中，Orchestrator斩获了37.1%的高分，一举超越了GPT-5（35.1%），同时在效率上提升了2.5倍。

在tau2-Bench和FRAMES测试中，Orchestrator同样以大幅优势领先 GPT-5，而其成本仅为后者的30%左右。

在多项指标上，Orchestrator均实现了性能与成本的最佳平衡，并能出色地泛化至未曾见过的工具中。

预印本链接：https://arxiv.org/abs/2511.21689

为什么「强模型+工具」还是不够好？

面对Humanity’s Last Exam（HLE）这类超难综合推理考试，现在的大模型虽然「什么都懂一点」，但一到深度推理+控制成本就开始吃力。

只靠一个大模型（比如GPT-5）去调用搜索、代码解释器这些基础工具，很难同时做到：够准、够便宜、够可控。

为了省钱，业界第一反应是：别什么都让最强模型上，搞个「调度者」来分配任务。

但真把主流大模型拉来做调度者，结果却很讽刺：

当GPT-5做调度时，98%的请求还是落回GPT-5或GPT-5-mini；
换成Qwen3-8B，当它拿不准时，73%的任务直接无脑丢给GPT-5。

换句话说：我们以为造了个「调度者」，结果只是多请了一个「转接电话的前台」。

使用不同模型作为调度者后，给不同模型分配的任务

结果说明，仅仅通过提示词，无法让常见的大模型变成合格的调度者。

而ToolOrchestra，通过将「智能」从单一模型中解耦，重构为「轻量调度中枢+异构能力工具集」的复合系统，构成了一种全新的模型与工具协同范式。

接下来，看看Orchestrator是怎么训练出来的。

Orchestrator：多轮执行与自定义RL

想象一下：过去的大模型，都像高端餐厅，全靠「米其林主厨」（GPT-5）从头到尾亲自炒菜——火候、刀工、摆盘，全靠一人。

结果呢？由于单个token成本很高，导致总成本直接原地起飞。

而英伟达新推出的「拼好饭」模式如同中央厨房，一个聪明的「调度店长」（8B小模型Orchestrator）驻守中央，店长不亲自炒菜，而是:

让街角「川菜小馆」（Qwen-Math-7B）爆炒回锅肉（数学题）；
招「粤式点心师傅」（Coder-32B）蒸一笼虾饺（写代码）；
实在拿不准？叫米其林主厨（GPT-5）来尝一口、定个味。

Orchestrator的架构图

其中用于调度的8B小模型Orchestrator，会通过强化学习，根据用户声明的倾向，系统自动倾向本地部署模型。

而训练过程中的奖励函数，可分为3部分：

1. 结果，即是否答对，答对+1，否则0；由GPT5给出判断；

2. 效率，对应金钱成本和时间延迟；

3. 对齐用户工具偏好向量。

三部分加起来，才是强化学习的目标函数，而最终训练得到会权衡、听指挥、懂省钱的Orchestrator。

Orchestrator还包含类人分步求解机制:

可通过COT思维链，Orchestrator分析当前状态，规划下一步的结构化工具调用;
之后，通过环境执行（如数学推导、代码执行输出）并返回结果;
如此多轮循环，则是Orchestrator的另一创新点。

有了训练方法，该研究还构建ToolScale来支撑强化学习的训练。

作为首个大规模、可验证的多轮工具调用合成数据集：ToolScale通过大模型自动构建10个领域（金融、医疗、航空等）的模拟环境（含数据库+工具API），再生成43万条含人工标记的最佳工具调用轨迹的任务。

ToolScale数据合成流程概览

每条任务需满足三重验证:

执行正确性（数据库状态变更一致）
过程保真度（关键信息被提及）
操作完备性。

这些数据被用来训练Orchestrator。

AGI的「务实主义革命」

在三大高难度基准上，Orchestrator-8B全面超越现有方法且显著降低推理成本：

在HLE（人类终极考试）取得37.1%准确率（vs.GPT-5的35.1%），成本仅9.2美分（为GPT-5的30%）；
在τ2-Bench（函数调用严测）上有80.2%正确率，仅有约40%的步骤调用GPT-5；
而在FRAMES（事实性推理）得分76.3%（vs.SOTA74.2%），延迟降至8.2分钟（为GPT-5的41%）。

Orchestrator调度后的模型性能和成本对比。

相较于强大的单体大语言模型系统，Orchestrator实现了最佳的成本效益：

进一步分析揭示其卓越性能源于理性分工能力：

Orchestrator会按需调用本地检索、Math-7B、Qwen-32B等低成本工具，仅在关键步调用GPT-5（1.95次/题）；
若是GPT-5进行调度，那么解决一道题目需要平均调用5.23次GPT05-mini。

调用低成本的模型去解决不那么复杂的问题，正是Orchestrator能够降本增效的根源。

Orchestrator调用不同工具的比例对比

Orchestrator还展现出极强泛化性：面对训练未见模型（如Gemma-3-27B、Codestral-22B）或新定价策略（DeepInfra），其性能仅轻微波动，证明其学会的是工具能力抽象与成本-效益权衡的通用策略，而非过拟合特定配置。

同时在满足用户偏好时，Orchestrator的表现也优于其它大模型，这证明Orchestrator具有可定制、可约束、可解释的工具调度能力。

复合AI第一步

这几年，AI 世界一直在讲同一个故事：先造出一个尽可能大的通用大脑，再通过提示词和少量样本，把它临时「装扮」成翻译、写作、编程等各种专家。

但随着研究不断推进，这个故事开始松动：

越来越多由多个模型和工具协同工作的「复合AI系统」，在安全性、速度和成本上都比单一大模型更有优势，甚至在能力上也实现赶超。

总结来看，面对大模型使用后的高成本，高能耗问题，Orchestrator展现了通过将「决策权」与「执行权」分离，不再指望一个超人拯救世界，完全可开辟一条通往高效、可控、可扩展的实用化AGI系统的新路径。

ToolOrchestra标志着我们朝着构建真正智能的复合AI系统迈出了第一步，这代表着一种正在兴起、旨在取代单一化AI架构的新范式。

小语言模型终将成为实现可扩展智能体AI的关键核心。

参考资料：

https://arxiv.org/abs/2511.21689

https://developer.nvidia.com/blog/train-small-orchestration-agents-to-solve-big-problems/

https://research.nvidia.com/labs/lpr/ToolOrchestra/

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标，锁定新智元极速推送！

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

黄仁勋震撼发言：AGI时代已经到来

财联社 2026-03-25 10:34:05
150 跟贴 150
除了AGI已来和死亡，我们为黄仁勋重磅访谈总结了50条AI最前沿判断

新智元 2026-03-25 19:38:54
15 跟贴 15

黄仁勋声称“AGI已经实现”，前提是重新定义了AGI

DeepTech深科技 2026-03-24 18:17:04
0 跟贴 0

黄仁勋暴论核弹：AGI已经实现，Ilya错了，程序员有10亿

量子位 2026-03-24 16:55:11
18 跟贴 18
英伟达23人梦之队，让AI用7天干翻了自己的GPU专家

钛媒体APP 2026-03-26 17:44:44
0 跟贴 0

全球顶尖大模型一夜惨遭血洗！最难测试人类拿满分，AI第一名得0.2%分

新智元 2026-03-26 18:14:12
37 跟贴 37

在线等：如何优雅地分走鹅厂这600+万？

量子位 2026-03-26 16:24:03
0 跟贴 0
30位大佬闭门争论2小时：工业AI如何落地

虎嗅APP 2026-03-26 17:43:08
1 跟贴 1

让生物学家摆脱数据分析之苦，斯坦福团队发布首个开源自进化生物分析AI智能体，实现自动化基因组学发现

生物世界 2026-03-26 16:36:06
0 跟贴 0
行业最大规模具身数据集：10Kh RealOmni-Open DataSet

量子位 2026-01-06 10:53:25
0 跟贴 0
行业最大规模具身数据集！出自简智机器人GenRobot.AI

量子位 2026-01-05 17:11:41
0 跟贴 0
巅峰对话AI时代经济增长：诺奖经济学家彼得·豪伊特抛出增长七要素，中关村学者激辩人机共生新规则

每日经济新闻 2026-03-27 00:36:03
0 跟贴 0
黄仁勋：AGI时代已经到来，“龙虾开公司”不是梦！

财联社 2026-03-26 23:15:59
0 跟贴 0
解锁薯条新世界！这勺肉酱是灵魂，谁吃谁知道

林述巍林大厨 2026-03-26 12:00:00
1 跟贴 1
意大利网友：我虽然不爱吃土豆，但是看到别人捡我也想捡

三颗虾仁 2026-03-26 07:04:36
0 跟贴 0
战争!大佬建议搞垮英伟达DLSS5:玩家开发者团结起来

游民星空 2026-03-26 18:12:11
1 跟贴 1
81倍市盈率的ARM豪赌AI芯片：华尔街已将"完美执行"定价入内，容错空间几乎为零

华尔街见闻官方 2026-03-26 21:11:29
0 跟贴 0
土豆的神仙吃法，的姐妹快去试试，出乎意料的好吃

415解说台 2026-03-24 23:06:41
0 跟贴 0
吃红薯=补营养！和土豆根本不同类，多吃益处藏不住

马斯克硬核科技视点 2026-03-24 18:01:45
1 跟贴 1
偶遇南方小土豆在雪地跳舞，小土豆学聪明了会找角度了终于比支架

笑场速递 2026-03-25 10:14:05
2 跟贴 2
黄仁勋全世界穿皮衣，唯独在中国换上了大花袄

雷科技 2026-01-27 17:19:30
17 跟贴 17
土豆的一种新吃法

有趣的内容 2026-03-23 09:13:22
1 跟贴 1
今天焖了酸肠子土豆饭，开胃又好吃，还经饿，还焖了喜欢的豆腐

饭张力丰哥 2026-03-26 17:08:49
3 跟贴 3
改良一下土壤，准备种土豆啦 #稻壳炭 #发酵稻壳#土豆种子

老冯种菜wy 2026-03-26 07:49:14
0 跟贴 0
土豆与五花肉的神仙吃法，像排骨一样，好吃到舔手指

小凤姐美食 2026-03-23 11:26:20
0 跟贴 0
土豆的种法 #发酵豆粕 #土豆种子 #种土豆

老冯种菜wy 2026-03-26 21:38:58
0 跟贴 0
土豆新吃法，上桌秒光盘

蟹家村 2026-03-24 19:36:47
0 跟贴 0
原来土豆还可以这样吃

媛媛Vlogs 2026-03-25 13:06:12
0 跟贴 0
土豆馒头出锅了，网友分享自制的土豆馒头

重庆观天下 2026-03-25 13:37:49
0 跟贴 0
只需一个土豆就能做的香酥薯饼，简直太好吃了

油条赶海 2026-03-26 06:52:56
0 跟贴 0
土豆这样做，椒香酥脆又好吃

阿东三农 2026-03-25 13:09:38
0 跟贴 0
以后想吃土豆你就像我这样做，做法简单还特别好吃

黄河老三 2026-03-26 11:10:56
0 跟贴 0
山西太谷区特色美食（太谷卷卷）土豆跟猪肉做出来的小吃，非常的

就叫我大头呀 2026-03-26 15:59:24
0 跟贴 0
花2597元体验米其林星厨新派潮州菜，品尝3年老狮头鹅溏

篴哥园艺 2026-03-25 13:11:27
0 跟贴 0
富硒沃土长出“致富豆” 石家庄市栾城区特色农业促共富

北青网-北京青年报 2026-03-25 09:27:45
2 跟贴 2
黄瓜、土豆、胡萝卜，炒出一桌清鲜滋味

环球前线 2026-03-24 16:00:44
0 跟贴 0
真是没有想到，土豆还能这样做

豪车馆 2026-03-25 14:58:07
0 跟贴 0
从成都美食江湖跑出的“黑马”：掌门土豆凭什么让年轻人排队买单？

中国网 2026-03-26 14:06:15
0 跟贴 0
大众喜爱东北乱炖

一个虫虫的旅行 2026-03-25 21:00:27
1 跟贴 1
揭秘：五种禁忌搭配，土豆碰不得！

几盏烟火y 2026-03-25 08:14:14
0 跟贴 0

尴尬 22岁夏思凝社媒晒性感视频网友留言：吴艳妮我好爱你，真的

尴尬 22岁夏思凝社媒晒性感视频网友留言：吴艳妮我好爱你，真的

风过乡

2026-03-25 10:56:58

干翻埃尔法？尊界MPV实车曝光，前脸照搬S800

干翻埃尔法？尊界MPV实车曝光，前脸照搬S800

泡泡网

2026-03-26 11:21:11

“大概有几十万”，重庆一小区有人高空撒钱，物业称捡回几大桶，撒钱者正配合调查

“大概有几十万”，重庆一小区有人高空撒钱，物业称捡回几大桶，撒钱者正配合调查

新京报

2026-03-26 20:41:35

山姆曲奇礼盒紧急下架！监管部门：已立案

山姆曲奇礼盒紧急下架！监管部门：已立案

中国品牌

2026-03-26 19:00:21

“我的部长同学进去了”

霹雳炮

2026-03-21 16:58:17

一口气刷完全集，Netflix新剧又杀疯了

一口气刷完全集，Netflix新剧又杀疯了

来看美剧

2026-03-26 19:45:54

章泽天看展带火春日穿搭叫“针织衫+弯刀裤”，配色清新很少女！

章泽天看展带火春日穿搭叫“针织衫+弯刀裤”，配色清新很少女！

明星私服穿搭daily

2026-03-26 09:44:53

马筱梅晒儿子满月宴！六菜一汤连家宴都不算，婆婆没表示也不重视

马筱梅晒儿子满月宴！六菜一汤连家宴都不算，婆婆没表示也不重视

乐悠悠娱乐

2026-03-26 15:02:11

重磅实锤！瓜帅即将告别曼城，下一站彻底跳出英超

重磅实锤！瓜帅即将告别曼城，下一站彻底跳出英超

澜归序

2026-03-26 06:02:38

马筱梅晒儿子满月宴伴手礼！板栗饼干好简单，没婆婆撑腰不敢高调

马筱梅晒儿子满月宴伴手礼！板栗饼干好简单，没婆婆撑腰不敢高调

东方不败然多多

2026-03-27 00:04:06

路虎“大揽胜亮相长5.1米，大6座，售30万起？

路虎“大揽胜亮相长5.1米，大6座，售30万起？

网上车市

2026-03-26 21:41:53

C罗儿子要加盟皇马？15岁迷你罗试训皇马，C罗的7号后继有人

C罗儿子要加盟皇马？15岁迷你罗试训皇马，C罗的7号后继有人

仰卧撑FTUer

2026-03-25 23:05:29

皇马“6300万金童”到底怎么了？全阿根廷都在等他打脸质疑者

皇马“6300万金童”到底怎么了？全阿根廷都在等他打脸质疑者

仰卧撑FTUer

2026-03-26 23:09:03

18岁少女发明净水黑科技：无滤芯循环过滤，微塑料去除率超95%

18岁少女发明净水黑科技：无滤芯循环过滤，微塑料去除率超95%

DeepTech深科技

2026-03-25 13:48:24

张雪峰灵堂布置疑曝光，一侧挽联有深意，遗照选了大家熟悉的那张

张雪峰灵堂布置疑曝光，一侧挽联有深意，遗照选了大家熟悉的那张

揽星河的笔记

2026-03-26 19:04:02

高三男孩喀纳斯湖失踪,母亲守岸7天后直言放弃,意外竟在此时发生

高三男孩喀纳斯湖失踪,母亲守岸7天后直言放弃,意外竟在此时发生

古怪奇谈录

2025-10-16 10:53:42

家里出贵人，必有征兆：孩子有这3点，必定大富大贵

家里出贵人，必有征兆：孩子有这3点，必定大富大贵

金沛的国学笔记

2026-03-23 10:29:42

台积电已经无法向美国交代了！张忠谋没有说谎：台积电也无可奈何

台积电已经无法向美国交代了！张忠谋没有说谎：台积电也无可奈何

顾史

2026-03-20 22:13:27

这几个指标正常，证明你的心脏基本没啥大问题，不要再乱检查了

这几个指标正常，证明你的心脏基本没啥大问题，不要再乱检查了

健康之光

2025-12-17 07:35:04

郑裕彤家族为什么不自救？不是说香港豪门隐形资产很多么？

郑裕彤家族为什么不自救？不是说香港豪门隐形资产很多么？

担扑

2026-03-26 17:02:51

AI产业主平台领航智能+时代

14821文章数 66720关注度

往期回顾全部

科技要闻

美团发布外卖大战后成绩单：亏损超200亿

头条要闻

特朗普：伊朗允许10艘油轮通行霍尔木兹海峡

头条要闻

特朗普：伊朗允许10艘油轮通行霍尔木兹海峡

体育要闻

申京努力了，然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声！称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普？一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

艺术

本地

房产

时尚

公开课

艺术要闻

北京大兴机场和青岛胶东机场“撞脸”，长得像就是抄袭？

本地新闻

救命，这只酱板鸭已经在我手机复仇了一万遍

房产要闻

突发，三亚又有大批征迁补偿方案出炉！

400万人爱过的女孩，被黄谣网暴180天后

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版