网易首页 > 网易号 > 正文 申请入驻

别让米其林主厨削土豆!英伟达用「小脑指挥大脑」,重构AGI生产力

0
分享至

来源:市场资讯

(来源:新智元)


新智元报道

编辑:peter东

【新智元导读】觉得大模型消耗的算力过大,英伟达推出的8B模型Orchestrator化身「拼好模」,通过组合工具降本增效,使用30%的预算,在HLE上拿下37.1%的成绩。

最近,NVIDIA Research发现,只要经过适当微调,小模型已足以「指挥」大模型

英伟达研究团队的新模型Orchestrator仅有 80 亿参数(8B)的模型,不仅比以往的工具使用类AI智能体准确率更高、成本更低,还能在工具选择上精准对齐用户的偏好。

在HLE基准测试中,Orchestrator斩获了37.1%的高分,一举超越了GPT-5(35.1%),同时在效率上提升了2.5倍。

在tau2-Bench和FRAMES测试中,Orchestrator同样以大幅优势领先 GPT-5,而其成本仅为后者的30%左右。

在多项指标上,Orchestrator均实现了性能与成本的最佳平衡,并能出色地泛化至未曾见过的工具中。


预印本链接:https://arxiv.org/abs/2511.21689

为什么「强模型+工具」还是不够好?

面对Humanity’s Last Exam(HLE)这类超难综合推理考试,现在的大模型虽然「什么都懂一点」,但一到深度推理+控制成本就开始吃力。

只靠一个大模型(比如GPT-5)去调用搜索、代码解释器这些基础工具,很难同时做到:够准、够便宜、够可控。

为了省钱,业界第一反应是:别什么都让最强模型上,搞个「调度者」来分配任务。

但真把主流大模型拉来做调度者,结果却很讽刺:

换句话说:我们以为造了个「调度者」,结果只是多请了一个「转接电话的前台」。


使用不同模型作为调度者后,给不同模型分配的任务

结果说明,仅仅通过提示词,无法让常见的大模型变成合格的调度者。

而ToolOrchestra,通过将「智能」从单一模型中解耦,重构为「轻量调度中枢+异构能力工具集」的复合系统,构成了一种全新的模型与工具协同范式。

接下来,看看Orchestrator是怎么训练出来的。

Orchestrator:多轮执行与自定义RL

想象一下:过去的大模型,都像高端餐厅,全靠「米其林主厨」(GPT-5)从头到尾亲自炒菜——火候、刀工、摆盘,全靠一人。

结果呢?由于单个token成本很高,导致总成本直接原地起飞。

而英伟达新推出的「拼好饭」模式如同中央厨房,一个聪明的「调度店长」(8B小模型Orchestrator)驻守中央,店长不亲自炒菜,而是:


Orchestrator的架构图

其中用于调度的8B小模型Orchestrator,会通过强化学习,根据用户声明的倾向,系统自动倾向本地部署模型。

而训练过程中的奖励函数,可分为3部分:

1. 结果,即是否答对,答对+1,否则0;由GPT5给出判断;

2. 效率,对应金钱成本和时间延迟;

3. 对齐用户工具偏好向量。

三部分加起来,才是强化学习的目标函数,而最终训练得到会权衡、听指挥、懂省钱的Orchestrator。

Orchestrator还包含类人分步求解机制:

有了训练方法,该研究还构建ToolScale来支撑强化学习的训练。

作为首个大规模、可验证的多轮工具调用合成数据集:ToolScale通过大模型自动构建10个领域(金融、医疗、航空等)的模拟环境(含数据库+工具API),再生成43万条含人工标记的最佳工具调用轨迹的任务。


ToolScale数据合成流程概览

每条任务需满足三重验证:

这些数据被用来训练Orchestrator。

AGI的「务实主义革命」

在三大高难度基准上,Orchestrator-8B全面超越现有方法且显著降低推理成本:


Orchestrator调度后的模型性能和成本对比。

相较于强大的单体大语言模型系统,Orchestrator实现了最佳的成本效益:


进一步分析揭示其卓越性能源于理性分工能力:

调用低成本的模型去解决不那么复杂的问题,正是Orchestrator能够降本增效的根源。


Orchestrator调用不同工具的比例对比

Orchestrator还展现出极强泛化性:面对训练未见模型(如Gemma-3-27B、Codestral-22B)或新定价策略(DeepInfra),其性能仅轻微波动,证明其学会的是工具能力抽象与成本-效益权衡的通用策略,而非过拟合特定配置。

同时在满足用户偏好时,Orchestrator的表现也优于其它大模型,这证明Orchestrator具有可定制、可约束、可解释的工具调度能力。

复合AI第一步

这几年,AI 世界一直在讲同一个故事:先造出一个尽可能大的通用大脑,再通过提示词和少量样本,把它临时「装扮」成翻译、写作、编程等各种专家。

但随着研究不断推进,这个故事开始松动:

越来越多由多个模型和工具协同工作的「复合AI系统」,在安全性、速度和成本上都比单一大模型更有优势,甚至在能力上也实现赶超。

总结来看,面对大模型使用后的高成本,高能耗问题,Orchestrator展现了通过将「决策权」与「执行权」分离,不再指望一个超人拯救世界,完全可开辟一条通往高效、可控、可扩展的实用化AGI系统的新路径。

ToolOrchestra标志着我们朝着构建真正智能的复合AI系统迈出了第一步,这代表着一种正在兴起、旨在取代单一化AI架构的新范式。

小语言模型终将成为实现可扩展智能体AI的关键核心。

参考资料:

https://arxiv.org/abs/2511.21689

https://developer.nvidia.com/blog/train-small-orchestration-agents-to-solve-big-problems/

https://research.nvidia.com/labs/lpr/ToolOrchestra/

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
我70岁才明白:孩子不尊重你,无需翻脸,用“乌鸦定律”就行

我70岁才明白:孩子不尊重你,无需翻脸,用“乌鸦定律”就行

兰姐说故事
2026-01-03 17:40:03
美国扣押俄罗斯油轮

美国扣押俄罗斯油轮

新华社
2026-01-07 22:25:03
冷空气马上到,广东最低-4℃!寒潮帽子这样戴,护好脑血管

冷空气马上到,广东最低-4℃!寒潮帽子这样戴,护好脑血管

城事特搜
2026-01-07 19:25:53
徐静蕾素颜买菜像大妈,黄立行全白头,16年不婚活成赢家

徐静蕾素颜买菜像大妈,黄立行全白头,16年不婚活成赢家

阿废冷眼观察所
2026-01-07 09:31:49
项立刚再次鼓吹战争之思:最可怕的是,邪恶灵魂裹上爱国外衣

项立刚再次鼓吹战争之思:最可怕的是,邪恶灵魂裹上爱国外衣

读鬼笔记
2026-01-06 19:42:20
剪短头发并染回黑色,吕焯毅:进入国家队,精神面貌很重要

剪短头发并染回黑色,吕焯毅:进入国家队,精神面貌很重要

懂球帝
2026-01-07 12:56:05
事件升级!司晓迪晒开房记录,16个男顶流被锤!内娱彻底玩完

事件升级!司晓迪晒开房记录,16个男顶流被锤!内娱彻底玩完

小玡说故事
2026-01-06 10:02:21
闫学晶报应来了!代言品牌或要解约,评论区沦陷,春晚节目疑落空

闫学晶报应来了!代言品牌或要解约,评论区沦陷,春晚节目疑落空

小徐讲八卦
2026-01-06 08:32:20
美以打击伊朗“铁拳行动”进入倒计时,哈梅内衣欲逃往莫斯科

美以打击伊朗“铁拳行动”进入倒计时,哈梅内衣欲逃往莫斯科

史政先锋
2026-01-06 22:31:31
广东5分险胜深圳引热议!徐杰关键抛投杀死比赛引媒体人狂赞

广东5分险胜深圳引热议!徐杰关键抛投杀死比赛引媒体人狂赞

狼叔评论
2026-01-07 22:30:11
为什么红军到了陕北,就安全了?原因很现实,6个原因

为什么红军到了陕北,就安全了?原因很现实,6个原因

沈言论
2026-01-01 15:40:03
大陆博主曝光“台独”顽固分子沈伯洋住处和工作场所,国台办回应

大陆博主曝光“台独”顽固分子沈伯洋住处和工作场所,国台办回应

界面新闻
2026-01-07 10:59:20
特朗普强硬表态,谁敢拦截对台军售就对谁开战,美国军工股暴涨

特朗普强硬表态,谁敢拦截对台军售就对谁开战,美国军工股暴涨

我心纵横天地间
2026-01-07 16:57:21
芬兰公司宣布量产全球首款全固态电池,5分钟可充满,能量密度400Wh/kg

芬兰公司宣布量产全球首款全固态电池,5分钟可充满,能量密度400Wh/kg

金融界
2026-01-06 14:03:20
又是全球销冠!特斯拉Model Y:他们都不看好你,可你偏偏最争气

又是全球销冠!特斯拉Model Y:他们都不看好你,可你偏偏最争气

邻章
2026-01-05 10:32:05
新年第一瓜,老王的小娇妻留不住了!

新年第一瓜,老王的小娇妻留不住了!

仕道
2026-01-07 10:29:10
3厘米厚的保命门竟敞开!马杜罗最绝望的瞬间,不是美军兵临城下

3厘米厚的保命门竟敞开!马杜罗最绝望的瞬间,不是美军兵临城下

达文西看世界
2026-01-07 16:49:37
文件下发已逾半月,多地观望小贷公司12%“降息”指引,执行节奏将成关键

文件下发已逾半月,多地观望小贷公司12%“降息”指引,执行节奏将成关键

财联社
2026-01-07 21:26:04
风向不对!网上现大量“美国只斩首,不伤平民”言论,值得警惕

风向不对!网上现大量“美国只斩首,不伤平民”言论,值得警惕

消失的电波
2026-01-06 14:11:46
河北被看见了,希望河北不仅仅是被看见

河北被看见了,希望河北不仅仅是被看见

林中木白
2026-01-06 15:16:30
2026-01-08 00:15:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
1949548文章数 5189关注度
往期回顾 全部

科技要闻

精华!黄仁勋CES记者会:揭秘新款大杀器

头条要闻

委向美移交5000万桶原油有部分原本销往中国 中方回应

头条要闻

委向美移交5000万桶原油有部分原本销往中国 中方回应

体育要闻

卖水果、搬砖的小伙,与哈兰德争英超金靴

娱乐要闻

《马背摇篮》首播,革命的乐观主义故事

财经要闻

农大教授科普:无需过度担忧蔬菜农残

汽车要闻

燃油驾趣+智能电感双Buff 试驾全新奥迪Q5L

态度原创

游戏
时尚
房产
本地
军事航空

这女婿也太会了!岳父是游戏搭子 手搓雕像送礼

李梦系穿搭,就这么养成了

房产要闻

最新!海口二手房,涨价房源突然猛增30%

本地新闻

“闽东利剑·惠民安商”高效执行专项行动

军事要闻

特朗普政府正在讨论获取格陵兰岛的方案 包括军事选项

无障碍浏览 进入关怀版