网易首页 > 网易号 > 正文 申请入驻

英伟达巧用8B模型秒掉GPT-5,开源了

0
分享至

英伟达端着一个8B小模型对GPT-5说:

不好意思,你还得练(bushi)。

何出此言?——英伟达携手香港大学开源的Orchestrator-8B,人类终极考试HLE分数更高、花钱更少、跑起来速度还更快。



哦对了,还在HuggingFace被狂赞,冲到了热门模型前五。



而它超越GPT-5的打法是不当推理者,而是“工具主理人”,协调使用各路工具。

如何吊打GPT-5?

人在解决问题时会找各种帮手,比如搜索引擎、计算器 ,那这个工作能不能由模型代劳?

Orchestrator干的就是这事儿。

虽然自己只有8B参数,但手下管着一整个工具团队。

既有GPT-5、Claude Opus 4.1这样的顶级大模型,也有Qwen2.5-Math这样的专业数学工具,还有网页搜索、本地检索、代码解释器这些实用小帮手。



它并不是自己解题,而是判断现在该用哪个工具、控制工具的顺序和使用次数、还能兼顾效果、成本、用户偏好,工作日常如下:

  • 拿到难题先分析:这题需要算数学?那就调用Qwen2.5-Math;
  • 过程中动态调整:搜完资料发现需要验证?那就先用代码解释器跑一遍;
  • 全程把控用户偏好:用户说要省钱,那GPT-5能不用就不用,优先用本地工具。

简单说,大模型是一个人干所有活,而Orchestrator-8B是带着团队干专业活。



能让小模型精准协调这么多工具,全靠英伟达的ToolOrchestra训练大法。

核心有两个,一个是有奖有罚的强化学习,一个是量身定制的ToolScale数据集

训练时给Orchestrator立了三条奖惩规则:

  • 效果奖:让GPT-5判对错,解题对了加分,错了扣分;
  • 效率奖:用的钱少、耗时短加分,反之扣分;
  • 偏好奖:听用户的话加分,比如用户要隐私保护,多用本地搜索就加分。

研究者建了个包含金融、医疗、电商、旅游等10个领域的训练素材库,里面全是“怎么用工具解题”的案例,让模型充分接触各类场景。

Orchestrator-8B也在权威测试中交出了令人满意的答卷。



HLE测试里它拿下37.1%的得分,超过GPT-5的35.1%,成本却仅为后者的1/2.5;



FRAMES、τ²-Bench测试中也拿下SOTA成绩,降低了开支,运行速度更是快了一倍多。

小模型的逆袭

实际上,在AI领域工具编排和小模型驱动复合系统的赛道上,英伟达ToolOrchestra训练的Orchestrator-8B并非孤例。

最早探索让小模型学会调用工具的代表性研究,是谷歌DeepMind在2023年提出的Toolformer,通过监督学习+自生成数据,让12B参数的模型学会调用计算器、翻译API、搜索引擎等基础工具;

但当时,Toolformer仅聚焦基础工具,并没有把大模型纳入工具库。

MIT和CMU联合团队的ToolRL,提出以奖励为核心的工具学习框架,训练小模型通过强化学习动态选择工具,主要是解决“传统工具学习过度依赖人工标注数据” 的问题,通过自动生成工具交互轨迹训练模型。

虽然也是奖励机制,但ToolRL的奖励函数更侧重于任务的正确性和工具调用效率,并没有明确纳入用户偏好,且工具库以基础工具和专业API为主。

今年,香港大学和微软提出的Optimal Tool Calls(OCT),也是专门针对“工具调用成本优化”的小模型训练方法。

越来越多的团队在做相关研究,也有越来越多的人关注该领域的进展。

就拿Orchestrator-8B来说,为什么它能获得HuggingFace高赞?

最明显的原因就是实用。大模型虽强,但太贵、太慢,而Orchestrator-8B参数量小,还能实现「强+省钱」,直接解决了落地时的成本难题。

用低成本实现高智能,这么一看,AI的未来还真不一定是超级大模型单打独斗了。

作者简介

Orchestrator-8B这篇论文的一作是香港大学博士苏弘锦,主要研究方向是数据科学和自然语言处理,现在英伟达实习。



共一是英伟达研究院的研究科学家Shizhe Diao,主要进行大型基础模型的预训练、高效调优和对齐方面的研究,曾与字节跳动人工智能实验室的李航博士合作。



论文地址:https://arxiv.org/abs/2511.21689
项目主页:https://research.nvidia.com/labs/lpr/ToolOrchestra/
数据集:https://huggingface.co/datasets/nvidia/ToolScale
HuggingFace地址:https://huggingface.co/nvidia/Nemotron-Orchestrator-8B

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
央视最新曝光:中美疑似爆发激烈海上交锋,外舰挑衅被我052D锁定

央视最新曝光:中美疑似爆发激烈海上交锋,外舰挑衅被我052D锁定

壹知眠羊
2026-01-27 20:03:05
“流氓有文化更可怕”,退休老干部频繁联系女幼师,聊天记录曝光

“流氓有文化更可怕”,退休老干部频繁联系女幼师,聊天记录曝光

妍妍教育日记
2026-01-27 19:58:28
燃尽了!克林根怒摘13个前场篮板,创开拓者队史纪录

燃尽了!克林根怒摘13个前场篮板,创开拓者队史纪录

懂球帝
2026-01-28 11:47:20
红旗H5:如何在变革浪潮中,锚定国民车的价值原点

红旗H5:如何在变革浪潮中,锚定国民车的价值原点

汽车通讯社
2026-01-27 16:14:18
刘强东发放年货现场曝光,令人恶心的一幕出现,当场被人制止

刘强东发放年货现场曝光,令人恶心的一幕出现,当场被人制止

奇思妙想草叶君
2026-01-27 23:32:18
第7次大满贯四强!张帅逆转继续前进,7年后再进澳网女双半决赛

第7次大满贯四强!张帅逆转继续前进,7年后再进澳网女双半决赛

全景体育V
2026-01-28 10:30:09
尼帕病毒来势汹汹,建议:每家最好备6样东西,关键时刻能救命呢

尼帕病毒来势汹汹,建议:每家最好备6样东西,关键时刻能救命呢

现代小青青慕慕
2026-01-28 08:59:53
百万问界背后:赛力斯半年市值蒸发800亿

百万问界背后:赛力斯半年市值蒸发800亿

每人Auto
2026-01-27 14:20:02
高学历“巨婴”恶臭聊天引2亿人怒骂:病态欲望正在蔓延…

高学历“巨婴”恶臭聊天引2亿人怒骂:病态欲望正在蔓延…

不二表姐
2026-01-27 22:44:09
杨瀚森替补6分5板1助攻开拓者不敌奇才,夏普31分失扳平球

杨瀚森替补6分5板1助攻开拓者不敌奇才,夏普31分失扳平球

湖人崛起
2026-01-28 10:27:27
郭晶晶代言出事没一周,令人担心的事发生,霍启刚的做法让人意外

郭晶晶代言出事没一周,令人担心的事发生,霍启刚的做法让人意外

以茶带书
2026-01-27 14:22:25
76人139-122击退雄鹿,保罗-乔治32+5+5,恩比德29+9+5

76人139-122击退雄鹿,保罗-乔治32+5+5,恩比德29+9+5

懂球帝
2026-01-28 11:48:19
人神共愤!最新数据曝光,伊朗神权政府血债累累

人神共愤!最新数据曝光,伊朗神权政府血债累累

山间听雨
2026-01-27 20:05:08
一场追悼会,戳穿梁小龙在香港的真实地位,原来成龙没说谎!

一场追悼会,戳穿梁小龙在香港的真实地位,原来成龙没说谎!

叨唠
2026-01-27 03:28:08
太敢说了!法学界陈枫称要是觉得器官移植是好事,专家就该带头捐

太敢说了!法学界陈枫称要是觉得器官移植是好事,专家就该带头捐

火山诗话
2026-01-28 06:11:42
伊朗出手,监控石油“咽喉”通道!伊立巨幅画暗指美航母被炸,配文“煽风者将得到风暴”!伊朗将领:邻国领土不得用于攻击伊朗

伊朗出手,监控石油“咽喉”通道!伊立巨幅画暗指美航母被炸,配文“煽风者将得到风暴”!伊朗将领:邻国领土不得用于攻击伊朗

每日经济新闻
2026-01-28 09:35:07
花200万补课后续:380分儿子执意补课,母亲重病陪读,曝更痛隐情

花200万补课后续:380分儿子执意补课,母亲重病陪读,曝更痛隐情

阿讯说天下
2026-01-27 13:45:23
泰国卫生部:泰国果蝠体内发现强毒性尼帕病毒,人传人路径是与感染者体液有直接接触

泰国卫生部:泰国果蝠体内发现强毒性尼帕病毒,人传人路径是与感染者体液有直接接触

红星新闻
2026-01-27 18:12:18
安徽85后,用一台“玩具”征服欧美,年入25亿登顶全球

安徽85后,用一台“玩具”征服欧美,年入25亿登顶全球

最华人
2026-01-27 15:00:14
韩国娱乐圈到底有多脏?“千面影帝”河正宇父子告诉你

韩国娱乐圈到底有多脏?“千面影帝”河正宇父子告诉你

阿器谈史
2026-01-27 15:23:03
2026-01-28 12:07:00
量子位 incentive-icons
量子位
追踪人工智能动态
12074文章数 176366关注度
往期回顾 全部

科技要闻

它是神也是毒!Clawdbot改名卷入千万诈骗

头条要闻

小伙救人胸外按压600次按断女子6根肋骨 女方丈夫感恩

头条要闻

小伙救人胸外按压600次按断女子6根肋骨 女方丈夫感恩

体育要闻

冒充职业球员,比赛规则还和对手现学?

娱乐要闻

王祖贤入驻某音:一条7秒视频吸粉55万

财经要闻

40倍杠杆断裂!水贝一黄金平台兑付困难

汽车要闻

中国豪华车老大之争:奥迪凭啥干掉奔驰宝马?

态度原创

家居
手机
数码
房产
健康

家居要闻

跃式别墅 包络石木为生

手机要闻

2K档罕见!REDMI Turbo 5用上金属中框+2.5D玻璃背板

数码要闻

华为无线鼠标Slim系列开售:支持星闪技术 169元起!

房产要闻

实景兑现在即!绿城,在海棠湾重新定义终极旅居想象!

耳石症分类型,症状大不同

无障碍浏览 进入关怀版