网易首页 > 网易号 > 正文 申请入驻

大模型掌握16000+真实世界API了,清华等机构ToolLLM不输ChatGPT

0
分享至

机器之心报道

编辑:陈萍、梓文

本文提出了一个新的框架 ToolLLM,其增强了大型语言模型对 API 的使用。在指令调优数据集 ToolBench 上对 LLaMA 进行微调,得到的 ToolLLaMA 与 ChatGPT 性能相当。

相信大家都已经见识到了,开源大型语言模型(LLMs)及其变体(例如 LLaMA 和 Vicuna)在各种任务上取得了显著的进展。

然而,尽管 LLM 很强大,但它们在执行更高级任务方面局限性仍然很大,比如让 LLM 按照人类给出的指令使用外部工具(APIs),很多开源 LLM 就很难办到。

原因在于当前 LLM 的指令调优技术主要集中在基本语言任务上,缺乏对工具使用方面的探索。这与最先进的闭源模型如 ChatGPT 形成了鲜明的对比,后者已经展示出出色的工具使用能力。

为了让开源 LLM 更好的使用外部工具,来自清华、人大、耶鲁、腾讯、知乎等多家机构的研究者联合撰写了论文,他们引入了一个通用工具使用框架 ToolLLM,该框架包括数据构建、模型训练和评估多项功能。

值得一提的是,该研究从 RapidAPI Hub 收集了 16464 个真实世界的 RESTful API,涵盖 49 个类别。

该研究在 ToolBench(指令调优数据集)上对 LLaMA 进行微调,得到了 ToolLLaMA。ToolEval(自动评估器)评估显示,ToolLLaMA 展现出了出色的执行复杂指令和泛化到未知 API 的能力,并且在工具使用方面性能与 ChatGPT 相媲美。

  • 论文地址:https://arxiv.org/pdf/2307.16789.pdf
  • 项目地址:https://github.com/OpenBMB/ToolBench

ToolLLaMA 效果展示如下:

方法介绍

论文首先介绍了 ToolBench,这是一个用于工具使用的指令调优数据集,由 ChatGPT 自动创建。具体而言,研究团队从 RapidAPI Hub 收集了 16464 个涵盖 49 个类别的真实世界 RESTful API,然后提示 ChatGPT 生成涉及这些 API 的多样化人类指令,涵盖单工具和多工具场景。最后,他们使用 ChatGPT 为每个指令搜索有效的解路径(一系列 API 调用)。为了使搜索过程更加高效,他们开发了一种新颖的基于深度优先搜索的决策树(DFSDT),使 LLMs 能够评估多个推理轨迹并扩展搜索空间。

在数据集方面。如图 1 所示,研究者首先收集了一些高质量的指令调优数据集 ToolBench。该数据集是通过使用最新的 ChatGPT(gpt-3.5-turbo-16k)自动构建的。

具体而言,ToolBench 的构建包含三个阶段:API 收集(API collection)、指令生成、解路径注释(solution path annotation)。

API 收集

研究团队从 RapidAPI 收集了 16464 个 REST(representational state transfer)API。这些 API 涵盖 49 个不同类别,如社交媒体、电子商务和天气。对于每个 API,研究团队都会从 RapidAPI 抓取详细的 API 文档,包括功能描述、所需参数、API 调用的代码片段等。他们希望 LLM 能够通过理解这些文档来学习使用 API,从而使模型能够泛化到训练过程中未见过的 API。

注:RapidAPI 是一个领先的 API 市场,它将开发者与成千上万的真实世界 API 连接起来。在这个平台上,开发者只需注册一个 RapidAPI 密钥,就可以发现、测试和连接各种 API。

RapidAPI 的层级结构 (左) 和指令生成过程 (右) 如下图所示。对于每个工具,研究者会爬取以下信息:工具的名称和描述,主机的 URL,以及属于该工具的所有可用 API;对于每个 API,研究者会记录其名称、描述、HTTP 方法、必要参数、可选参数、可执行的 API 调用代码片段等。

在这一过程中,还需要 API 过滤:最初,该研究从 RapidAPI 收集了 10853 个工具(53190 个 API)。然而,这些 API 的质量和可靠性可能会有很大的差异。为此,他们进行了严格的筛选过程,以确保 ToolBench 的最终工具集是可靠且功能正常的。最后只保留了 3451 个高质量的工具 (16464 个 API)。

指令生成

研究团队首先从整套程序中抽取 API 样本,然后使 ChatGPT 为这些 API 生成各种指令。为了涵盖实际场景,他们策划了涉及单工具和多工具场景的指令,这确保了模型不仅能学会如何与单个工具交互,还能学会如何将它们组合起来完成复杂的任务。

生成高质量的指令需要两个重要特性:多样性和多工具使用,以确保 LLM 能够处理广泛的 API 使用场景,并反映现实世界中经常需要多种工具相互作用的情况,从而提高 LLM 的实际应用性和灵活性。为此,研究团队采用了一种自下而上的指令生成方法,即从收集 API 入手,然后精心制作涉及这些 API 的各种指令。

为所有 API 及其组合的指令生成过程如下,具体过程请参阅原文。

解路径注释

研究团队对这些指令的高质量响应进行注释。每个响应可能包含多轮模型推理和实时 API 调用,以得出最终答案。由于工具学习本身的难度,即使是最复杂的 LLM(即 GPT-4),对复杂指令的通过率也很低,从而导致数据收集效率低下。为此,研究团队开发了一种新颖的基于深度优先搜索的决策树(DFSDT),以增强 LLM 的规划和推理能力。与传统的思维链(CoT)和 ReACT 相比,DFSDT 使 LLM 能够评估多种推理路径,并慎重做出决定,以撤回步骤或沿着有希望的路径前进。在实验中,DFSDT 显著提高了注释效率,并成功完成了那些用 CoT 或 ReACT 无法回答的复杂指令。

下图为在模型推理过程中,DFSDT 与传统的 CoT 或 ReACT 的比较 (左)。

下表为 ToolBench 与其他研究的比较:

实验及结果

本文通过实验来研究了 ToolLLaMa 的性能,报告了 ToolLLaMa 的评估指标、API retriever 和 DFSDT 的有效性以及实验和分析结果。

考虑到 API 的时间可变性,为每条测试指令标注固定的真实解路径是不可行的。此外,确保不同模型在评估过程中使用相同版本的 API 也至关重要。考虑到人工评估可能会耗费大量时间,该研究仿效 AlpacaEval 开发了高效的机器评估工具 ToolEval,其依赖于 ChatGPT 的支持,并包含两个关键评估指标:(1)通过率,用于衡量在有限预算内成功执行指令的能力,以及(2)胜率,用于比较两条解路径的质量和有用性。本文证明 ToolEval 与人类评估有很高的相关性,并为工具学习提供了一个强大、可扩展且可靠的评估方式。

如表 2 所示,在不同类型的指令中,研究团队的 API 检索器始终优于 BM25 和 Ada Embedding。较高的 NDCG 得分表明其在 API 检索方面的有效性。此外,I1 的 NDCG 分数远高于 I2 和 I3,这意味着单工具指令在 API 检索方面比多工具指令相对简单。

从表 3 可以看出,DFSDT 在所有情况下的性能都明显优于其余两种基线方法,这表明 DFSDT 是一种更有效的方法,可以节省解路径标注的成本。并且与较简单的指令(I1)相比,DFSDT 对较难指令(即 I2 和 I3)的性能提升更为明显。这说明,除了效率之外,DFSDT 还能解决那些困难、复杂的指令,而这些指令是普通 ReACT 无论执行多少次都无法回答的。将此类 「困难示例 」纳入数据集,可以充分激发工具在这些复杂情况下的使用能力。

从表 4 中可以发现:

  • ToolLLaMA 在通过率和获胜率方面都明显优于传统的工具使用方法 ChatGPT-ReACT,并表现出卓越的泛化能力。此外,当 ToolLLaMA 与 DFSDT 结合使用时,其表现也优于 Text-Dainci-003。
  • 虽然研究团队对 prompt 工程进行了广泛研究,但 Vicuna 和 Alpaca 都未能通过任何指令,这意味着它们的指令遵循能力并未扩展到工具使用场景。这凸显了当前主要侧重于提高语言技能的指令调优方法的不足。

总体而言,ToolLLaMA 在所有场景中都表现出了竞争力,其通过率略低于 ChatGPT+DFSDT。在获胜率方面,ToolLLaMA 与 ChatGPT+DFSDT 的能力基本相当,在 I2-Cat 设置中甚至超过了后者。

总之,这些结果表明,ToolBench 可以充分激发 LLM 的工具使用能力,使他们能够熟练掌握各种指令的未知 API。

在实验研究团队对 LLaMA 的所有参数进行了微调,得到了 ToolLLaMA。为了提高参数效率,他们进一步应用了具有代表性的参数效率调整方法 LoRA,并研究了其对性能的影响。下表 5 中的结果表明,参数效率的提高是在性能权衡的基础上实现的。他们期待未来的尝试能设计出不牺牲性能的前提下实现参数效率的方法。

更多详细内容,请参阅原文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中东谁也打不过的以色列,在东亚算什么水平?韩国:谁也打不过

中东谁也打不过的以色列,在东亚算什么水平?韩国:谁也打不过

比利
2025-11-29 18:49:51
第21轮反击启动!美军航母被炸?伊朗已经意识到:特朗普到底怕谁

第21轮反击启动!美军航母被炸?伊朗已经意识到:特朗普到底怕谁

丁丁鲤史纪
2026-03-06 15:05:54
当韩国人知道韩国很小中国很大后,是完全颠覆他们认知的!

当韩国人知道韩国很小中国很大后,是完全颠覆他们认知的!

夜深爱杂谈
2026-02-25 21:23:43
重要信息只说了60%?比亚迪闪充的杀伤力,这次比华为大

重要信息只说了60%?比亚迪闪充的杀伤力,这次比华为大

路咖汽车
2026-03-06 10:15:12
世界现役最大军舰,确认被击毁!

世界现役最大军舰,确认被击毁!

航空知识
2026-03-04 19:09:03
平均收缴率71%、连续四年下滑,物业费越来越难收 业内:行业全面进入下半场

平均收缴率71%、连续四年下滑,物业费越来越难收 业内:行业全面进入下半场

每日经济新闻
2026-03-04 22:33:21
56岁大妈心梗离世,医生:吃他汀时除了牛奶,这6种食物尽量少碰

56岁大妈心梗离世,医生:吃他汀时除了牛奶,这6种食物尽量少碰

岐黄传人孙大夫
2026-02-28 22:15:03
哈登坏消息!大当家明天复出:NBA争冠平衡被打破!

哈登坏消息!大当家明天复出:NBA争冠平衡被打破!

运筹帷幄的篮球
2026-03-06 10:23:06
全线下跌!黄金、白银直线跳水!美股突变!美军,被曝大消息!

全线下跌!黄金、白银直线跳水!美股突变!美军,被曝大消息!

证券时报e公司
2026-03-05 23:12:55
掘金战胜湖人的庆功宴,詹姆斯不到场,约基奇也不敢动筷子

掘金战胜湖人的庆功宴,詹姆斯不到场,约基奇也不敢动筷子

姜大叔侃球
2026-03-06 14:51:28
男子称在上海一银行门口被三名彪形大汉挟持上车,抢走20万元!

男子称在上海一银行门口被三名彪形大汉挟持上车,抢走20万元!

深圳晚报
2026-03-06 14:44:52
你身边有把一手好牌打的稀烂的人吗?网友:都是上辈子欠人家的

你身边有把一手好牌打的稀烂的人吗?网友:都是上辈子欠人家的

带你感受人间冷暖
2026-01-21 00:15:05
交易后场均19+6!打成联盟最强第六人,卡莱尔:快船又多一个小卡

交易后场均19+6!打成联盟最强第六人,卡莱尔:快船又多一个小卡

你的篮球频道
2026-03-06 11:42:55
四川“一分钟家丑”事件冲上热搜:毁掉一个家庭的不是外遇,不是贫穷,而是……

四川“一分钟家丑”事件冲上热搜:毁掉一个家庭的不是外遇,不是贫穷,而是……

脆皮先生
2026-03-05 19:49:10
人大代表张雨霏参加两会,穿咖色正装长发披肩,眼神坚毅太美了!

人大代表张雨霏参加两会,穿咖色正装长发披肩,眼神坚毅太美了!

阿废冷眼观察所
2026-03-06 13:58:21
勇士爆冷赢火箭!申京大卧底,KD绝望,谢泼德30分,诞生6个现实

勇士爆冷赢火箭!申京大卧底,KD绝望,谢泼德30分,诞生6个现实

毒舌NBA
2026-03-06 11:31:09
痛惜!曝滑稽表演艺术家方丽英去世,享年100岁,2天后举行告别会

痛惜!曝滑稽表演艺术家方丽英去世,享年100岁,2天后举行告别会

小徐讲八卦
2026-03-06 12:21:51
75岁的李宗仁爱上27岁的护士,周总理说:要是喜欢,就要明媒正娶

75岁的李宗仁爱上27岁的护士,周总理说:要是喜欢,就要明媒正娶

元哥说历史
2026-02-09 08:40:08
“小姑子坐月子花3万”自信婆婆来报销,被儿媳甩脸上一张离婚证

“小姑子坐月子花3万”自信婆婆来报销,被儿媳甩脸上一张离婚证

秀秀情感课堂
2026-03-05 17:10:08
再有钱又怎样?印度首富小儿子300斤生娃难,两代人全靠高科技生

再有钱又怎样?印度首富小儿子300斤生娃难,两代人全靠高科技生

毒舌小红帽
2025-12-16 19:06:34
2026-03-06 15:40:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12427文章数 142578关注度
往期回顾 全部

科技要闻

独家|除夕加班、毫无黑料!林俊旸无奈离场

头条要闻

国家发改委主任:预计今年GDP增量超6万亿元

头条要闻

国家发改委主任:预计今年GDP增量超6万亿元

体育要闻

跑了24年,他终于成为英超“最长的河”

娱乐要闻

周杰伦社交媒体晒昆凌,夫妻感情稳定

财经要闻

经济主题记者会 潘功胜吴清等出席演讲

汽车要闻

710km长续航+闪充 宋Ultra EV预售15.5万起

态度原创

艺术
游戏
房产
本地
公开课

艺术要闻

敦煌壁画里的“动物世界”,温馨有爱!

魔兽第一关系户!部落大酋长是他二姨,联盟摄政王是他爹

房产要闻

传统学区房熄火?2月海口二手房爆火的板块竟然是…

本地新闻

食味印象|一口入魂!康乐烤肉串起千年丝路香

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版