网易首页 > 网易号 > 正文 申请入驻

ICLR2025|从探索到掌握:使大模型通过自我驱动的交互掌握工具

0
分享至

工具学习将大模型与外部工具相结合,显著增强了大模型解决复杂任务的能力。通过利用外部工具,大模型克服过时的预训练数据的限制,使我们能够访问最新信息,与动态环境交互,并采取超出其能力范围的行动。工具文档作为关键信息,为大模型提供工具功能及其应用的信息,帮助大模型更高效地使用工具,成为连接大模型与外部工具的桥梁。

然而,现有工具主要是人工设计出来为人类服务的,并不是明确针对大模型的使用进行定制,工具文档也并不符合大模型的理解。实际上专门为大模型编写符合其特定要求的工具文档是一项具有挑战性的工作。

首先,原始的人工编写的工具文档通常是根据人类直觉创建的,存在不完整、冗余、不准确等问题,因为它主要为了迎合人类的理解并且通常缺乏语言模型理解所需的精度,阻碍了大模型有效使用工具。

其次,人工修改这些文档,很难完全涵盖工具使用的所有方面,因为辨别工具可以解决的问题和参数范围通常需要大量的实践经验。通过手动完善来解决这些问题既耗时又费力且无法有效地扩展到大量工具。

此外,工具开发的动态特性进一步加剧了这个问题,因为工具的功能经常更新、弃用或扩展。在工具文档中维护此类不断发展的功能的最新且准确的表示成为一项艰巨的任务。

而中国人民大学高瓴人工智能学院研究团队所提出的方法,通过大模型自我驱动的工具交互来完善工具文档,不需要人工参与,因此可以扩展到大规模的工具文档编写更新中,批量构建符合大模型特定要求的工具文档。

相关论文《从探索到掌握:使大模型通过自我驱动的交互掌握工具》(From Exploration to Mastery: Enabling LLMs to Master Tools via Self-Driven Interactions)已经被ICLR 2025接收 [1]。

研究团队表示,人类通过重复的交互和实践经验来熟练地使用工具,尽管这些工具的功能不断发展,但仍能够保持对这些工具的最新理解。借鉴人类掌握工具的方式,他和所在团队在一篇论文中提出了一种新颖的框架DRAFT。其能根据大模型与工具交互的结果和反馈,自动调整和优化工具文档,旨在构建符合大模型理解的工具文档。

更具体地说,DRAFT 实现了一种迭代试错方法逐步改进工具文档。DRAFT 协调了三个动态关联的阶段:经验收集、从经验中学习和工具文档重写,这三个阶段共同促进了工具文档的迭代改进过程。

首先,在经验收集阶段,通过设计的探索器模拟潜在的工具应用场景,创建探索实例并实际使用工具以收集工具使用经验。这种方法类似于人类在无法理解说明书时探索新工具的使用方式。考虑到工具的使用通常涉及复杂的参数范围、组合和潜在的错误类型,确保探索阶段的多样性以涵盖广泛的可能场景至关重要。因此他们设计了一种促进多样性的探索策略:包括相似度约束和自我反思。在探索新实例时如果和已探索过的实例相似度高于阈值,探索器将进行自我反思分析相似度高的原因并探索该工具的不同方面。

接着,分析器将结合探索器的发现和使用反馈,从这些经验中学习,对现有文档进行分析,判断工具文档是否全面、简洁、不包含无关信息以及文档描述是否和工具返回结果相一致,从而为修改器提出文档修改建议。

最后,修改器在汇集前两个阶段的经验和修改建议的基础上,专注于优化工具文档,以提高其清晰度、准确性和可用性,确保其符合大模型的理解能力。同时该阶段还为下一轮的经验收集阶段提供未来探索方向的建议。此外,鉴于不同工具在复杂性和大模型的理解难度上存在差异,他们引入了一种工具自适应终止机制,以自适应地决定何时停止对每个工具的修改。类似于不同的菜谱需要不同的专业水平,有些工具文档优化速度可能会快于其他工具。当连续两版文档之间的改动很小,表明重写器已充分使文档与大模型的理解相符时,他们认为迭代过程已收敛。通过这种自适应停止机制,可以节省计算资源和时间其次可以防止不必要的修改带来的过度拟合,通过同时使用BLEU分数和语义相似度,确保了同时对结构和语义进行评估,最终生成为大模型定制的高质量文档。

研究团队在RestBench和ToolBench这两个广泛使用的工具学习Benchmark上对DRAFT进行了实验。实验结果表明所有大模型在使用DRAFT修改过后的工具文档时均能更好的利用工具,表现出强大的跨模型泛化能力。同时在ToolBench数据集上,使用DRAFT增强的GPT-4o-mini的性能甚至超过了不使用DRAFT的GPT-4o,这些结果都证明了DRAFT的有效性。

同时,由于现实世界中通常包含大量的工具,无法将所有工具都提供给大模型,需要先经过工具检索从大量工具中筛选出有助于解决用户当前问题的工具,该团队此前提出过一种有效的工具检索策略,极大提高了工具检索的有效性[2],该团队还发现了修改过后的工具文档不仅能帮助大模型使用工具,还能提高工具检索的性能。

此外,通过人工评估的方式还验证了修改后的工具文档不仅有利于大模型的理解,也能有助于人类对工具文档的理解。再次验证了方法的有效性。

该团队还编写过一篇关于工具学习的全面综述论文,详细介绍了将大模型和外部工具相结合的好处以及如何增强大模型的工具使用能力,对大模型工具学习感兴趣的读者可以通过该综述了解更多信息[3]。

[1]https://arxiv.org/abs/2410.08197

[2]https://dl.acm.org/doi/abs/10.1145/3627673.3679847

[3]https://arxiv.org/abs/2405.17935

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
两性关系:不论多大年龄,女人永远都想要这三大需求,男人该知道

两性关系:不论多大年龄,女人永远都想要这三大需求,男人该知道

皓皓情感说
2026-04-19 10:30:07
金靖回应瘦到认不出:我只能说梦想成真了

金靖回应瘦到认不出:我只能说梦想成真了

韩小娱
2026-05-01 17:24:35
女子啃老10年,自尽后老母亲收拾房间发现银行卡,查看余额后崩溃

女子啃老10年,自尽后老母亲收拾房间发现银行卡,查看余额后崩溃

白云故事
2025-03-17 07:55:10
王钰栋进球后浙江副总喜极而泣,米特里策上前拍肩安慰

王钰栋进球后浙江副总喜极而泣,米特里策上前拍肩安慰

懂球帝
2026-05-03 12:53:07
日本黄金周里的“静默”消费

日本黄金周里的“静默”消费

东京在线
2026-05-03 13:22:45
两性关系:男人不管手里多有钱,都别在情人面前显摆这2样东西!

两性关系:男人不管手里多有钱,都别在情人面前显摆这2样东西!

呆子的故事
2026-01-16 15:25:59
伊朗终于等到这一天,中国在联合国安理会身份变了,停战就看5月

伊朗终于等到这一天,中国在联合国安理会身份变了,停战就看5月

焦点集结号
2026-05-03 12:37:32
潘石屹再次预判我国楼市!不出意外,未来3年,楼市或迎来3大走向

潘石屹再次预判我国楼市!不出意外,未来3年,楼市或迎来3大走向

巢客HOME
2026-05-03 05:05:03
64岁大爷和37岁寡妇搭伙,寡妇啥都不要,新婚当晚却提了一个要求

64岁大爷和37岁寡妇搭伙,寡妇啥都不要,新婚当晚却提了一个要求

如烟若梦
2026-05-03 19:20:03
日本高层抵华后傻眼,中国未安排要员接见!高市早苗亲自去搬救兵

日本高层抵华后傻眼,中国未安排要员接见!高市早苗亲自去搬救兵

介知
2026-05-03 12:24:22
西甲冠军下一轮揭晓?巴萨国家德比不败即可提前夺冠

西甲冠军下一轮揭晓?巴萨国家德比不败即可提前夺冠

懂球帝
2026-05-04 04:59:44
我的命,自己救!从中年“一身病”到74岁无“三高”,他坚持了这3件事

我的命,自己救!从中年“一身病”到74岁无“三高”,他坚持了这3件事

人民日报健康客户端
2026-04-27 20:51:18
有趣的医学案例:直肠射精!

有趣的医学案例:直肠射精!

黯泉
2026-04-07 21:58:25
卧槽!再见奇才,浓眉或将被交易,一场都没打啊....

卧槽!再见奇才,浓眉或将被交易,一场都没打啊....

体育新角度
2026-05-03 20:21:14
5月8日,国内成品油价格将调整

5月8日,国内成品油价格将调整

海峡网
2026-05-02 10:18:06
石明离职后首播,和董宇辉同在老家,人气是老东家东方甄选的40倍

石明离职后首播,和董宇辉同在老家,人气是老东家东方甄选的40倍

小娱乐悠悠
2026-05-03 12:34:20
亚洲最穷国,落后中国30年,女性却惊人开放,很多土豪都想去定居

亚洲最穷国,落后中国30年,女性却惊人开放,很多土豪都想去定居

手里有读
2026-05-01 08:48:47
申花锋霸康复时间表曝光!盖伊伤后首发声,能否成下一个范佩西?

申花锋霸康复时间表曝光!盖伊伤后首发声,能否成下一个范佩西?

体坛鉴春秋
2026-05-03 14:30:07
马龙夏露出发伦敦,马龙脚步匆匆走在前面,夏露短发看着很普通

马龙夏露出发伦敦,马龙脚步匆匆走在前面,夏露短发看着很普通

科学发掘
2026-05-03 16:40:30
宣称要投资15亿美元的“开市客北京”,已申请注销公司,其公众号已经注销了

宣称要投资15亿美元的“开市客北京”,已申请注销公司,其公众号已经注销了

中国零售信息
2026-05-03 23:34:46
2026-05-04 05:27:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16656文章数 514913关注度
往期回顾 全部

科技要闻

库克罕见"拒答"!苹果正被AI供应链卡脖子

头条要闻

妻子给陌生人发儿子照片 丈夫亲子鉴定三个娃两个非亲生

头条要闻

妻子给陌生人发儿子照片 丈夫亲子鉴定三个娃两个非亲生

体育要闻

曼联3-2双杀利物浦!提前三轮锁定欧冠资格 梅努制胜

娱乐要闻

黄晓明五一带娃去游乐场 父子幸福同框

财经要闻

后巴菲特时代,首场股东会透露了啥

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

手机
艺术
游戏
公开课
军事航空

手机要闻

华为多款新机销售表现曝光,畅享90 Pro Max激活百万台

艺术要闻

看!比利时画家图森特如何用油画定义女性优雅!

扶我起来 《马拉松》未来多年将持续更新剧情

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗公布伊方最新谈判方案

无障碍浏览 进入关怀版