登顶开源SOTA!上交大&小红书LoopTool实现工具调用任务的数据进化|算法|知名企业|深度思考按钮

分享至

机器之心发布

机器之心编辑部

在过去两年，大语言模型 (LLM) + 外部工具的能力，已成为推动 AI 从 “会说” 走向 “会做” 的关键机制 —— 尤其在 API 调用、多轮任务规划、知识检索、代码执行等场景中，大模型要想精准调用工具，不仅要求模型本身具备推理能力，还需要借助海量高质量、针对性强的函数调用训练数据。

然而，现有数据生成与训练流程多数是 “静态” 的—— 数据在训练前一次性生成，无法感知到模型能力的改变。模型在微调或强化学习过程中也无法为数据生成提供正向反馈。这不仅可能导致模型对已掌握的简单任务重复学习、浪费算力，同时留下一些难点样本长期缺乏优化；此外，很多现有流程依赖昂贵的闭源 API 生成与评估数据，开源替代往往带入大量噪声标签，降低训练效果。

为解决这一系列问题，上海交通大学与小红书团队提出了LoopTool：一个自动的（autonomous）、模型感知（model-aware）、迭代式（iterative）的数据进化框架，首次实现了工具调用任务的数据–模型闭环优化。团队仅依靠开源模型Qwen3-32B作为数据生成器与判别器，在无闭源 API 依赖的情况下，让一个 8B 规模的 LoopTool 模型在工具调用表现上显著超越其 32B 数据生成器，并在BFCL-v3ACEBench公开榜单上取得同规模模型的最佳成绩。与此同时，训练后的LoopTool-32B模型也在这两个榜单上登顶，达到了目前开源模型的最佳成绩，进一步验证了闭环迭代优化在不同模型规模上的通用性与有效性。

论文地址：https://arxiv.org/pdf/2511.09148
代码地址：https://github.com/Rednote-DeepExperience/LoopTool

背景：工具调用的瓶颈

论文指出，工具增强型 LLM 已经在多领域证明了其巨大价值，例如：API 调用，知识库查询、搜索引擎交互，面向代码和多模态的任务执行，复杂知识问答与数学问题。但要让模型稳健地使用工具则应持续提供与其当前水平匹配，高质量且多样化的训练数据。目前主流方法（如 ToolLLM、APIGen 系列）采用 “先生成全量数据，再训练模型” 的静态流程，缺乏对模型学习状态与短板的实时反馈，且现阶段对模型工具调用能力的学习也多采用监督式微调的方法，使模型难以泛化到更多的工具类别上。

进一步地如果使用闭源生成 / 评估模型（如 GPT 系列），API 成本高且难以大规模迭代；改用开源模型则往往引入标签错误（参数不全、函数调用不符合任务要求等），会造成训练信号噪声累积甚至误导。

方法：LoopTool 的闭环数据进化

LoopTool 的核心思想是：让数据生成、标签修正与模型训练形成一个自动化的闭环，并由模型性能反馈驱动下一轮数据优化。它包括种子数据构建迭代优化闭环两大阶段，后者又细分为四个核心模块。

自动化工具增强数据构建（Seed Generation）

在迭代开始前，需要构建一个高质量、多样化的种子数据集。研究团队同时收集开源的各领域的 API 文献，同时也设计了两个分层树结构来辅助合成部分 API。合成过程基于语义树 (Context Tree)约束树 (Constraint Tree)，语义树描述领域主题与细化功能层级；约束树给出 API 结构限制，如命名规则、参数类型数量、返回格式等，通过在每棵树中独立抽取路径并合并，生成符合功能意图和结构规范的 API 定义，辅以规则验证确保生成 API 的一致性与语义完整性。

随后，这些 API 被置入多智能体工具调用对话生成 (Multi-Agent Tool-Use Dialogue Simulation)流程线中。Planner Agent基于抽样的工具子集规划整体任务流程与对话轮次；User Agent根据规划在每一轮中发起请求、澄清条件、补充参数；Assistant Agent结合当前上下文选择合适的工具，准备并执行具体的工具调用；Tool Agent依据 API 规范模拟执行结果或者通过真实工具后端返回有效响应。所有生成的对话经规则验证（API 语法、参数类型、schema 匹配）以及LLM 验证（Qwen3-32B 判断逻辑一致性与语境相关性）两阶段筛选，确保了首轮训练的种子集数据的质量和多样性。

基于闭环迭代的模型训练与数据演化

1. GRPO 强化学习训练 (GRPO Training for Tool Calling)

2. 贪婪能力探测 (Greedy Capability Probing, GCP)

3. 判别引导标签校验 (Judgement-Guided Label Verification, JGLV)

对于预测和标签不匹配的样本，使用开源模型Qwen3-32B作为评判者，比较模型预测与原标签孰优孰劣，分类为：（1）PRED_WRONG：模型预测错；（2）LABEL_WRONG：标签错，用模型预测替换标签；（3）BOTH_CORRECT：标签与预测均对，择高 PPL 保留；（4）BOTH_WRONG：全部丢弃。

不同于直接让 LLM 生成新标签，JGLV 以比较判别模式运行，减少生成噪声的风险，并随着模型水平的迭代提升，逐渐用更优预测反向优化训练集。

4. 错误驱动数据扩展 (Error-Driven Data Expansion, EDDE)

针对通过 JGLV 验证的错误种子样本，EDDE 模块进行结构保持与情境多样化生成，具体而言分析原始错误案例的结构模式与潜在误区，构造出保持任务难度但在情境和参数上经过多样化改造的新样本，这些合成数据经过与种子阶段相同的双重验证后，被并入下一轮训练集。

闭环迭代更新

新一轮训练的数据集因此由四部分组成：高困惑度样本、经过判别修正的错误种子样本、错误驱动生成的新数据以及原始种子集中未使用的子样本。这样的设计保证每一轮训练都在最新的模型能力诊断结果与高价值样本的驱动下进行，形成训练–测评–修正–扩展的完整闭环，不断推动模型将 “薄弱环节” 转化为新能力点。

实验结果

实验设置

研究团队选用了开源的 Qwen3-8B 模型以及 Qwen3-32B 模型作为迭代训练的基础模型，对于 8B 模型进行了 4 次迭代训练，对于 32B 模型进行了单次的迭代训练。为了系统性评测模型在工具调用方面的能力，选用了 BFCL-v3 和 ACEBench 作为主要的评测框架，同时也测试了训练后模型在编程，数学等问题上的通用能力以及在下游应用任务下的能力。

总体性能对比

BFCL-v3涵盖了单轮、多轮调用场景，对模型的工具调用能力进行多维评估。在该榜单上，LoopTool-8B总体准确率达到 74.93%，在所有 8B 规模开源模型中排名第一，较原始Qwen3-8B提升了 +8.59 个百分点，单轮调用准确率和 Live 执行准确率均为最高。更具代表性的是，该模型在总体性能上超越了用作数据生成与评判的 Qwen3-32BLoopTool-32B则在榜单上以 79.32% 的总体准确率位列第一，在单轮调用上达到最优成绩，且多轮场景表现也优异。

ACEBench细分为 Normal, Sepcial, Agent 三类场景。评测结果显示，LoopTool-8B以 73.4% 总体分数夺得同规模第一，比原始Qwen3-8B高出 6.3 分，在多类评测中均保持相对均衡优势。LoopTool-32B达到了开源模型榜单中的第一，仅次于 GPT-4o 模型的表现。

迭代训练对比分析：持续挖掘弱点，避免停滞

为了进一步对比 LoopTool 迭代优化和静态训练的差别，研究团队设置了对照实验，对比 LoopTool-8B 与静态数据训练的结果。结果显示，在 BFCL-v3 中，LoopTool 的性能随迭代逐步提升，从初始模型到第 4 轮迭代持续增长，而静态训练在第二轮后即出现平稳，甚至因数据分布与模型能力越来越不匹配而下滑。

消融实验解析

为了评估 LoopTool 每个核心模块的贡献，论文在 BFCL-v3 基准上进行了多组消融对比，分别针对高困惑度样本筛选 (High-PPL)判决引导标签校正 (JGLV)、以及错误驱动数据扩展 (EDDE)模块。

高困惑度样本的重要性：移除高 PPL 样本 (w/o High-PPL) 会导致整体精度显著下降，尤其是多轮任务 (Multi-Turn)。即使用高 PPL 样本替代 EDDE 样本 (HighPPL-Replace) 也能维持接近完整配置的效果，验证了高 PPL 案例 —— 即模型低置信度、接近决策边界的样本 —— 在推动能力提升方面的重要作用。
标签校正的必要性：跳过 JGLV 校正 (w/o JGLV) 会显著降低精度，噪声或错误标签不仅无法被纠正，还会在被 EDDE 扩展成新样本后进一步污染训练数据，造成性能劣化。
错误驱动扩展的有效性：移除 EDDE (Remove EDDE) 同样导致准确率下滑。进一步测试发现，仅重复原始错误种子无法让模型有效掌握这类难点，而 EDDE 生成的结构相似但具备情境多样性的挑战样本，则能显著提升模型在这些 “困难样本” 上的表现。

模型规模扩展研究

作者还测试了 LoopTool 在不同规模模型上的表现，范围涵盖 0.6B 到 8B 参数量，并在 BFCL-v3 上进行两轮迭代训练。

结果清晰显示：模型规模越大，初始迭代 (Iteration 1) 和优化迭代 (Iteration 2) 阶段的准确率都更高。大模型在迭代中获得的绝对性能提升也更明显 —— 0.6B 模型仅提升 +0.70 个百分点，而 8B 模型则提升了 +1.80 个百分点。这种趋势源于GRPO 强化学习依赖模型在探索中识别正确工具调用轨迹的能力。更大规模的模型往往能更早发现有效解法，从而更大化迭代式数据精炼的优势。

通用能力和下游任务：不仅是工具调用的高手

为了确保闭环优化不会让模型在非工具领域上的性能退化，作者在六个不同通用任务上测试并比较了LoopTool 模型与原始模型：包括 MMLU-redux（综合常识）、IFEval（指令跟随）、LiveCodeBench（代码生成）、Math-500、AIME24、AIME25（数学竞赛题）。结果表明，LoopTool-8B 在全部任务上匹配或超越原模型，尤其在指令跟随 (+1.40) 与代码生成 (+3.84) 上提升显著，说明闭环数据演化不仅增强了工具调用，还提升了泛化推理与复杂任务处理能力。LoopTool-32B 则在数学任务上超越原始模型，在其他任务上与原始模型持平。

进一步地，团队借助了 DeepAgent 框架来评测模型在下游工具使用场景下解决现实问题的能力，包括以下评测基准:

API-Bank: 评估 LLM 在规划、检索和调用 API 方面的能力。涉及 73 个 API 工具，领域涉及账号管理、健康管理、智能家居、日程管理、金融管理等。
Spotify: RestBench 的一个子场景模拟了 Spotify 音乐播放器，包含 57 个问题和 40 个本地工具，平均需要 2.6 次连续 API 调用才能完成任务。
GAIA: 针对通用人工智能助手的复杂基准测试。要求 LLM 灵活运用广泛的通用工具集，包括网页浏览、代码执行、多模态处理和文件处理。

评测结果表明，LoopTool 工具使用能力的提升，有效地增强了对实际问题的解决能力。

结语

LoopTool 呈现了一个完全自动化、模型感知的闭环管道，将数据合成、标签校正以及基于 GRPO 的模型训练紧密结合，形成迭代优化循环，用于增强大型语言模型的工具使用能力。整个过程完全依赖开源模型完成数据生成与评估，不仅降低了成本，还确保了数据的高质量与多样性。在多轮迭代中，LoopTool 不断针对模型的薄弱点合成更具挑战性的样本，同时校正噪声标签，让训练数据随着模型能力的提升而动态进化。经过 LoopTool 迭代训练的 8B 与 32B 模型在公开的测评榜单中达到了新的 SOTA 成绩。LoopTool 不仅证明了模型闭环进化的有效性，也验证了开源框架在无依赖闭源 API 的条件下仍能达到乃至超越更大规模模型的表现。

相关招聘岗位信息

【团队介绍】

小红书中台算法组致力于打造业界领先的 AI 创新应用。团队专注文本和多模态的后训练及强化学习技术，深入探索类人交互、情感陪伴、智能体系统等前沿应用领域，持续推动 AI 与人文社会深度融合，构建长远用户价值。团队成员在 ICLR/ICML/CVPR/ACL 等顶会发表论文 60 + 篇，依托丰富的计算资源和良好的人文氛围，面向在校优秀硕博生提供日常和 ACE 实习机会，并开放校招与社招全职岗位。

【岗位】

大模型应用算法专家
ACE 顶尖实习生
大模型算法实习生

【任职资格】

自然语言处理、人工智能等专业的硕士或博士生；
代码能力突出，同时具备 DeepSpeed/Megatron 等分布式训练框架、vLLM/SGLang 等高性能推理框架的实际使用经验；
具备良好的责任心、自驱力和技术前瞻性，擅长产研协作，能主动攻坚技术难点，通过算法迭代推动业务增长；
（加分项）有顶会或开源项目落地经验优先。

简历投递至：luyuan2@xiaohongshu.com, daituoni@xiaohongshu.com

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.