Salesforce团队ProgSearch：数据合成新方法提升AI助手智能|调用|轨迹|实验|复杂性|progsearch

Salesforce团队ProgSearch：数据合成新方法提升AI助手智能

2025-11-28 21:46:56　来源: 科技行者

北京举报

分享至

在人工智能快速发展的今天，我们经常听说各种智能助手能够在网上搜索信息、回答复杂问题。但你是否想过，这些AI助手是如何学会处理那些需要多步骤推理、涉及复杂信息搜索的问题的？最近，Salesforce AI Research团队的研究人员Shrey Pandit、Xuan-Phi Nguyen、Yifei Ming等人发表了一项重要研究，提出了一种名为"ProgSearch"的创新数据合成方法。这项研究于2025年1月发表在arXiv预印本平台上，论文编号为arXiv:2510.13913v1，为训练更强大的网络AI助手提供了新的解决方案。

当前的AI助手在处理简单问题时表现不错，但遇到需要长期规划和多步骤推理的复杂任务时，往往力不从心。这就像让一个只会做简单算术的学生去解复杂的数学应用题一样困难。现有的训练数据生成方法虽然能创造大量问答对，但往往缺乏对难度的精确控制，就像随意出题而不考虑学生的实际水平一样。

为了解决这个问题，Salesforce团队开发了一套"渐进式难度增强"的数据合成系统。这套系统的巧妙之处在于，它像一位经验丰富的老师一样，能够根据学生（AI助手）的实际能力，逐步增加题目难度，直到学生开始犯错为止。这样生成的训练数据恰好处在AI助手能力的边界上，最能有效提升其性能。

研究团队采用了两种互补的方法来生成训练数据。第一种被称为"自上而下"的方法，就像构建一棵知识树一样。他们从一个核心实体开始，比如"斯坦福大学"，然后逐步搜集相关事实，形成一个树状的知识结构。每当添加新的知识分支时，系统就会生成一个更复杂的问题。这个过程持续进行，直到生成的问题难到连基准AI助手都无法正确回答为止。

第二种"自下而上"的方法则采用了不同的策略。这种方法首先选择一个相对罕见的实体作为答案，然后通过反复修改问题来增加难度。这就像设计一个猜谜游戏，答案是固定的，但线索变得越来越模糊和复杂，直到连最聪明的玩家也猜不出来。

整个数据合成过程中，基准AI助手扮演着多重角色。它既是学生（尝试回答问题），又是老师（生成问题），还是研究员（搜集事实信息）和评判员（验证答案的正确性）。这种多角色设计确保了生成数据的质量和一致性。

为了保证数据质量，研究团队还设计了严格的过滤机制。每个生成的问答对都必须满足多项标准：问题必须寻求单一、具体的答案；问题必须自然可读，涵盖多样化的话题；问题应该具有足够的复杂性，需要多跳推理或时间推理；答案不能从问题本身或常识中直接推导出来。

更重要的是，系统还会检查是否存在其他合理的答案。当AI助手给出与标准答案不同的回答时，系统会分析这个替代答案是否同样合理。如果是，那么这个问答对就会被丢弃，因为存在歧义的问题不适合用作训练数据。

经过这套完整的合成和过滤流程，研究团队最终获得了约12000个高质量的问答对，经过进一步的轨迹采样后，可用于训练的数据减少到约6000个样本。虽然数量上比其他数据集要少，但质量显著更高。

为了验证ProgSearch方法的有效性，研究团队进行了严格的对比实验。他们将自己的数据集与现有的两个主要数据集Taskcraft和Asearcher进行了比较。实验采用了相同的训练方法——使用强大的GPT-OSS模型生成训练轨迹，然后用这些轨迹训练较小的模型如Qwen3-8B和Qwen2.5-7B。

实验结果令人印象深刻。在多个网络问答基准测试中，使用ProgSearch数据训练的模型都表现出显著的性能提升。具体来说，在FRAMES基准测试中，Qwen3-8B模型的准确率提升了16%，GAIA测试中提升了11%，在其他测试中也都有不同程度的改善。对于Qwen2.5-7B模型，改善幅度甚至更大，在某些测试中提升超过20%。

更有趣的是，通过分析训练数据的特征，研究团队发现ProgSearch生成的轨迹平均包含20个工具调用，是其他数据集的2到4倍。这意味着AI助手需要进行更多步骤的推理和搜索才能得到答案，体现了问题的复杂性。

研究团队还发现，使用ProgSearch训练的模型在工具使用上更加高效。虽然训练数据中包含更多的工具调用，但训练后的模型并没有产生过度的工具调用行为。相反，它们学会了更有效地使用工具，在保持或略微增加工具使用量的同时，显著提升了问题解决的准确性。

从数据分布来看，ProgSearch生成的问题覆盖了更广泛的主题领域。虽然历史类问题稍多一些（可能因为此类问题相对容易回答），但整体分布比其他数据集更加均衡。这种多样性有助于训练出更全面的AI助手。

研究团队展示的一些问题例子充分体现了ProgSearch的复杂性。比如有一个问题涉及从考古发现到地质特征，再到水利工程的多层次信息链接，最终询问一个特定的保护区名称。这样的问题需要AI助手进行深入的网络搜索和复杂的信息整合，远远超出了简单问答的范畴。

为了确保实验的公正性，研究团队还实施了严格的防污染措施。由于评估用的基准测试题目在网上公开，AI助手可能会直接找到答案而不进行推理。因此，他们封锁了某些可能包含答案的网站，确保AI助手必须通过真正的推理和搜索来解决问题。

这项研究的意义不仅在于提出了一个新的数据合成方法，更重要的是验证了"质量胜过数量"的理念。在AI训练数据普遍追求大规模的今天，ProgSearch证明了精心设计的小规模高质量数据可以比大规模低质量数据产生更好的效果。

ProgSearch方法的成功也为AI训练领域提供了新的思路。传统的数据合成方法往往忽视了目标模型的实际能力，生成的数据要么太简单（对提升性能无益），要么太复杂（超出模型能力范围）。而ProgSearch通过引入渐进式难度增强机制，能够精确地找到模型能力的边界，生成最有效的训练数据。

研究团队计划在获得机构审批后开源这个数据集，这将为整个AI研究社区带来宝贵的资源。这种开放的态度体现了科学研究的合作精神，也将推动整个领域的发展。

从更广泛的角度来看，这项研究反映了AI发展中的一个重要趋势：从追求模型规模转向优化训练质量。随着大型语言模型变得越来越强大，如何有效地训练它们处理复杂任务成为了关键问题。ProgSearch提供的解决方案不仅适用于网络问答任务，其核心思想也可能适用于其他需要复杂推理的AI应用。

当然，这项研究也有其局限性。ProgSearch方法依赖于一个强大的基准AI助手来生成和评估数据，这增加了实施的复杂性和成本。此外，虽然该方法在所测试的基准上表现出色，但其在其他类型任务上的表现还需要进一步验证。

展望未来，ProgSearch的成功可能会启发更多关于智能数据合成的研究。我们可能会看到更多结合了难度控制、质量保证和多样性要求的数据生成方法。这些方法将帮助我们训练出更强大、更可靠的AI助手，最终更好地服务于人类的各种需求。

说到底，ProgSearch的核心贡献在于提供了一种系统性的方法来生成高质量的AI训练数据。通过精确控制难度并确保数据质量，这种方法能够更有效地提升AI助手处理复杂任务的能力。虽然数据量相对较小，但质量的提升带来了显著的性能改善，这为AI训练领域提供了宝贵的启示。对于那些希望深入了解这项研究的读者，可以通过论文编号arXiv:2510.13913v1在相关学术平台上查找完整论文。

Q&A

Q1：ProgSearch和传统的AI训练数据生成方法有什么不同？

A：ProgSearch最大的不同在于引入了"渐进式难度增强"机制。传统方法往往随意生成问答对，难度控制不精确。而ProgSearch会根据AI助手的实际能力逐步增加问题难度，直到AI开始犯错为止，这样生成的数据恰好处在AI能力边界上，训练效果最佳。

Q2：为什么ProgSearch数据量更小但效果更好？

A：这体现了"质量胜过数量"的原理。ProgSearch生成的每个问答对都经过严格的难度控制和质量过滤，确保问题具有适当的复杂性且答案唯一正确。相比之下，传统方法生成的大量数据中可能包含很多对训练无效的简单问题或有歧义的问题。

Q3：普通人能否使用ProgSearch方法来改善AI助手的表现？

A：目前ProgSearch主要是研究级别的方法，需要专业的技术背景和计算资源来实施。不过，研究团队计划开源相关数据集，这将使更多研究者和开发者能够利用这些高质量数据来训练更好的AI助手，最终惠及普通用户。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.