网易首页 > 网易号 > 正文 申请入驻

Salesforce团队ProgSearch:数据合成新方法提升AI助手智能

0
分享至


在人工智能快速发展的今天,我们经常听说各种智能助手能够在网上搜索信息、回答复杂问题。但你是否想过,这些AI助手是如何学会处理那些需要多步骤推理、涉及复杂信息搜索的问题的?最近,Salesforce AI Research团队的研究人员Shrey Pandit、Xuan-Phi Nguyen、Yifei Ming等人发表了一项重要研究,提出了一种名为"ProgSearch"的创新数据合成方法。这项研究于2025年1月发表在arXiv预印本平台上,论文编号为arXiv:2510.13913v1,为训练更强大的网络AI助手提供了新的解决方案。

当前的AI助手在处理简单问题时表现不错,但遇到需要长期规划和多步骤推理的复杂任务时,往往力不从心。这就像让一个只会做简单算术的学生去解复杂的数学应用题一样困难。现有的训练数据生成方法虽然能创造大量问答对,但往往缺乏对难度的精确控制,就像随意出题而不考虑学生的实际水平一样。

为了解决这个问题,Salesforce团队开发了一套"渐进式难度增强"的数据合成系统。这套系统的巧妙之处在于,它像一位经验丰富的老师一样,能够根据学生(AI助手)的实际能力,逐步增加题目难度,直到学生开始犯错为止。这样生成的训练数据恰好处在AI助手能力的边界上,最能有效提升其性能。

研究团队采用了两种互补的方法来生成训练数据。第一种被称为"自上而下"的方法,就像构建一棵知识树一样。他们从一个核心实体开始,比如"斯坦福大学",然后逐步搜集相关事实,形成一个树状的知识结构。每当添加新的知识分支时,系统就会生成一个更复杂的问题。这个过程持续进行,直到生成的问题难到连基准AI助手都无法正确回答为止。

第二种"自下而上"的方法则采用了不同的策略。这种方法首先选择一个相对罕见的实体作为答案,然后通过反复修改问题来增加难度。这就像设计一个猜谜游戏,答案是固定的,但线索变得越来越模糊和复杂,直到连最聪明的玩家也猜不出来。

整个数据合成过程中,基准AI助手扮演着多重角色。它既是学生(尝试回答问题),又是老师(生成问题),还是研究员(搜集事实信息)和评判员(验证答案的正确性)。这种多角色设计确保了生成数据的质量和一致性。

为了保证数据质量,研究团队还设计了严格的过滤机制。每个生成的问答对都必须满足多项标准:问题必须寻求单一、具体的答案;问题必须自然可读,涵盖多样化的话题;问题应该具有足够的复杂性,需要多跳推理或时间推理;答案不能从问题本身或常识中直接推导出来。

更重要的是,系统还会检查是否存在其他合理的答案。当AI助手给出与标准答案不同的回答时,系统会分析这个替代答案是否同样合理。如果是,那么这个问答对就会被丢弃,因为存在歧义的问题不适合用作训练数据。

经过这套完整的合成和过滤流程,研究团队最终获得了约12000个高质量的问答对,经过进一步的轨迹采样后,可用于训练的数据减少到约6000个样本。虽然数量上比其他数据集要少,但质量显著更高。

为了验证ProgSearch方法的有效性,研究团队进行了严格的对比实验。他们将自己的数据集与现有的两个主要数据集Taskcraft和Asearcher进行了比较。实验采用了相同的训练方法——使用强大的GPT-OSS模型生成训练轨迹,然后用这些轨迹训练较小的模型如Qwen3-8B和Qwen2.5-7B。

实验结果令人印象深刻。在多个网络问答基准测试中,使用ProgSearch数据训练的模型都表现出显著的性能提升。具体来说,在FRAMES基准测试中,Qwen3-8B模型的准确率提升了16%,GAIA测试中提升了11%,在其他测试中也都有不同程度的改善。对于Qwen2.5-7B模型,改善幅度甚至更大,在某些测试中提升超过20%。

更有趣的是,通过分析训练数据的特征,研究团队发现ProgSearch生成的轨迹平均包含20个工具调用,是其他数据集的2到4倍。这意味着AI助手需要进行更多步骤的推理和搜索才能得到答案,体现了问题的复杂性。

研究团队还发现,使用ProgSearch训练的模型在工具使用上更加高效。虽然训练数据中包含更多的工具调用,但训练后的模型并没有产生过度的工具调用行为。相反,它们学会了更有效地使用工具,在保持或略微增加工具使用量的同时,显著提升了问题解决的准确性。

从数据分布来看,ProgSearch生成的问题覆盖了更广泛的主题领域。虽然历史类问题稍多一些(可能因为此类问题相对容易回答),但整体分布比其他数据集更加均衡。这种多样性有助于训练出更全面的AI助手。

研究团队展示的一些问题例子充分体现了ProgSearch的复杂性。比如有一个问题涉及从考古发现到地质特征,再到水利工程的多层次信息链接,最终询问一个特定的保护区名称。这样的问题需要AI助手进行深入的网络搜索和复杂的信息整合,远远超出了简单问答的范畴。

为了确保实验的公正性,研究团队还实施了严格的防污染措施。由于评估用的基准测试题目在网上公开,AI助手可能会直接找到答案而不进行推理。因此,他们封锁了某些可能包含答案的网站,确保AI助手必须通过真正的推理和搜索来解决问题。

这项研究的意义不仅在于提出了一个新的数据合成方法,更重要的是验证了"质量胜过数量"的理念。在AI训练数据普遍追求大规模的今天,ProgSearch证明了精心设计的小规模高质量数据可以比大规模低质量数据产生更好的效果。

ProgSearch方法的成功也为AI训练领域提供了新的思路。传统的数据合成方法往往忽视了目标模型的实际能力,生成的数据要么太简单(对提升性能无益),要么太复杂(超出模型能力范围)。而ProgSearch通过引入渐进式难度增强机制,能够精确地找到模型能力的边界,生成最有效的训练数据。

研究团队计划在获得机构审批后开源这个数据集,这将为整个AI研究社区带来宝贵的资源。这种开放的态度体现了科学研究的合作精神,也将推动整个领域的发展。

从更广泛的角度来看,这项研究反映了AI发展中的一个重要趋势:从追求模型规模转向优化训练质量。随着大型语言模型变得越来越强大,如何有效地训练它们处理复杂任务成为了关键问题。ProgSearch提供的解决方案不仅适用于网络问答任务,其核心思想也可能适用于其他需要复杂推理的AI应用。

当然,这项研究也有其局限性。ProgSearch方法依赖于一个强大的基准AI助手来生成和评估数据,这增加了实施的复杂性和成本。此外,虽然该方法在所测试的基准上表现出色,但其在其他类型任务上的表现还需要进一步验证。

展望未来,ProgSearch的成功可能会启发更多关于智能数据合成的研究。我们可能会看到更多结合了难度控制、质量保证和多样性要求的数据生成方法。这些方法将帮助我们训练出更强大、更可靠的AI助手,最终更好地服务于人类的各种需求。

说到底,ProgSearch的核心贡献在于提供了一种系统性的方法来生成高质量的AI训练数据。通过精确控制难度并确保数据质量,这种方法能够更有效地提升AI助手处理复杂任务的能力。虽然数据量相对较小,但质量的提升带来了显著的性能改善,这为AI训练领域提供了宝贵的启示。对于那些希望深入了解这项研究的读者,可以通过论文编号arXiv:2510.13913v1在相关学术平台上查找完整论文。

Q&A

Q1:ProgSearch和传统的AI训练数据生成方法有什么不同?

A:ProgSearch最大的不同在于引入了"渐进式难度增强"机制。传统方法往往随意生成问答对,难度控制不精确。而ProgSearch会根据AI助手的实际能力逐步增加问题难度,直到AI开始犯错为止,这样生成的数据恰好处在AI能力边界上,训练效果最佳。

Q2:为什么ProgSearch数据量更小但效果更好?

A:这体现了"质量胜过数量"的原理。ProgSearch生成的每个问答对都经过严格的难度控制和质量过滤,确保问题具有适当的复杂性且答案唯一正确。相比之下,传统方法生成的大量数据中可能包含很多对训练无效的简单问题或有歧义的问题。

Q3:普通人能否使用ProgSearch方法来改善AI助手的表现?

A:目前ProgSearch主要是研究级别的方法,需要专业的技术背景和计算资源来实施。不过,研究团队计划开源相关数据集,这将使更多研究者和开发者能够利用这些高质量数据来训练更好的AI助手,最终惠及普通用户。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“赖系”输了?陈亭妃初选力压林俊宪,将代表民进党参选台南市长

“赖系”输了?陈亭妃初选力压林俊宪,将代表民进党参选台南市长

海峡导报社
2026-01-15 11:40:03
英国灵媒帕克最新说2026:三岛剧变,财富消失,“极”年出现

英国灵媒帕克最新说2026:三岛剧变,财富消失,“极”年出现

山九
2026-01-15 08:10:12
一路走好!继朱媛媛离世,又一名人离世,年仅47岁,死因令人唏嘘

一路走好!继朱媛媛离世,又一名人离世,年仅47岁,死因令人唏嘘

丁丁鲤史纪
2026-01-15 14:14:30
杭州网约车:一万新人挤入,司机收入承压

杭州网约车:一万新人挤入,司机收入承压

侃故事的阿庆
2026-01-15 04:12:51
快过年了,别买这5种年货!全是“科技与狠活”,别拿身体开玩笑

快过年了,别买这5种年货!全是“科技与狠活”,别拿身体开玩笑

Home范
2026-01-15 12:12:06
有人建议毛主席遗体移往韶山,如此重大问题坚决听从党中央决定!

有人建议毛主席遗体移往韶山,如此重大问题坚决听从党中央决定!

鹤羽说个事
2025-12-30 11:33:57
突发6大利空,26个商业航天龙头集体跌停,题材龙头集体崩溃了

突发6大利空,26个商业航天龙头集体跌停,题材龙头集体崩溃了

风风顺
2026-01-15 10:25:34
央视推荐的四大长寿食物!南瓜仅排第三,第一名家家有却不懂珍惜

央视推荐的四大长寿食物!南瓜仅排第三,第一名家家有却不懂珍惜

观察者小海风
2025-12-15 19:03:13
突发!粤沪大战,卢伟宣布超级外援轮休,球迷:或是烟雾弹?

突发!粤沪大战,卢伟宣布超级外援轮休,球迷:或是烟雾弹?

南海浪花
2026-01-15 13:19:38
神奇竟也能复制?中国U23队主帅安东尼奥,靠啥批发式上演“历史性晋级”

神奇竟也能复制?中国U23队主帅安东尼奥,靠啥批发式上演“历史性晋级”

上观新闻
2026-01-15 04:26:15
首次亚洲杯出线!就进了一个球的U23男足,做对了什么?

首次亚洲杯出线!就进了一个球的U23男足,做对了什么?

观察者网
2026-01-15 08:28:06
疯传!王石的瓜,好狗血!

疯传!王石的瓜,好狗血!

财经要参
2026-01-05 22:13:08
颖儿带女儿回付辛博老家,不住婆家住酒店,公婆出镜都好宠月亮

颖儿带女儿回付辛博老家,不住婆家住酒店,公婆出镜都好宠月亮

八怪娱
2026-01-14 18:25:27
35.2吨长江2000惊天一推,安-225梦想运输机中国复活

35.2吨长江2000惊天一推,安-225梦想运输机中国复活

喜你成疾药石无医
2026-01-15 12:41:37
“两岸统一”突破点不在马英九,也不在国民党,可能在这个人身上

“两岸统一”突破点不在马英九,也不在国民党,可能在这个人身上

趣文说娱
2026-01-12 17:36:51
美最怕中俄驰援伊朗,不惜得罪100多国!若被判非法,或赔数万亿

美最怕中俄驰援伊朗,不惜得罪100多国!若被判非法,或赔数万亿

科普100克克
2026-01-15 14:17:58
高市早苗疯狂拉拢李在明,韩国总统不喝日本这碗“迷魂汤”

高市早苗疯狂拉拢李在明,韩国总统不喝日本这碗“迷魂汤”

一口娱乐
2026-01-15 13:37:30
车在桥上,人在哪里?38岁男子元旦失联:留下一句“人生没意义”

车在桥上,人在哪里?38岁男子元旦失联:留下一句“人生没意义”

奇思妙想草叶君
2026-01-05 20:57:05
哪一刻意识到自己没见过世面?网友:从此再没喝过茶

哪一刻意识到自己没见过世面?网友:从此再没喝过茶

另子维爱读史
2025-12-13 21:53:50
轰22+7+3+2!杨瀚森练级大闪耀:攻防一体真稳,背打大秀脚步

轰22+7+3+2!杨瀚森练级大闪耀:攻防一体真稳,背打大秀脚步

李喜林篮球绝杀
2026-01-15 12:38:57
2026-01-15 14:56:49
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
6880文章数 546关注度
往期回顾 全部

科技要闻

千问接入淘宝支付宝,大模型开卷办事能力

头条要闻

51:50美参院否决限制特朗普战争权议案 万斯投关键1票

头条要闻

51:50美参院否决限制特朗普战争权议案 万斯投关键1票

体育要闻

你是个好球员,我们就拿你交易吧

娱乐要闻

传奇棋圣聂卫平离世,网友集体悼念

财经要闻

“疯狂的白银”,还能走多远?

汽车要闻

今年推出超40款新车,BBA要把失去的夺回来

态度原创

时尚
本地
健康
公开课
军事航空

最时髦的单品,难道不是背肌吗?

本地新闻

云游内蒙|黄沙与碧波撞色,乌海天生会“混搭”

血常规3项异常,是身体警报!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美国已正式开始出售委内瑞拉石油

无障碍浏览 进入关怀版