网易首页 > 网易号 > 正文 申请入驻

Agent RL与智能体进化关键一步:TaskCraft实现复杂任务自动生成

0
分享至



近年来,基于智能体的强化学习(Agent + RL)与智能体优化(Agent Optimization)在学术界引发了广泛关注。然而,实现具备工具调用能力的端到端智能体训练,首要瓶颈在于高质量任务数据的极度稀缺。当前如GAIA 与 BrowserComp 等主流数据集在构建过程中高度依赖人工标注,因而在规模与任务复杂性方面均存在明显限制——BrowserComp 仅涵盖约 1300 个搜索任务,GAIA 则仅提供约 500 条多工具协同任务样本。与基础大模型训练中动辄万级以上的指令数据相比,差距十分显著。

尽管在基础模型阶段,像self-instruct 这样的自监督方法已经借助大语言模型(LLM)成功构建了大规模的指令型数据,有效提升了模型的通用性和泛化能力,但在智能体(Agent)场景下,这类静态指令数据却难以满足实际需求。原因在于,复杂的智能体任务通常需要模型与环境进行持续的动态交互,同时涉及多工具的协同操作和多步骤推理。而传统的指令数据缺乏这种交互性和操作性,导致其在智能体训练中迁移性差、适用性有限。

为应对上述挑战,OPPO 研究院的研究者提出了 TaskCraft,一个面向智能体任务的自动化生成框架,旨在高效构建具备可扩展难度、多工具协同与可验证执行路径的智能体任务实例。TaskCraft 通过统一的流程化建构机制,摆脱了对人工标注的依赖,能够系统性地产生覆盖多种工具(如URL、PDF、HTML、Image 等)的复杂任务场景,并支持任务目标的自动验证,确保数据质量与执行闭环。 基于该框架,研究团队构建并开源了一个包含约 41,000 条智能体任务的合成数据集,显著扩展了现有Agent 数据资源的规模与多样性,为后续通用智能体的训练与评估提供了有力支撑。



  • 论文标题:
  • TaskCraft: Automated Generation of Agentic Tasks
  • 论文地址:
  • https://arxiv.org/abs/2506.10055
  • Github:
  • https://github.com/OPPO-PersonalAI/TaskCraft
  • 数据集:
  • https://huggingface.co/datasets/PersonalAILab/TaskCraft

数据生成

生成过程主要分为两大部分:第一部分生成简单且可验证的原子任务;第二部分通过深度拓展和宽度拓展,不断构建新的原子任务,使复杂性逐步提升。

原子任务的生成



原子结构生成示意图

可以简单理解为,从原始数据中提取核心问题,然后确保问题必须通过特定工具来解决。整个流程包含以下四个关键步骤:

1.收集信息:系统从多种来源(网页、PDF、图片等)提取信息。例如,企业财报、一张统计图或一篇新闻文章。

2.识别关键内容:利用LLM从这些文档中提取候选结论,比如:2025 年苹果公司总收入为383.3 亿美元

3.生成问题:LLM需要将这些候选结论转换为工具回答的问题。例如:“在财务报告《Apple 2025 年度报告》中,2025 年的总收入是多少?”(答案:383.3 亿美元)

4.验证任务:每个原子任务被保留必须满足以下两个条件:

  • 必须依赖工具才能解答(LLM无法直接推导答案)。
  • 必须经过Agent验证,确保能够顺利执行任务。

任务拓展

任务拓展旨在将一个简单任务逐步演化为更具层次和挑战性的复杂任务,使Agent 必须通过多个步骤才能完成任务。拓展方式主要包括深度拓展宽度拓展



深度拓展示意图

其中,深度拓展的目标是为了构建可被拆解为一系列相互依赖的任务。每一步都依赖前一步的结果,从而构建出一条多步推理链。其主要包括以下四步:

1.确认主任务与拓展标识符:拓展标识符一般是具有强特殊性的文本,往往作为获取工具上下文的输入关键字。例如对于任务:“电影《星际穿越》的导演是谁?”(答案:克里斯托弗·诺兰),其中的拓展标识符是:《星际穿越》。

2.执行Agent搜索,构造新的辅助原子任务:SearchAgent以拓展标识符为线索执行搜索,并从搜索结果中构造一个新的原子任务,其答案即为该拓展标识符。例如:“哪部美国著名科幻电影是在2014 年 11 月 7 日上映的?”(答案:《星际穿越》)

3.合并辅助原子任务,更新主任务:将辅助原子任务与原主任务进行融合,构建一个逻辑连贯的复合任务。例如:“2014 年 11 月 7 日上映的美国著名科幻电影,它的导演是谁?“(答案:克里斯托弗·诺兰)

4.验证任务合理性:为了规避对合并问题的整体验证,研究者采用了多种规则对合并后的主任务进行语义验证,包括:超集验证、关系验证、信息泄露验证、替换合理性验证等。

这些任务应来自同一信息源(如同一篇网页或PDF),且答案之间不存在因果依赖。使用LLM 将多个任务的语义合并成一个自然、流畅且具备完整性的新任务

而宽度拓展则是通过选择两个(或多个)结构兼容的原子任务,



宽度拓展示意图

通过PromptLearning 提升任务生成效率

在TaskCraft 的任务构建流程中,Prompt 的设计起到了至关重要的作用。研究团队采用了自举式 few-shot 提示优化机制,基于生成的任务数据对提示进行了迭代优化,从而实现了提示模板的自我进化。如表1,实验结果显示,原子任务的生成通过率从初始的54.9% 提高至 68.1%,同时平均生成时间减少了近 20%。在深度拓展任务中,6 轮任务扩展的成功率由 41% 提升至 51.2%,进一步验证了生成数据在提升任务构建质量与效率方面的显著效果。



表1PromptLearning实验结果

对智能体基础模型进行SFT训练

其次,研究团队进一步评估了TaskCraft 所生成任务数据在提升大模型能力方面的实际效果。以 Qwen2.5-3B 系列为基础,研究者基于三个典型的多跳问答数据集(HotpotQA、Musique 和 Bamboogle)的训练集,生成了约32k条多跳任务以及轨迹,并利用这些生成数据对模型进行监督微调(SFT)。如表2,实验结果表明,经过微调后,Base 模型的平均性能提升了 14%,Instruct 模型提升了 6%,说明 TaskCraft 生成的数据在增强大模型的推理能力与工具调用表现方面具有显著成效。此外,当这些微调模型与强化学习方法 Search-R1 相结合时,模型性能进一步提升,进一步证明 TaskCraft 所生成的任务数据不仅能用于监督学习,也可作为强化学习的优质训练起点。



表2监督微调效果

此外,你可能会好奇:引入搜索Agent 是否真的有必要?为此,研究团队设计了一项对比实验,比较了两种任务构建方式的效果:一是直接使用 GPT-4.1 基于某个结论生成任务,另一种则是借助基于 GPT-4.1 的 Search Agent 自动生成任务。结果如表 3 所示,TaskCraft 构建范式在多项指标上表现更优。



表3任务构建范式的有效性分析

相比之下,TaskCraft 生成的任务具有显著更高的通过率,验证时间更短,且工具使用次数更符合“原子任务”的定义(理论最优为:一次输入索引 + 一次目标工具调用)。此外,任务的工具调用次数也更稳定,方差更小,反映出 TaskCraft 在保持原子任务难度的一致性方面具备更强的优势。



原子数据域分布

基于TaskCraft,研究者构建了一个包含约41,000 个 agentic 任务的大规模数据集,为 AI 智能体的系统化调优与评估提供了坚实的基础。该数据集覆盖多个工具使用场景,包括网页搜索、PDF 阅读、图像理解等,任务结构层次丰富,难度可控,支持原子级任务和多跳复杂任务。由于所有任务都附带了真实的执行轨迹,不仅可以进行监督式微调(SFT),还能为强化学习(RL)提供高质量的训练数据起点。这使得该数据集可广泛应用于智能体基础模型的能力增强、Agent 推理策略的评估,以及多工具调用环境下的泛化能力测试。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
收评:沪指微跌0.07%险守4000点 医药等防御性板块逆势走强

收评:沪指微跌0.07%险守4000点 医药等防御性板块逆势走强

财联社
2025-11-12 15:04:04
后续!曾医生的父母替女儿道歉了,字字带着泪和痛!没抱怨任何人

后续!曾医生的父母替女儿道歉了,字字带着泪和痛!没抱怨任何人

魔都姐姐杂谈
2025-11-12 10:42:22
全运会乒乓球:首个男单8强席位出炉!樊振东输1局,4:1势如破竹

全运会乒乓球:首个男单8强席位出炉!樊振东输1局,4:1势如破竹

国乒二三事
2025-11-12 13:13:48
湖南省岳阳市岳阳楼区人大常委会党组副书记、副主任严石龙被查

湖南省岳阳市岳阳楼区人大常委会党组副书记、副主任严石龙被查

极目新闻
2025-11-12 15:14:21
首次以中央名义开展!中央考核巡查组,进驻地方开展明查暗访等

首次以中央名义开展!中央考核巡查组,进驻地方开展明查暗访等

政知新媒体
2025-11-11 20:40:29
英伟达市值一夜蒸发超万亿元!这只AI科技股大跌16%,发生了什么?比特币跌超3%,加密币全网超15万人爆仓,32亿元灰飞烟灭

英伟达市值一夜蒸发超万亿元!这只AI科技股大跌16%,发生了什么?比特币跌超3%,加密币全网超15万人爆仓,32亿元灰飞烟灭

每日经济新闻
2025-11-12 06:26:06
2909亿身家有何用?97岁的李嘉诚无力回天,两个60岁儿子已成心病

2909亿身家有何用?97岁的李嘉诚无力回天,两个60岁儿子已成心病

冷紫葉
2025-11-11 20:23:54
只有去过才知道:真正的美国,和新闻里说的根本不是一回事

只有去过才知道:真正的美国,和新闻里说的根本不是一回事

诗意世界
2025-11-11 22:33:55
20岁在俄罗斯圣彼得堡失联女留学生确认已离世,其父发声:案件正在办理,具体细节不便透露

20岁在俄罗斯圣彼得堡失联女留学生确认已离世,其父发声:案件正在办理,具体细节不便透露

极目新闻
2025-11-12 13:28:55
土耳其防长证实坠毁军用运输机上20人全部遇难

土耳其防长证实坠毁军用运输机上20人全部遇难

界面新闻
2025-11-12 15:39:31
后续来了!17分钟的视频始作俑者原来竟是她,都是吃醋惹的祸

后续来了!17分钟的视频始作俑者原来竟是她,都是吃醋惹的祸

魔都姐姐杂谈
2025-11-12 09:04:33
曾主任抛媚眼照被挖出!明目皓齿很调皮,网友:真的好迷人

曾主任抛媚眼照被挖出!明目皓齿很调皮,网友:真的好迷人

阿纂看事
2025-11-12 15:42:36
认真刷完曾医生和祖院长的视频,谁看了不说一句窒息?

认真刷完曾医生和祖院长的视频,谁看了不说一句窒息?

诗意世界
2025-11-10 18:51:56
人民币被踢出局!刚刚,英国掀桌子死保美元!

人民币被踢出局!刚刚,英国掀桌子死保美元!

深度报
2025-11-11 21:43:58
高市早苗涉台言论后,急盼美国支持,特朗普:日本也不算美国朋友

高市早苗涉台言论后,急盼美国支持,特朗普:日本也不算美国朋友

临云史策
2025-11-11 22:00:26
高市支持率82%,薛领事被围攻,日防卫省称先发制人,特朗普发声

高市支持率82%,薛领事被围攻,日防卫省称先发制人,特朗普发声

科普100克克
2025-11-12 06:11:34
套现超4亿元!永辉超市董事长减持永辉,公司前三季度亏损7.1亿元

套现超4亿元!永辉超市董事长减持永辉,公司前三季度亏损7.1亿元

每日经济新闻
2025-11-12 17:06:12
某些领导们,不要再折腾老百姓和自己的手下了……

某些领导们,不要再折腾老百姓和自己的手下了……

靠山屯闲话
2025-11-12 10:40:48
9个月没系统训练?陈梦4-0何卓佳晋级八强 后2局连续挽救局点逆转

9个月没系统训练?陈梦4-0何卓佳晋级八强 后2局连续挽救局点逆转

颜小白的篮球梦
2025-11-12 13:35:30
81岁林豆豆现状:已退休23年,独居在北京老房子,用阅读打发时间

81岁林豆豆现状:已退休23年,独居在北京老房子,用阅读打发时间

揽星河的笔记
2025-11-12 12:36:17
2025-11-12 18:08:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11697文章数 142504关注度
往期回顾 全部

科技要闻

Meta"宫斗"持续,AI教父杨立昆被"气"走了

头条要闻

"大客户"租两豪车后人间蒸发 车行找到车后一看天塌了

头条要闻

"大客户"租两豪车后人间蒸发 车行找到车后一看天塌了

体育要闻

太阳三连胜&活塞东部第一 哪个更想不到

娱乐要闻

再王珞丹和白百何 明白两人"差别"在哪

财经要闻

专家建议设立5万亿房地产稳定基金

汽车要闻

7座皆独立座椅/新增5座版 体验第三代吉利豪越L

态度原创

亲子
游戏
时尚
教育
房产

亲子要闻

爸爸说今天让孩子们自制披萨

《棕色尘埃2》上架Steam!12月16日爽玩 有特别活动

“廓形穿衣法”太火了!掌握这5个法则让你美一整个冬天

教育要闻

教育部重磅部署为教师减负,这次能带来彻底好转吗? “除了畜牧局,都在使唤我们”,教育部重磅部署为教师...

房产要闻

海垦城建·鹿城壹号品牌发布会暨美学示范区璀璨启幕

无障碍浏览 进入关怀版