网易首页 > 网易号 > 正文 申请入驻

终结数据荒!智源开源首个Deep Research数据合成框架InfoSeek

0
分享至

新智元报道

编辑:艾伦

【新智元导读】在大模型走向深度研究的道路上,高质量数据一直是最大短板。近日,北京智源人工智能研究院发布首个面向深度研究的大规模开源数据集InfoSeek,并提出了创新性的「扩散-回溯」数据合成方法。基于5万条自动生成的高难度训练样本,智源仅用3B参数规模的模型,就在BrowseComp-Plus基准上取得接近Gemini等商业模型的表现!

近日,北京智源人工智能研究院(简称「智源研究院」)发布开源数据集InfoSeek,成为首个面向深度研究(Deep Research)场景的大规模开源数据集。

在这一工作中,智源研究团队揭示了深度研究问题与层级约束满足问题(Hierarchical Constraint Satisfaction Problem)之间的数学等价关系,并由此提出了基于「扩散-回溯」过程的数据合成方法,实现了深度研究训练数据的大规模自动扩增。

利用上述方法,研究团队总计合成了包含5万条训练样本的数据集InfoSeek,并据此训练出参数规模仅3B的智能体模型。

在BrowseComp-Plus基准测试中,该模型取得了16.5%的准确率,性能已接近Gemini、Sonnet 4.0等领先商业模型,充分验证了该方法在深度研究任务上的有效性与潜力。

相关数据集与数据合成方法现已面向社区开放,为推动该领域研究提供了坚实基础。

资源链接:

数据集:

https://huggingface.co/datasets/Lk123/InfoSeek

代码仓库:

https://github.com/VectorSpaceLab/InfoSeek

技术报告:

https://arxiv.org/abs/2509.00375

简介

从撰写行业调研报告到梳理复杂的学术脉络,我们对大模型的期待早已超越了简单的问答。

由此,诞生了「深度研究」(Deep Research)问题。

与传统的QA任务不同,这类问题需要更高维度的推理和检索,往往需要重复多轮以下步骤:问题拆解、多元信息获取、结果整合。

然而,模型/智能体在这类任务上的表现尚不尽人意,其中一个关键的障碍是缺乏高质量训练数据。

现有数据集或难度较低,或结构单一,难以教会模型如何像人类专家一样,面对一个庞大而模糊的问题,层层深入,最终找到答案。

为弥补这一缺失,智源研究院推出了一个专为Deep Research构建的数据合成框架首个开源数据集InfoSeek,为推动这一领域的更进一步发展提供了坚实基础。

传统QA大多为单一/多约束满足问题(Condition Satisfaction Problem),只需要使用一次或数次检索就能获得答案;

多跳问题(Multi-hop Problem)是NLP中一直较有挑战的一类任务,其具有的链式结构,需要依次解决多个单一约束满足问题并推理出最终答案。

如下图所示,基于这两类问题,智源研究院提出将深度研究问题定义为层级约束满足问题(Hierarchical Condition Satisfaction Problem),以涵盖深度研究所具有的多层级、多分枝的复杂结构。

图1. 各类QA任务的定义与示例

基于这一定义,团队设计了能够自动化的智能体pipeline。

通过「扩散」的方式,从一个根节点出发,构造出HCSP的树状结构,并通过「回溯」,从叶子节点倒推回根节点来确认每个HCSP的正确性和有效性。

图2. InfoSeek构造HCSP的智能体流程示意图

智源研究院将这一构造方法,和通过其构造的50k条高质量QA数据全部开源,并通过使用这一批数据来进行模型训练,在数个难度极高的QA基准上验证了InfoSeek的有效性。

数据集

智源研究院开源的InfoSeek数据集包含超过5万条样本其中数据主要集中在需要4–6中间节点的问题上。为了验证其难度,研究人员使用Qwen2.5-72B模型并采用CoT进行测试,结果显示其整体失败率高达91.6%。

值得一提的是,InfoSeek的数据构造流程支持这一数据集的持续扩容。同时,可以进一步包含更多的中间节点来继续加大问题的难度

表格1. InfoSeek开源数据集统计信息

实验

基于InfoSeek训练的模型在BrowseComp-Plus上取得了非常突出的成绩。

与没有经过额外微调的Qwen3,和在传统QA数据集NQ、HotpotQA上训练的Search-R1模型相比,基于InfoSeek训练的模型在面对BrowseComp中的困难问题时,能够通过大幅提高搜索次数,以检索需要的信息。

其带来的助力也直接体现在了正确率的提升上,16.5%的准确率取得了当前开源模型的最佳效果,并且能够与Gemini、Sonnet 4.0等商业模型媲美。

图3. 各模型在BrowseComp-Plus基准上的表现,基于InfoSeek训练的3B模型的表现与当前的主流商业模型媲美

同时,以HotpotQA等为代表的传统QA基准,通过高质量的多跳问题来评估模型进行多轮的推理和检索工具调用的能力。

智源研究院使用InfoSeek数据所训练的模型,在多个多跳QA的benchmark上取得了非常亮眼的表现,进一步验证了InfoSeek的有效性。

图4. 各模型在多跳QA基准上的表现

总结

数据的质量决定了模型的高度。

InfoSeek为开源社区提供了高质量的训练数据和数据合成框架,为未来Deep Research的发展提供助力。

智源研究院也会在这一领域持续深耕,未来期待与更多科研机构及产业伙伴合作,共同推动检索与人工智能的发展。

欢迎研究者与开发者关注并使用InfoSeek及后续系列工作,共建开放繁荣的开源生态。

https://huggingface.co/datasets/Lk123/InfoSeek

https://github.com/VectorSpaceLab/InfoSeek

https://arxiv.org/abs/2509.00375

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
风向彻底变了!西方媒体集体改口:中国,无需再向世界证明什么

风向彻底变了!西方媒体集体改口:中国,无需再向世界证明什么

大卫聊科技
2026-03-25 12:22:18
12年没踢世界杯了 意大利晋级2026世界杯需连赢2场 概率仅63%

12年没踢世界杯了 意大利晋级2026世界杯需连赢2场 概率仅63%

智道足球
2026-03-26 18:08:45
小伙领证5小时后失踪,新婚妻子继承全部遗产,真相让人不寒而栗

小伙领证5小时后失踪,新婚妻子继承全部遗产,真相让人不寒而栗

碎碎纪实
2026-03-26 11:07:33
一觉醒来天塌了!美国突然发现,命脉被中国控制,这仗还怎么打?

一觉醒来天塌了!美国突然发现,命脉被中国控制,这仗还怎么打?

谷盟a
2026-03-24 13:43:01
Manus两名高管禁止离境? 外交部回应

Manus两名高管禁止离境? 外交部回应

每日经济新闻
2026-03-26 16:36:02
国际油价暴涨,国内油价却“压着不涨”!国家出手了:每吨少涨1000多块

国际油价暴涨,国内油价却“压着不涨”!国家出手了:每吨少涨1000多块

思如哲思
2026-03-26 06:36:02
初代丑男何润东的突然爆火,狠狠抽了内娱一巴掌

初代丑男何润东的突然爆火,狠狠抽了内娱一巴掌

娱乐圈笔娱君
2026-03-24 16:08:36
2026年身份证就是老年证!爸妈满60岁别办证,这4件事千万不能忘

2026年身份证就是老年证!爸妈满60岁别办证,这4件事千万不能忘

复转这些年
2026-03-26 09:26:17
哈萨克斯坦也没想到,跟着中国混来混去,结果自己也混成了个霸主

哈萨克斯坦也没想到,跟着中国混来混去,结果自己也混成了个霸主

花颜蕴韵
2026-03-26 03:37:13
山东“老头乐”公司起诉小米汽车,当事企业称已和解

山东“老头乐”公司起诉小米汽车,当事企业称已和解

界面新闻
2026-03-26 16:30:03
1958年周恩来突然提出辞去总理职务,毛主席听后只说了一句话,全场沉默

1958年周恩来突然提出辞去总理职务,毛主席听后只说了一句话,全场沉默

文史明鉴
2026-03-24 18:49:17
神笔警探林宇辉再绘“梅姨”老年画像:她年龄增大,精神也受折磨,面貌应该变化很大

神笔警探林宇辉再绘“梅姨”老年画像:她年龄增大,精神也受折磨,面貌应该变化很大

极目新闻
2026-03-26 11:14:21
特斯拉 Model 3 标准版要来了!配置太离谱

特斯拉 Model 3 标准版要来了!配置太离谱

花果科技
2026-03-25 16:23:07
杨振宁猝然离世5个月后,翁帆突传新消息,怀孕传闻早就真相大白

杨振宁猝然离世5个月后,翁帆突传新消息,怀孕传闻早就真相大白

李橑在北漂
2026-03-25 23:30:59
旧电脑别急着扔!2026年3月起,4GB内存就能装的鸿蒙PC系统真来了

旧电脑别急着扔!2026年3月起,4GB内存就能装的鸿蒙PC系统真来了

小蜜情感说
2026-03-25 03:20:43
女人爱听这些两性关系中的“下流话”,尤其是过了中年的女人

女人爱听这些两性关系中的“下流话”,尤其是过了中年的女人

i书与房
2026-03-25 16:30:22
伊朗进入伊拉克模式

伊朗进入伊拉克模式

墨心人
2026-03-26 21:47:55
张雪峰去世,他留下的30个金句,涵盖志愿填报、成长与认知

张雪峰去世,他留下的30个金句,涵盖志愿填报、成长与认知

光影新天地
2026-03-24 22:25:14
女孩“全损课本”火了,自认为是清北的料子,老师:自我感动罢了

女孩“全损课本”火了,自认为是清北的料子,老师:自我感动罢了

复转这些年
2026-03-23 20:48:15
伊朗被美以单方面轰炸23天,为何革命卫队依旧不认输?

伊朗被美以单方面轰炸23天,为何革命卫队依旧不认输?

高博新视野
2026-03-24 08:00:16
2026-03-26 22:47:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14821文章数 66721关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

游戏
教育
房产
本地
公开课

50万销量达成!这款IGN 9分独游走红 官方发推庆贺

教育要闻

骂人没有杀伤力?那不是白忙活吗?

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版