网易首页 > 网易号 > 正文 申请入驻

终结数据荒!智源开源首个Deep Research数据合成框架InfoSeek

0
分享至


新智元报道

编辑:艾伦

【新智元导读】在大模型走向深度研究的道路上,高质量数据一直是最大短板。近日,北京智源人工智能研究院发布首个面向深度研究的大规模开源数据集InfoSeek,并提出了创新性的「扩散-回溯」数据合成方法。基于5万条自动生成的高难度训练样本,智源仅用3B参数规模的模型,就在BrowseComp-Plus基准上取得接近Gemini等商业模型的表现!

近日,北京智源人工智能研究院(简称「智源研究院」)发布开源数据集InfoSeek,成为首个面向深度研究(Deep Research)场景的大规模开源数据集。

在这一工作中,智源研究团队揭示了深度研究问题与层级约束满足问题(Hierarchical Constraint Satisfaction Problem)之间的数学等价关系,并由此提出了基于「扩散-回溯」过程的数据合成方法,实现了深度研究训练数据的大规模自动扩增。

利用上述方法,研究团队总计合成了包含5万条训练样本的数据集InfoSeek,并据此训练出参数规模仅3B的智能体模型。

在BrowseComp-Plus基准测试中,该模型取得了16.5%的准确率,性能已接近Gemini、Sonnet 4.0等领先商业模型,充分验证了该方法在深度研究任务上的有效性与潜力。

相关数据集与数据合成方法现已面向社区开放,为推动该领域研究提供了坚实基础。

资源链接:

数据集:

https://huggingface.co/datasets/Lk123/InfoSeek

代码仓库:

https://github.com/VectorSpaceLab/InfoSeek

技术报告:

https://arxiv.org/abs/2509.00375

简介

从撰写行业调研报告到梳理复杂的学术脉络,我们对大模型的期待早已超越了简单的问答。

由此,诞生了「深度研究」(Deep Research)问题。

与传统的QA任务不同,这类问题需要更高维度的推理和检索,往往需要重复多轮以下步骤:问题拆解、多元信息获取、结果整合。

然而,模型/智能体在这类任务上的表现尚不尽人意,其中一个关键的障碍是缺乏高质量训练数据。

现有数据集或难度较低,或结构单一,难以教会模型如何像人类专家一样,面对一个庞大而模糊的问题,层层深入,最终找到答案。

为弥补这一缺失,智源研究院推出了一个专为Deep Research构建的数据合成框架首个开源数据集InfoSeek,为推动这一领域的更进一步发展提供了坚实基础。

传统QA大多为单一/多约束满足问题(Condition Satisfaction Problem),只需要使用一次或数次检索就能获得答案;

多跳问题(Multi-hop Problem)是NLP中一直较有挑战的一类任务,其具有的链式结构,需要依次解决多个单一约束满足问题并推理出最终答案。

如下图所示,基于这两类问题,智源研究院提出将深度研究问题定义为层级约束满足问题(Hierarchical Condition Satisfaction Problem),以涵盖深度研究所具有的多层级、多分枝的复杂结构。


图1. 各类QA任务的定义与示例

基于这一定义,团队设计了能够自动化的智能体pipeline。

通过「扩散」的方式,从一个根节点出发,构造出HCSP的树状结构,并通过「回溯」,从叶子节点倒推回根节点来确认每个HCSP的正确性和有效性。


图2. InfoSeek构造HCSP的智能体流程示意图

智源研究院将这一构造方法,和通过其构造的50k条高质量QA数据全部开源,并通过使用这一批数据来进行模型训练,在数个难度极高的QA基准上验证了InfoSeek的有效性。

数据集

智源研究院开源的InfoSeek数据集包含超过5万条样本其中数据主要集中在需要4–6中间节点的问题上。为了验证其难度,研究人员使用Qwen2.5-72B模型并采用CoT进行测试,结果显示其整体失败率高达91.6%。

值得一提的是,InfoSeek的数据构造流程支持这一数据集的持续扩容。同时,可以进一步包含更多的中间节点来继续加大问题的难度


表格1. InfoSeek开源数据集统计信息

实验

基于InfoSeek训练的模型在BrowseComp-Plus上取得了非常突出的成绩。

与没有经过额外微调的Qwen3,和在传统QA数据集NQ、HotpotQA上训练的Search-R1模型相比,基于InfoSeek训练的模型在面对BrowseComp中的困难问题时,能够通过大幅提高搜索次数,以检索需要的信息。

其带来的助力也直接体现在了正确率的提升上,16.5%的准确率取得了当前开源模型的最佳效果,并且能够与Gemini、Sonnet 4.0等商业模型媲美。


图3. 各模型在BrowseComp-Plus基准上的表现,基于InfoSeek训练的3B模型的表现与当前的主流商业模型媲美

同时,以HotpotQA等为代表的传统QA基准,通过高质量的多跳问题来评估模型进行多轮的推理和检索工具调用的能力。

智源研究院使用InfoSeek数据所训练的模型,在多个多跳QA的benchmark上取得了非常亮眼的表现,进一步验证了InfoSeek的有效性。


图4. 各模型在多跳QA基准上的表现

总结

数据的质量决定了模型的高度。

InfoSeek为开源社区提供了高质量的训练数据和数据合成框架,为未来Deep Research的发展提供助力。

智源研究院也会在这一领域持续深耕,未来期待与更多科研机构及产业伙伴合作,共同推动检索与人工智能的发展。

欢迎研究者与开发者关注并使用InfoSeek及后续系列工作,共建开放繁荣的开源生态。

https://huggingface.co/datasets/Lk123/InfoSeek

https://github.com/VectorSpaceLab/InfoSeek

https://arxiv.org/abs/2509.00375

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
李谷一不再沉默,揭晓宋祖英“消失”的真相,观众:原来是这样

李谷一不再沉默,揭晓宋祖英“消失”的真相,观众:原来是这样

查尔菲的笔记
2025-09-02 16:01:14
突然爆了!1秒就没?深圳全市约满!

突然爆了!1秒就没?深圳全市约满!

深圳晚报
2025-09-17 12:32:51
A股:3861点最后的警告,不管你现在几成仓,周三开盘请听我一句

A股:3861点最后的警告,不管你现在几成仓,周三开盘请听我一句

搬砖知天下事
2025-09-17 08:45:05
“全球最佳降压药”已被纳入医保,除了可以报销,还有3大优势!

“全球最佳降压药”已被纳入医保,除了可以报销,还有3大优势!

深析古今
2025-09-16 08:31:14
鸡蛋立大功!研究发现:上了年纪,鸡蛋每周吃够这个量更健康

鸡蛋立大功!研究发现:上了年纪,鸡蛋每周吃够这个量更健康

今日养生之道
2025-09-16 13:48:22
程青松朋友圈曝光!刘晓庆力挺他,田海蓉资助他,黄晓明为他庆生

程青松朋友圈曝光!刘晓庆力挺他,田海蓉资助他,黄晓明为他庆生

娱小余
2025-09-17 15:42:02
五十军硬刚25万美军,部队都快打没了!军长曾泽生也不跟彭总说

五十军硬刚25万美军,部队都快打没了!军长曾泽生也不跟彭总说

蜉蝣说
2025-09-17 10:33:39
多名“70后”干部进京履新,国务院直属特设机构迎来一名新局长!

多名“70后”干部进京履新,国务院直属特设机构迎来一名新局长!

上观新闻
2025-09-17 14:17:02
刚刚通报,四川两名干部被处理

刚刚通报,四川两名干部被处理

鲁中晨报
2025-09-17 17:11:09
谈判结束后,美财长亲口表态,可以不对华加税,但有一个前提条件

谈判结束后,美财长亲口表态,可以不对华加税,但有一个前提条件

南宫一二
2025-09-17 07:16:44
暴涨!上新闻联播了!

暴涨!上新闻联播了!

中国基金报
2025-09-17 15:58:35
第六代导演为什么没办法成为市场主流?

第六代导演为什么没办法成为市场主流?

闲人电影
2025-09-17 15:49:20
张水华终于说透了:为什么不全职跑马?这3个理由,戳中无数跑者的心!

张水华终于说透了:为什么不全职跑马?这3个理由,戳中无数跑者的心!

马拉松跑步健身
2025-09-16 21:17:19
中方担心的发生了,300辆列车滞留边境,白俄增兵,中欧班列已断

中方担心的发生了,300辆列车滞留边境,白俄增兵,中欧班列已断

壹知眠羊
2025-09-16 19:30:06
内塔尼亚胡环顾世界,发现以色列只剩下一个朋友

内塔尼亚胡环顾世界,发现以色列只剩下一个朋友

上观新闻
2025-09-17 04:55:07
小米17 Pro/Pro Max首发秒享背屏:官方功能演示来了

小米17 Pro/Pro Max首发秒享背屏:官方功能演示来了

快科技
2025-09-17 11:12:13
罗永浩20年前简历曝光!吊打当下90%应届生...

罗永浩20年前简历曝光!吊打当下90%应届生...

实习僧
2025-09-15 13:47:07
国产固态电池量产加速!数千万新能源车主,会成倒霉的“韭菜”?

国产固态电池量产加速!数千万新能源车主,会成倒霉的“韭菜”?

刘旷
2025-09-16 14:26:17
医美太吓人!蔡明孙悟空忍了,戚薇机器人忍了,女版伏地魔没忍住

医美太吓人!蔡明孙悟空忍了,戚薇机器人忍了,女版伏地魔没忍住

山河月明史
2025-04-01 16:46:41
杀牛蛙吃甲鱼摆器官?美国网球手致歉侮辱嘲讽中国菜:我真诚道歉

杀牛蛙吃甲鱼摆器官?美国网球手致歉侮辱嘲讽中国菜:我真诚道歉

直播吧
2025-09-17 11:48:11
2025-09-17 18:24:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13464文章数 66155关注度
往期回顾 全部

科技要闻

港股大涨:百度涨近20%,阿里涨超5%

头条要闻

14岁男生在小区捅死同班女同学 还谎称见义勇为被砍伤

头条要闻

14岁男生在小区捅死同班女同学 还谎称见义勇为被砍伤

体育要闻

什么小火龙?申京已经是MVP水平!

娱乐要闻

第六代导演为什么没办法成为市场主流?

财经要闻

曝匹克大幅降薪 员工还要进行"三观培训"

汽车要闻

以用户为锚,“听劝”的岚图一路狂飙

态度原创

亲子
健康
教育
数码
游戏

亲子要闻

卵泡长不大是吃药还是打针?高龄备孕吃什么提高卵泡质量?

内分泌科专家破解身高八大谣言

教育要闻

体育校长黄超:跨越1400公里,带着56个“山里娃”用足球踢出一个未来 | 致敬,体育教师

数码要闻

华为鸿蒙 App Gallery 应用市场新增支持查看应用版本历史记录

《黑神话》联动麦当劳物料曝光!20日开始上活动套餐

无障碍浏览 进入关怀版