网易首页 > 网易号 > 正文 申请入驻

大厂数据护城河打破!上交全开源Search Agent OpenSeeker登场

0
分享至

来源:市场资讯


一直以来,高性能 Search Agent 都像是 “大厂的专属游戏”。虽然业界涌现了许多开源模型,但真正决定 Agent 能力上限的 “高质量训练数据” 却始终被各大企业严格保密,形成了一道坚固的数据护城河。这种持续的数据稀缺,极大地阻碍了广大研究社区在这一领域的创新与发展。

今天,由上海交通大学研究团队推出的 OpenSeeker 彻底打破这一现状!

作为首个纯学术团队打造,完整开源模型 + 100% 全量训练数据的前沿深度搜索 Agent,OpenSeeker 证明了:不靠堆砌算力资源,依靠极高的数据合成质量,学术界同样能跑出 SOTA!在同等条件下(约 30B 参数量、纯 ReAct 架构),OpenSeeker 仅需 11.7k 合成样本进行单轮 SFT(监督微调),便在多个前沿榜单上取得了 SOTA 成绩。


  • GitHub: https://github.com/rui-ye/OpenSeeker

  • 全量训练数据: https://huggingface.co/datasets/OpenSeeker/OpenSeeker-v1-Data

  • 模型权重: https://huggingface.co/OpenSeeker/OpenSeeker-v1-30B-SFT

  • Huggingface Paper: https://huggingface.co/papers/2603.15594

  • 论文直达: https://arxiv.org/pdf/2603.15594

核心亮点速览

  • 纯学术团队打造,打破大厂垄断:完全开源所有训练数据(QA + 轨迹)和模型,为研究人员提供高质量数据基础,无需依赖企业级规模资源,也能探索与构建下一代 Search Agent。

  • 跨榜单 SOTA,越级挑战强化学习模型:在 BrowseComp-ZH 榜单上取得 48.4% 的成绩,直接超越了阿里 Tongyi DeepResearch 通过采用 CPT(持续预训练)、SFT(监督微调)和 RL(强化学习)多轮复杂训练得出的 46.7%。在约 30B 级纯 SFT 模型中,全面斩获第一(BrowseComp 29.5 /xbench 74.0 / WideSearch 59.4)

核心技术揭秘:

突破大厂数据瓶颈的高质量数据合成方案

要有效训练深度搜索 Agent,核心在于解决两个关键问题:首先,必须构建足够高难度的问答任务,以激发模型“推理 → 工具调用 → 工具反馈”的多轮工具调用能力,从而形成包含明确决策节点和长工具调用链的长程交互轨迹;其次,需要通过稳定且可复现的方法生成高质量解题轨迹,确保训练信号学习到的是正确且可泛化的策略,而非依赖随机采样产生的偶然成功。

为此,OpenSeeker 进一步提出基于真实网页结构的事实锚定问答构建与动态去噪轨迹合成方法,以系统性提升多跳推理能力与信息提取能力。

1. 基于事实锚定的问答构建:基于真实网页图谱构造高难度多跳问题


现有的检索任务往往容易被模型通过简单的模式匹配 “走捷径”。为了逼迫模型进行真正的多跳推理,OpenSeeker 直接从海量真实网页的图结构出发进行逆向工程。

  • 从随机种子页面出发进行拓扑图扩展,寻找互联的信息簇并提取出实体子图。

  • 引入实体混淆机制,将具体实体模糊化,把简单的事实转化为复杂的推理谜题。

OpenSeek QA 合成的方法,不仅保证了数据的真实可信,还从结构上强制模型必须进行多步导航与深度推理。

2. 动态去噪轨迹合成:基于非对称上下文构建,强化嘈杂环境下的核心信息提取


真实的网页环境充满了冗长且无关的噪音。为了合成高质量的动作轨迹,OpenSeeker 设计了一套非对称的 “动态上下文去噪” 策略:

  • 生成阶段(Teacher):引入回顾性总结机制,将上一步的嘈杂工具返回结果压缩为干净摘要,让 Teacher 模型在无噪的上下文中生成专家级的推理和工具调用。

  • 训练阶段(Student):在训练时撤掉摘要,给模型喂入原始的、未经压缩的嘈杂工具返回结果,倒逼其预测 Teacher 的高质量决策

该方法激发 OpenSeeker 从嘈杂的真实网页环境中学习到了强大的信息提取与去噪能力。

实验结果:11.7k 数据的越级挑战

11.7k 数据单轮 SFT,媲美大厂表现:OpenSeeker 仅使用 11.7k 样本和 SFT 进行单轮训练,便展现出媲美甚至超越大厂资源密集型模型的竞争力。令人瞩目的是,在 BrowseComp-ZH 榜单上,仅采用单轮简单 SFT 训练的 OpenSeeker-v1-30B-SFT 取得了 48.4% 的高分,超越经历了持续预训练 (CPT)、SFT 和强化学习 (RL) 多阶段训练的 Tongyi DeepResearch (46.7%)。


纯 SFT 与 ReAct 架构下的 SOTA 表现:在同为 SFT 训练的 ReAct Agent 竞争中,OpenSeeker 取得 SOTA。仅凭借 11.7k 数据,OpenSeeker 在 BrowseComp (29.5)、BrowseComp-ZH (48.4)、xbench (74.0) 和 WideSearch-EN (59.4) 四大榜单上均取得最优成绩,显著拉开了与阿里巴巴通义实验室提出的 WebSailor-V2、WebLeaper 等同类开源模型的差距。


同等数据规模下的显著优势,凸显极高数据质量:在控制数据量规模可比的情况下(10k-15k 级别),OpenSeeker 的数据质量明显优于阿里巴巴通义实验室的 WebSailer-V2 和 WebLeaper 的各类组合版本,在各项指标上均保持显著优势。


远超 Benchmark 的数据难度:为了量化数据难度,研究团队使用相同的模型对合成数据和标准 Benchmark 进行了推理对比。结果显示:

  • 合成的中文数据难度远超 BrowseComp-ZH:每条轨迹平均需要进行 46.35 次工具调用,平均 token 长度高达 76.1k;而 BrowseComp-ZH 分别仅为 26.98 次和 15.1k tokens。

  • 英文数据的难度也达到了与 BrowseComp-EN 相媲美的水平。


社区反响:真正推动领域发展的底层开源支撑

OpenSeeker 一经发布,便在海外社交平台和开源社区引发了热烈反响。许多研究者与开发者纷纷表示,这正是目前学术界最迫切需要的破局之作:


  • 明确科研与数据的边界:“这才是真正能推动领域发展的开源发布。全量训练数据加上 30B 模型,让研究人员终于能区分出,性能的提升到底是来自真正的方法创新,还是仅仅因为吃了闭源数据的红利。”

  • 打破数据垄断:“现在,大家终于可以在没有‘数据守门人’限制的情况下,自由构建多步智能体了!”

  • 呼唤已久的透明度:“AI Agent 终于迎来了数据透明,太令人振奋了!”、“开源再次胜利!”

这不仅是一个 SOTA 模型,更是赋能整个学术界探索下一代 Search Agent 的坚实基座。

全面开源,即刻体验!

OpenSeeker 作为首个由纯学术团队打造、模型与全量训练数据完全开源的深度搜索 Agent,从根本上打破了长期以来由大厂构筑的数据护城河,真正为科研人员提供了可直接使用、可复现、可扩展的高质量研究数据基础。这一开放不仅降低了前沿 Search Agent 研究的门槛,更让研究者能够专注于方法创新本身,而不再受限于数据。打破闭源垄断,让前沿研究不再遥不可及。也期待更多开发者与研究者加入,共同探索下一代 Agent 的可能性,欢迎 Star 关注并上手体验!

作者介绍:

本文共同第一作者为上海交通大学博士生杜钰文与叶锐,其中叶锐为项目负责人,指导老师为上海交通大学人工智能学院陈思衡教授,主要研究方向为 AI Agents、Agentic Science 等领域。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
4月1日全国天眼全覆盖!8大开车陋习严查,扣分罚款早知道

4月1日全国天眼全覆盖!8大开车陋习严查,扣分罚款早知道

复转这些年
2026-03-31 19:41:26
游客同里古镇景区拍照遭商家驱赶抢夺手机,当地:对涉事商户停业整改

游客同里古镇景区拍照遭商家驱赶抢夺手机,当地:对涉事商户停业整改

都市快报橙柿互动
2026-04-01 10:59:51
谁“毁”了单依纯?是常石磊的再造,还是被过早采摘的宿命?

谁“毁”了单依纯?是常石磊的再造,还是被过早采摘的宿命?

非常先生看娱乐
2026-03-31 16:20:58
阿根廷5-0,可怕的不是大胜,而是梅西的无私!卫冕世界杯真有戏

阿根廷5-0,可怕的不是大胜,而是梅西的无私!卫冕世界杯真有戏

球场没跑道
2026-04-01 10:06:19
演员宋宁峰发长文回应出轨,并宣布无限期暂停所有演艺工作

演员宋宁峰发长文回应出轨,并宣布无限期暂停所有演艺工作

韩小娱
2026-04-01 11:15:08
演员宋宁峰道歉,宣布无限期暂停演艺工作,“都是我的错,是我出轨在先,女儿,爸爸对不起你”

演员宋宁峰道歉,宣布无限期暂停演艺工作,“都是我的错,是我出轨在先,女儿,爸爸对不起你”

都市快报橙柿互动
2026-04-01 11:46:55
震惊!网传一家族群清明收费1850元,网友:我老死也不与家族来往

震惊!网传一家族群清明收费1850元,网友:我老死也不与家族来往

火山詩话
2026-03-31 16:22:45
武汉多辆“萝卜快跑”车辆停在路中间无法移动,业内人士分析:或因系统安全自检导致车辆停摆,武汉交警通报:无人员受伤,详细原因还在进一步调查

武汉多辆“萝卜快跑”车辆停在路中间无法移动,业内人士分析:或因系统安全自检导致车辆停摆,武汉交警通报:无人员受伤,详细原因还在进一步调查

极目新闻
2026-04-01 07:37:39
AI妓馆爆了!成人行业彻底变天!

AI妓馆爆了!成人行业彻底变天!

广告案例精选
2026-04-01 08:47:04
刚从日本回来,说点不中听的:日本的真实面目,可能让你很意外

刚从日本回来,说点不中听的:日本的真实面目,可能让你很意外

复转这些年
2026-04-01 09:17:19
中巴呼吁立即停火止战

中巴呼吁立即停火止战

环球时报国际
2026-04-01 11:55:26
34岁法国车手,骑张雪机车在顶级赛事中夺冠:曾在圈内人眼里已完全告别主流摩托赛事,“落魄十年”重回巅峰

34岁法国车手,骑张雪机车在顶级赛事中夺冠:曾在圈内人眼里已完全告别主流摩托赛事,“落魄十年”重回巅峰

极目新闻
2026-03-31 20:09:28
并列历史第一!詹姆斯第19次晋级季后赛 追平斯托克顿马龙纪录

并列历史第一!詹姆斯第19次晋级季后赛 追平斯托克顿马龙纪录

醉卧浮生
2026-04-01 09:51:03
中国有源相控阵雷达真实水平:并非世界第一,和美差距有多大

中国有源相控阵雷达真实水平:并非世界第一,和美差距有多大

番外行
2026-04-01 08:26:20
打!倾家荡产也要打!以色列最新民调:75%民众要求死磕到底!

打!倾家荡产也要打!以色列最新民调:75%民众要求死磕到底!

共工之锚
2026-03-30 15:16:22
金与正“转正”,朝鲜前总理变副总理

金与正“转正”,朝鲜前总理变副总理

中国新闻周刊
2026-04-01 07:35:12
美国纽约市宣布撤销政府设备使用TikTok禁令

美国纽约市宣布撤销政府设备使用TikTok禁令

界面新闻
2026-04-01 13:14:27
19岁女生被困柬埔寨,绑匪正脸照曝光,网友放话:你的下场会很惨

19岁女生被困柬埔寨,绑匪正脸照曝光,网友放话:你的下场会很惨

央小北
2026-04-01 02:35:51
美国国防部长:考虑到部分盟友拒绝提供帮助,特朗普将在对伊朗军事行动结束后就北约的未来作出决定

美国国防部长:考虑到部分盟友拒绝提供帮助,特朗普将在对伊朗军事行动结束后就北约的未来作出决定

潇湘晨报
2026-03-31 21:53:15
伟伟道来 | 全世界都在猜,美军要打哪里?

伟伟道来 | 全世界都在猜,美军要打哪里?

经济观察报
2026-04-01 10:55:06
2026-04-01 13:39:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2713789文章数 6321关注度
往期回顾 全部

科技要闻

营收翻倍、巨亏31亿!中国大模型太烧钱了

头条要闻

媒体:全世界都在猜美军要打哪里 美军或有三个目标

头条要闻

媒体:全世界都在猜美军要打哪里 美军或有三个目标

体育要闻

NBA扩军,和篮球无关?

娱乐要闻

宋宁峰人设崩塌!带娃偷情+反向索赔

财经要闻

电商售械三水光针 机构倒货or假货猖獗?

汽车要闻

2026年3月小米汽车交付超2万台 新SU7上市即交付

态度原创

游戏
教育
手机
公开课
军事航空

《红色沙漠》翻身成功!好评率不降反升 3A游戏罕见

教育要闻

2026年高考生必看!这6个专业就业前景火爆,填报不踩雷

手机要闻

大上科技墨水屏手机投屏器Link第二代发布,支持60Hz高刷

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普:想要石油自己去霍尔木兹抢 我最想抢伊朗石油

无障碍浏览 进入关怀版