网易首页 > 网易号 > 正文 申请入驻

通义实验室大火的 WebAgent 续作:全开源模型方案超过GPT4.1

0
分享至



WebAgent 续作《WebShaper: Agentically Data Synthesizing via Information-Seeking Formalization》中,作者们首次提出了对 information-seeking(IS)任务的形式化建模并基于该建模设计了 IS 任务训练数据合成方法,并用全开源模型方案取得了GAIA 评测最高 60.1 分的 SOTA 表现

WebShaper 补足了做 GAIA、Browsecomp 上缺少高质量训练数据的问题,通义实验室开源了高质量 QA 数据!

WebShaper 体现了通义实验室对 IS 任务的认知从前期的启发式理解到形式化定义的深化。



  • GitHub 链接:https://github.com/Alibaba-NLP/WebAgent
  • huggingface 链接:https://huggingface.co/datasets/Alibaba-NLP/WebShaper
  • model scope 链接:https://modelscope.cn/datasets/iic/WebShaper



图表 1:WebShaper 在 GAIA 上取得开源方案 SOTA。

WebShaper —— 合成数据范式的转变

在大模型时代,「信息检索(Information Seeking, IS)」早已不是简单的 「搜索 + 回答」 那么简单,而是 AI 智能体(Agent)能力的重要基石。无论是 OpenAI 的 Deep Research、Google 的 Gemini,还是国内的 Doubao、Kimi,它们都把 「能不能上网找信息」 当作核心竞争力。

系统性地构造高质量的信息检索训练数据成为激发智能体信息检索能力的关键,同时也是瓶颈。当前主流方法依赖 「信息驱动」 的合成范式 —— 先通过网络检索构建知识图谱,再由大模型生成问答对(如 WebDancer、WebWalker 等方案)。这种模式存在两大缺陷:知识结构与推理逻辑的不一致性,以及预检索内容的局限导致的任务类型、激发能力和知识覆盖有限。



图表 2:WebShaper 从 「信息驱动」到 「形式化驱动」 的范式转变。

WebShaper 系统开创性提出 「形式化驱动」 新范式,通过数学建模 IS 任务,并基于该形式化,检索信息,合成训练数据。形式化驱动的优点包括:

1. 全域任务覆盖 :基于形式化框架的系统探索,突破预检索数据边界,实现覆盖更广任务、能力、知识的数据生成。

2. 精准结构控制 :通过形式化建模,可精确调控推理复杂度与逻辑结构。

3. 结构语义对齐 :任务形式化使信息结构和推理结构一致,减少数据合成中产生的错误。

Information Seeking 形式化建模



图表 3: 形式化建模

WebShaper 首先提出基于集合论的 IS 任务形式化模型。

该模型包含核心概念「知识投影(Knowledge Projection)」,他是一个包含实体的集合:

  • 每个 IS 任务都由 KP 的 R - 并集(R-Union)、交集(Intersection)、递归操作构成,能够精准控制推理路径和任务复杂度;
  • 每个 IS 任务旨在确定一个复杂的由 KP 组合而成的目标集合 T 中包含的实体。

该形式化建模让 WebShaper 不再依赖自然语言理解的歧义,而是可控、可解释、可扩展的数据合成方案。

智能体式扩展合成:让 Agent 自己 「写题」

为了与形式化建模保持一致,WebShaper 整个流程开始于预先构建且形式化的基础种子任务,然后在形式化的驱动下,将种子问题多步扩展为最终的合成数据。此过程采用专用的代理扩展器 (Expander) 模块,旨在通过关键过程 (KP) 表征来解释任务需求。在每个扩展阶段,系统都会实现逐层扩展机制,以最小化冗余,同时通过控制复杂度进程来防止推理捷径。

种子任务构建

为了构建种子任务,作者下载了全部 WikiPedia,并在词条中随机游走检索信息,合成基础的种子 IS 任务。

KP 表示

IS 任务形式化模型是复杂度的,其中包含大量的交、R - 并和递归操作。为了在 Expander 中表示和使用该模型,作者提出了一种 KP 表示。其中通过引入 「变量」 和 「常量」,以及 R - 并的可交换性质,表示了 IS 形式化模型。

如,将如下的问题:

「Which player of a team in the 2004-05 season, who was born in 90s? This team is founded in 1966 and is an East German football team.」

表示为:



图表 4 :形式化表示。

逐层扩展结构

数据扩展的策略是数据合成的关键。之前的方法在我们的形式化模型中将得到下图中的 Random Structure 和 Sequential Structure:



图表 5 :扩展策略对比。

这样的结构存在两个问题:

  • 冗余性: 如上图中的 Random Structure 所示,存在一些已知常量与其他已知常量相联系。在这种情况下,诸如 「柏林迪纳摩是一家位于柏林的足球俱乐部」这样的句子会存在于问题中。然而,这并没有增加任务解决的推理链。
  • 推理捷径: 如上图中的 Sequential Structure 所示,存在一个将常量直接连接到目标的推理链条。如果发生这种情况,模型可能会通过仅推理较近的常量而忽略较深的序列来猜测答案。

为此,作者提出如上图所示的逐层结构,每次扩展都选择叶结点常量进行扩展,有效地解决了上述的两个问题。

扩展智能体

具体扩展是由 Expander 智能体负责执行,他接受当前问题的形式化表示:

  • 根据图结构层次遍历找到可扩展常量节点;
  • 调用搜索、网页摘要、验证等工具;
  • 自动生成形式化任务、并进行答案验证和复杂度过滤。

这一步,使得我们不仅能构建覆盖度广的任务,更能确保任务正确性和推理链条的严谨性,大幅减少错误传播。

Agent 训练

基于形式化生成的高质量任务和完整的行为轨迹,作者使用监督微调(SFT)+ GRPO 强化学习策略来训练 Agent。WebShaper 最终得到 5k 的训练轨迹。

训练后,模型在 GAIA 基准任务中获得:

  • 60.1 分,超越所有开源方案
  • 闭源模型 GPT4.1 只有 40.7 分、Claude Sonnet4 58.2 分、O4 mini 66.99

我们在全使用开源模型方案下拉近了用最强闭源模型 o4 mini 的差距,大幅领先第二名的开源方案。



图表 6 :与最新基线方法的对比。

进一步分析

论文中,作者还进一步分析了数据和训练模型,发现:

1. WebShaper 数据领域覆盖充分。

2. 在 WebShaper 数据上,通过 RL 训练能大幅激发模型的 IS 能力。

3. 消融实验验证了形式化建模和逐层扩展策略的有效性。

4. 求解 WebShaper 任务,相比于基线数据要求更多的智能体 action。

为什么这件事重要?

  • 任务形式化= WebShaper 是基于形式化任务合成数据的开端。该思想可以扩展于相比 IS 更为复杂的任务。
  • 数据质量 = Agent 能力上限。好的智能体,先要有好的训练任务。
  • Agentic 数据合成 = 智能体数据构建需要结合推理和信息检索,使用 agent 合成数据可以大幅减少中间过程开销和误差传递
  • 开源共享 = 社区生态繁荣。我们相信,用最开放的方式推动最前沿的研究,是 AI 发展的正路。

用开源数据 + 模型做到 GAIA 60 分,你也可以。

现在就来试试:https://github.com/Alibaba-NLP/WebAgent

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
解放军演习刚结束,日媒憋不住喊话中方,话音刚落,高市再曝丑闻

解放军演习刚结束,日媒憋不住喊话中方,话音刚落,高市再曝丑闻

博览历史
2026-01-02 13:25:22
台媒:FIBA因政治因素修改中国台北男篮主场;中国男篮主场或放到韩国

台媒:FIBA因政治因素修改中国台北男篮主场;中国男篮主场或放到韩国

懂球帝
2026-01-02 16:11:09
两岸局势达到关键节点,中方向世界通报两件事,统一进入读秒阶段

两岸局势达到关键节点,中方向世界通报两件事,统一进入读秒阶段

梁讯
2026-01-01 21:55:58
小卡末节20分细节:上篮时脸被抠出血 爵士竟挑战成功激出战神卡

小卡末节20分细节:上篮时脸被抠出血 爵士竟挑战成功激出战神卡

Emily说个球
2026-01-02 14:43:26
1956年不愿被提及的罗源湾空战,原志愿军王牌飞行员被击落牺牲

1956年不愿被提及的罗源湾空战,原志愿军王牌飞行员被击落牺牲

兴趣知识
2025-12-31 02:34:52
大鱼来了——俄60摩步旅指挥机构遭团灭,旅长在内45人被打死

大鱼来了——俄60摩步旅指挥机构遭团灭,旅长在内45人被打死

史政先锋
2026-01-02 16:04:44
茅台巨震,黄牛的噩梦才刚刚开始

茅台巨震,黄牛的噩梦才刚刚开始

首席品牌观察
2026-01-02 14:51:07
蔡正元博士:待我出狱之日台湾已变成特别行政区了!

蔡正元博士:待我出狱之日台湾已变成特别行政区了!

达文西看世界
2026-01-02 17:54:56
连续多年财务造假!002055,将被ST!下周一停牌

连续多年财务造假!002055,将被ST!下周一停牌

中国基金报
2026-01-02 11:39:30
15票赞成0票反对,安理会全票通过决议,美俄立场一致,中方表态

15票赞成0票反对,安理会全票通过决议,美俄立场一致,中方表态

历史有些冷
2026-01-01 18:55:06
四川女外卖员失联后续:尸体已找到,现场画面曝光,有个两岁娃

四川女外卖员失联后续:尸体已找到,现场画面曝光,有个两岁娃

社会日日鲜
2026-01-01 12:42:07
四川多名游客合伙爬上大佛拿走“香火钱”,景区回应:已报警

四川多名游客合伙爬上大佛拿走“香火钱”,景区回应:已报警

半岛晨报
2026-01-02 17:16:12
江苏女子称奶奶去世公司不批假还被逼离职,公司法人回应:“上班摸鱼,害群之马!”

江苏女子称奶奶去世公司不批假还被逼离职,公司法人回应:“上班摸鱼,害群之马!”

潇湘晨报
2026-01-01 18:41:14
男子疑妻子出轨编理由在酒店调取监控,男子、酒店工作人员均被行政处罚

男子疑妻子出轨编理由在酒店调取监控,男子、酒店工作人员均被行政处罚

极目新闻
2026-01-02 16:53:14
新生儿跌破900万,毕业生却冲上1300万:一代人的错配人生

新生儿跌破900万,毕业生却冲上1300万:一代人的错配人生

虎嗅APP
2026-01-01 22:51:15
2026年的第一天,“我的贷款逾期记录消除了”,多地网友晒出截图:赶上好时候了

2026年的第一天,“我的贷款逾期记录消除了”,多地网友晒出截图:赶上好时候了

每日经济新闻
2026-01-01 22:43:32
著名空气动力学和船舶流体力学专家、哈工程原校长吴德铭逝世

著名空气动力学和船舶流体力学专家、哈工程原校长吴德铭逝世

澎湃新闻
2026-01-02 19:02:26
大巴紧急避险冲上护栏车头悬空险坠入黄河,售票员发声:事发上午9点多,桥上雾气大能见度低,司机为避免撞车猛打方向盘

大巴紧急避险冲上护栏车头悬空险坠入黄河,售票员发声:事发上午9点多,桥上雾气大能见度低,司机为避免撞车猛打方向盘

极目新闻
2026-01-02 18:18:53
29岁渐冻症女孩“重生”,吃了蔡磊团队研发药物2年,“这个药用在我身上有用,病情没再发展”

29岁渐冻症女孩“重生”,吃了蔡磊团队研发药物2年,“这个药用在我身上有用,病情没再发展”

观威海
2026-01-02 10:14:04
2025车市分水岭:淘汰内卷,狂卷效率

2025车市分水岭:淘汰内卷,狂卷效率

汽车商业评论
2026-01-02 11:04:05
2026-01-02 21:08:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12031文章数 142527关注度
往期回顾 全部

科技要闻

新势力年榜:零跑险胜华为,蔚来小鹏新高

头条要闻

俄方深夜向美递交请求 要求美停止追截"贝拉1"号油轮

头条要闻

俄方深夜向美递交请求 要求美停止追截"贝拉1"号油轮

体育要闻

NBA最没存在感的状元,什么水平?

娱乐要闻

田亮一家新年全家福!森碟变清纯少女

财经要闻

车企2026开年大促 含16个品牌近70款

汽车要闻

方程豹全年销量超23.4万辆 同比暴增316.1%

态度原创

时尚
旅游
房产
亲子
游戏

2026春夏十大流行色

旅游要闻

"中国雪都・我的阿勒泰"号旅客列车 为冰雪旅游注入强劲动能

房产要闻

海大誉府新年家年华暨2号楼耀世加推发布会圆满落幕

亲子要闻

这是所有奶奶的梦中情孙,饭渣妈妈的梦中情孩吗? 杨雪呀

疑似宝可梦第十世代早期画面泄露!引发网友热议

无障碍浏览 进入关怀版