网易首页 > 网易号 > 正文 申请入驻

阿里发布信息检索Agent,可自主上网查资料,GAIA基准超越GPT-4o

0
分享至

不圆 发自 凹非寺
量子位 | 公众号 QbitAI

Agent能“看懂网页”,像人类一样上网

阿里发布WebDancer,就像它的名字一样,为“网络舞台”而生。

只要输入指令,它就可以帮你上网搜索、做攻略,实现自主信息检索代理和类似深度研究模型的推理。

传统模型只能按固定流程思考,而WebDancer作为一个端到端的自主信息搜索智能体,具备多步推理、工具使用和泛化能力。

WebDancer在GAIA和WebWalkerQA上分别取得了61.1%和54.6%的Pass@3分数,优于基线模型和部分开源框架。

模型和方法均已开源,网友直呼想试:

WebDancer的秘密武器

不同于其它的推理问答模型,WebDancer要像人类一样思考、理解并操作,可不是一件简单的事情。

使用GAIA、WebWalkerQA和日常使用情况对WebDancer进行演示,可以看到,WebDancer能够执行多步骤和复杂推理的长期任务,例如网页遍历、信息搜索和问答。

它的“秘密武器”是一种四阶段训练范式,包括浏览数据构建、轨迹采样、针对有效冷启动的监督微调以及用于改进泛化能力的强化学习。

阿里开源了这个训练框架,使除了WebDancer以外的智能代理也能够自主获取自主搜索和推理技能:

1、浏览数据构建

这一步的目标是创建覆盖真实的网页环境、需要多步交互的复杂QA对。

可以分为两个网络数据生成流程,如上图所示。

在CRAWLQA中,需要先收集知识性网站(ArXiv、GitHub、Wiki等)的主URL,然后在主页上系统地点击和收集通过子链接可访问的子页面,模拟人类行为。

使用预定义规则,就可以利用GPT4o根据收集到的信息生成QA对(1.0版)了。

对于E2HQA(Easy-to-Hard QA)来说,将初始的简单问题Q1通过实体检索→信息扩展→问题重构的步骤,使任务在复杂性上逐步扩展,从简单的实例到更具挑战性的实例。

依然是使用GPT-4o重写问题,直到迭代达到n,QA对足够成熟。

2、轨迹采样

这一步要从QA对中生成高质量的思维-动作-观察(Thought-Action-Observation)执行轨迹。

WebDancer的代理框架基于ReAct,这是语言代理最流行的方法,一个ReAct轨迹由多个思维-动作-观察轮次组成:

在思维阶段,模型会根据输入生成推理链,然后在动作阶段将参数为结构化JSON,最后在观察阶段返回结果(如网页摘要或搜索片段)

思维阶段生成的思维链对智能体执行十分重要,WebDancer采用了双路径采样的方法,可分为短思维链和长思维链两条路径:

  • 短思维链适用于单步骤任务,直接使用GPT-4o生成简洁轨迹;
  • 长思维链适用于多步骤任务,使用专用推理模型(LRMs、QwQ-Plus)生成带长链推理的轨迹。

因为LRM、QwQ-Plus在训练过程中没有接触过多步推理输入,在进一步推理时,WebDancer排除了之前的思维,但它们作为有价值的监督信号保留在了生成的轨迹中。

随后,WebDancer采用了一个基于漏斗的三阶段轨迹过滤框架,仅保留满足以下三个标准的轨迹:信息非冗余、目标一致性以及逻辑推理准确性。

3、有监督微调

在获得ReAct格式的优质轨迹后,就可以将其无缝整合到智能体的有监督微调(Supervised Fine-Tuning,SFT)训练阶段,这个步骤可以教会模型基础的任务分解与工具调用能力,同时尽可能保留其原有的推理能力。

在SFT阶段,要先将轨迹转换为标记化输入,明确分隔符,然后计算Thought和Action部分的损失(忽略Observation噪声),损失公式如下:

其中tc

是任务上下文,

为完整的智能体执行轨迹,每个

代表思考/行动/观察,

过滤掉对应外部反馈的标记,确保损失是在代理的自主决策步骤上计算的。

SFT阶段为后续的RL阶段提供了强大的初始化。

4、强化学习

这一步的目标是优化代理在真实网络环境中的决策能力和泛化能力。

在SFT阶段的基础上,本阶段采用解耦裁剪动态采样策略优化算法(Decoupled Clip and Dynamic Sampling Policy Optimization,DAPO)来精调策略模型。

DAPO是一种基于奖励模型R的策略优化算法,其工作原理如下:

首先,对于每个包含部分答案

的阶段轨迹

,算法生成一组候选执行序列

。通过最大化以下目标更新策略:

随后,过采样并过滤准确率为1或0的提示(prompts),确保智能体聚焦于高质量信号的学习。

最后,采用新旧策略的概率比替代固定KL惩罚项:

奖励设计在RL训练过程中起着至关重要的作用,WebDancer的奖励机制主要由两种类型的奖励组成,分别为格式奖励和答案奖励,权重分别为0.1和0.9。

最终奖励函数为:

有效性分析

在GAIA和WebWalkerQA这两个成熟的基准数据集上测试WebDancer,结果显示,WebDancer在GAIA上达到46.6%的平均准确率,WebWalkerQA上达到43.2%,优于基线模型和部分开源智能体框架。

可以看到,不具备代理能力的框架(No Agency)在GAIA和WebWalkerQA基准测试中均表现不佳,这突出了主动信息搜索和代理决策对于这些任务的重要性。

闭源代理系统OpenAI DR通过端到端强化学习训练实现了最高分,在开源框架中,基于原生强推理模型(如QwQ-32B)构建的代理方法始终优于非代理对应方法,证明了在代理构建中利用推理专用模型的有效性。

在两个更具挑战性的数据集BrowseComp(英文)和BrowseComp-zh(中文)上测试WebDancer,均表现出持续强劲的性能,突显了其在处理困难推理和信息搜索任务中的鲁棒性和有效性。

鉴于智能体环境的动态性和复杂性,以及GAIA测试集相对较小且变化较大的特点,对Pass@3和Cons@3进行细粒度分析。

值得注意的是,经过RL后的Pass@1性能与SFT基线的Pass@3相当,表明RL能够更有效地采样正确响应。

对于语言推理模型(LRMs),虽然经过RL后Pass@1、Pass@3或Cons@3没有显著提升,但在一致性方面有明显的改善;这可能是过长轨迹导致的稀疏奖励信号所致。

参考链接:
https://x.com/_akhaliq/status/1937997314737553873
论文:https://arxiv.org/abs/2505.22648
github:https://github.com/Alibaba-NLP/WebAgent/tree/main/WebDancer
模型:https://huggingface.co/Alibaba-NLP/WebDancer-32B

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
河北男孩放寒假每天睡到中午12点,爸爸不许家人打扰:这也许是他这辈子最舒服的几年

河北男孩放寒假每天睡到中午12点,爸爸不许家人打扰:这也许是他这辈子最舒服的几年

极目新闻
2026-02-20 16:51:41
内行人预测:2026年这四大现象或将席卷全国,建议提前应对!

内行人预测:2026年这四大现象或将席卷全国,建议提前应对!

朝子亥
2026-02-20 18:00:03
6G专利断崖差距:美国35.2%,日本9.9%,中国多少?

6G专利断崖差距:美国35.2%,日本9.9%,中国多少?

乐趣纪史
2026-02-21 22:26:16
二广高速严重拥堵!湖南网友称,8点半出发,走十多小时还在耒阳

二广高速严重拥堵!湖南网友称,8点半出发,走十多小时还在耒阳

火山詩话
2026-02-21 17:01:17
2026春节,两个成都妹儿闯重庆舞厅,一下午就遭整崩溃!

2026春节,两个成都妹儿闯重庆舞厅,一下午就遭整崩溃!

成都人的故事
2026-02-21 17:16:49
刘涛回应妈祖照爆火被设壁纸:大家对世界的美好祝愿和期盼,去年被授予“妈祖文化全球推广大使”

刘涛回应妈祖照爆火被设壁纸:大家对世界的美好祝愿和期盼,去年被授予“妈祖文化全球推广大使”

大象新闻
2026-02-21 22:48:08
反常识?技术门槛很低的增程技术,为什么越卖越贵?

反常识?技术门槛很低的增程技术,为什么越卖越贵?

少数派报告Report
2026-02-21 07:58:37
演员马卫军:演了大半辈子日本人,和妻儿定居日本,67岁死在日本

演员马卫军:演了大半辈子日本人,和妻儿定居日本,67岁死在日本

手工制作阿歼
2026-02-22 01:13:51
广东过年搞卫生上热搜!网友:洗了30年没人住的旧房子,图啥?

广东过年搞卫生上热搜!网友:洗了30年没人住的旧房子,图啥?

夜深爱杂谈
2026-02-21 21:50:39
曼城vs纽卡斯尔联:哈兰德、多纳鲁马首发,特里皮尔、托纳利出战

曼城vs纽卡斯尔联:哈兰德、多纳鲁马首发,特里皮尔、托纳利出战

懂球帝
2026-02-22 03:23:06
国产固态电池量产加速!数千万新能源车主,恐成最大“接盘侠”?

国产固态电池量产加速!数千万新能源车主,恐成最大“接盘侠”?

胖福的小木屋
2026-02-19 22:31:07
98年,河南小伙娶了乌克兰女子,病逝后妻子把3个儿子国籍全改了

98年,河南小伙娶了乌克兰女子,病逝后妻子把3个儿子国籍全改了

顾史
2026-02-21 09:39:49
96小时大限到!台当局签了,最新消息从台北传来!

96小时大限到!台当局签了,最新消息从台北传来!

娱乐圈的笔娱君
2026-02-21 05:30:46
摔倒被扶反索赔22万后续:交警认定女孩3个错,评论区意外一边倒

摔倒被扶反索赔22万后续:交警认定女孩3个错,评论区意外一边倒

离离言几许
2026-02-20 17:56:22
亚伯拉罕谈进球:能够回归并再次为维拉效力感觉就像做梦一样

亚伯拉罕谈进球:能够回归并再次为维拉效力感觉就像做梦一样

懂球帝
2026-02-22 01:23:57
古巴高调反美!美国为啥不打古巴?因为古巴是最“先进”的国家

古巴高调反美!美国为啥不打古巴?因为古巴是最“先进”的国家

南宫一二
2026-01-10 17:41:19
在接吻时 中年女人有下面举动,就是动情了!不只是玩一玩

在接吻时 中年女人有下面举动,就是动情了!不只是玩一玩

热心市民小黄
2026-02-22 03:03:18
三方面因素决定“小钢炮”与赵心童半决赛或将哑火!

三方面因素决定“小钢炮”与赵心童半决赛或将哑火!

田先生篮球
2026-02-21 12:36:05
中国游客贝加尔湖遇难最新消息:7人身份全部确认,均未通过正规旅行社报名;事故后当地又发生多起陷车事故

中国游客贝加尔湖遇难最新消息:7人身份全部确认,均未通过正规旅行社报名;事故后当地又发生多起陷车事故

大风新闻
2026-02-21 23:13:45
父亲除夕独自吃饺子女儿看监控哭了, 第二天驱车800公里回家

父亲除夕独自吃饺子女儿看监控哭了, 第二天驱车800公里回家

观威海
2026-02-20 06:38:05
2026-02-22 05:56:49
量子位 incentive-icons
量子位
追踪人工智能动态
12186文章数 176389关注度
往期回顾 全部

科技要闻

智谱上市1月涨5倍,市值超越京东、快手

头条要闻

贝加尔湖7名遇难者身份全部确认 1家4口仅1人生还

头条要闻

贝加尔湖7名遇难者身份全部确认 1家4口仅1人生还

体育要闻

徐梦桃:这是我第一块铜牌 给我换个吉祥物

娱乐要闻

黄晓明澳门赌博输十几亿 本人亲自回应

财经要闻

一觉醒来,世界大变,特朗普改新打法了

汽车要闻

比亚迪的“颜值担当”来了 方程豹首款轿车路跑信息曝光

态度原创

数码
教育
健康
本地
艺术

数码要闻

AMD RX 9060 XT成功超频4.769GHz!打破世界纪录

教育要闻

高考地理中的河流凹凸岸

转头就晕的耳石症,能开车上班吗?

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

艺术要闻

他的肖像画和人体画,竟让人赞叹不已!

无障碍浏览 进入关怀版