网易首页 > 网易号 > 正文 申请入驻

阿里开源智能体WebSailor,又刷新了多项纪录

0
分享至


作者 江宇
编辑 漠影

  智东西AI前瞻7月8日报道,昨日,阿里巴巴通义实验室正式开源其最新网络智能体WebSailor,该智能体在多个高难度任务评测中刷新了开源系统的最好成绩,成为首个在BrowseComp等基准上逼近闭源系统能力的开源方案。

  WebSailor可在开放网页环境中自主跳转页面、查找信息、整合多源线索并完成推理,适用于处理路径不明确、问题模糊、需多步判断的复杂检索任务。

  7月3日,WebSailor技术报告在Hugging Face Papers当日热度榜中排名第一,成为当天关注度最高的AI论文之一。

  该项目的模型代码、训练方法与评测数据集也已同步在GitHub开源。

  GitHub地址:https://github.com/Alibaba-NLP/WebAgent

  

  一、评测表现:首次在BrowseComp任务中追近闭源模型

  WebSailor-72B版本在三大公开评测集上表现突出:

  1、BrowseComp-en:12.0%

  2、BrowseComp-zh:30.1%

  3、GAIA(信息检索子集):55.4%

  

  其中,BrowseComp是由OpenAI发布的网页智能体评测集,覆盖1266个难度极高的检索任务,考察模型在开放网页上的搜索、筛选、整合和推理能力。

  在BrowseComp等评测中,WebSailor在开源智能体中实现断层领先,超过DeepSeek R1等开源方案,并首次在多个指标上逼近Grok-3、Doubao-Search等闭源方案。

  值得注意的是,尽管训练聚焦高难任务,WebSailor在面向初级问答的SimpleQA子集上也展现出泛化能力。

  在该任务中,WebSailor-72B取得93.5%的准确率,超过包括WebDancer、WebThinker、DeepSeek等多种方案。

  

  WebSailor在多个维度评测中均位列开源智能体第一,进一步缩小了与OpenAI DeepResearch等闭源系统的差距。

  二、打造高不确定性任务集,提升Agent复杂推理能力

  WebSailor的核心突破在于其完整的后训练(post-training)方案,贯穿数据生成、冷启动调优、强化学习三大阶段:

  1、高不确定性任务合成

  通义团队构建了名为SailorFog-QA的问答数据集,旨在模拟高不确定性、模糊路径的信息检索任务,采用以下方式生成问题样本:

  通过“随机游走”模拟网页跳转行为,在真实网页中构建复杂知识图谱;

  利用“图结构采样 + 信息模糊化”处理,制造多跳、非线性、起点不明的问题,提升任务不确定性。

  2、冷启动微调(RFT)

  该智能体基于Qwen-2.5(3B、7B、32B、72B)系列模型进行初始化,并通过对专家路径的压缩重构,生成清晰的中间推理步骤,从而增强其在复杂任务路径中的可控性与稳定性。

  3、高效强化学习算法:DUPO

  WebSailor引入强化学习新算法Duplicating Sampling Policy Optimization(DUPO),采用双阶段动态采样策略:

  RL前期:剔除过于简单的问题,集中训练高难度轨迹;

  RL训练中:重复采样困难轨迹结果,并加入当前批次以高效迭代。

  该策略在提升效果的同时,将复杂Agent的强化学习训练速度提升2–3倍。

  三、产品线布局:从基准构建,到原生浏览器智能体

  WebSailor是通义实验室“Web智能体”系列的第三项重要发布

  WebWalker(2025年1月):主攻网页任务评测基准构建,提升评测标准化与复现性;

  WebDancer(2025年5月):关注自主检索Agent策略学习,强化信息搜集与自决能力;

  WebSailor(2025年7月):整合任务构建、调优与强化学习方法,首次在开源系统中实现对闭源系统的能力追近。

  通义团队称,后续将继续扩展该系列,构建“基于浏览器的原生智能体框架”,适配更多开放式、跨模态的复杂推理场景。

  结语:朝“开源版DeepResearch”迈进一步

  从大规模任务合成到高效强化学习,从Benchmarks构建到模型开源,WebSailor正逐步进化。

  虽然距离OpenAI等闭源系统仍有差距,但其在复杂任务上的大幅进展,正在为“开源Agent可用化”提供新的可能性。

  如果说DeepResearch代表了闭源网络Agent的能力上限,那么WebSailor的诞生,或许意味着开源世界正开始接近那道分水岭。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
章泽天婚变传闻仅10天,31岁高调官宣喜讯,喜结良缘终成真

章泽天婚变传闻仅10天,31岁高调官宣喜讯,喜结良缘终成真

何嗀爱捕渔
2025-11-18 19:00:17
刘青山被枪毙40年后,他亲弟弟公开发言,对毛主席的决定作出评价

刘青山被枪毙40年后,他亲弟弟公开发言,对毛主席的决定作出评价

兴趣知识
2025-11-20 02:31:34
高市拒绝认错,6国为日本撑腰,中方措辞变了,我军穿过大隅海峡

高市拒绝认错,6国为日本撑腰,中方措辞变了,我军穿过大隅海峡

卷史
2025-11-17 17:08:23
A股:刚刚,人民日报释放一个明确信号,周四,将迎来关键变盘

A股:刚刚,人民日报释放一个明确信号,周四,将迎来关键变盘

云鹏叙事
2025-11-20 00:00:03
我国古代4大旷世文章,一生必背的4篇千古奇文,谁能够排在第一?

我国古代4大旷世文章,一生必背的4篇千古奇文,谁能够排在第一?

掠影后有感
2025-11-18 11:14:38
你做过最疯狂的事是什么?网友:在公园亲了一小时

你做过最疯狂的事是什么?网友:在公园亲了一小时

解读热点事件
2025-10-11 00:20:03
提醒:这5种疾病,多晒太阳就能预防,别不信!

提醒:这5种疾病,多晒太阳就能预防,别不信!

DrX说
2025-11-14 14:00:05
还好没选国足!25岁华裔球员转换会籍仅3月,如今要去踢世界杯了

还好没选国足!25岁华裔球员转换会籍仅3月,如今要去踢世界杯了

绿茵舞着
2025-11-20 00:03:16
陈赓在上海养病时遇粟裕,提议:“你官比我大,大房间让你住”

陈赓在上海养病时遇粟裕,提议:“你官比我大,大房间让你住”

兴趣知识
2025-11-20 03:35:30
年终奖我一毛没有,打卡离开,退公司群,老板:八千万订单只认你

年终奖我一毛没有,打卡离开,退公司群,老板:八千万订单只认你

朝暮书屋
2025-11-07 18:22:47
高建民同志逝世,中央有关领导同志以不同方式表示哀悼

高建民同志逝世,中央有关领导同志以不同方式表示哀悼

政知新媒体
2025-11-19 20:17:54
26岁天才股神坦言:炒股最笨的方法反而最有效,越简单越容易赚钱

26岁天才股神坦言:炒股最笨的方法反而最有效,越简单越容易赚钱

股经纵横谈
2025-11-19 20:56:05
广州这个夜市火了!TVB新闻报道,有摊档一日营业额可达1.5万!

广州这个夜市火了!TVB新闻报道,有摊档一日营业额可达1.5万!

羊城攻略
2025-11-19 23:32:36
大批中国人依然去日本旅游,日媒追问时,他们的回答太扎心了

大批中国人依然去日本旅游,日媒追问时,他们的回答太扎心了

小小包工头阿汾
2025-11-19 01:12:46
外交部:如果日方一错再错,中方将不得不采取严厉坚决的反制措施

外交部:如果日方一错再错,中方将不得不采取严厉坚决的反制措施

每日经济新闻
2025-11-19 17:10:05
力压吴艳妮夺金!广东女将刘景扬:用青春做了场自我实现的梦

力压吴艳妮夺金!广东女将刘景扬:用青春做了场自我实现的梦

南方都市报
2025-11-19 23:03:10
不要低估日本先发制人击沉福建舰的威胁,应该学习美苏对日做法!

不要低估日本先发制人击沉福建舰的威胁,应该学习美苏对日做法!

环球策论
2025-11-19 00:10:39
残骸照曝光!俄国防部:乌军发射4枚美制ATACMS导弹袭击俄目标,被全部击落

残骸照曝光!俄国防部:乌军发射4枚美制ATACMS导弹袭击俄目标,被全部击落

环球网资讯
2025-11-19 17:54:00
越扒越深了!网传赵某晖“吞掉”人家装修款,有业主直言她坏良心

越扒越深了!网传赵某晖“吞掉”人家装修款,有业主直言她坏良心

火山诗话
2025-11-18 06:39:29
“南京地铁要通到无锡”系谣言

“南京地铁要通到无锡”系谣言

极目新闻
2025-11-18 22:06:24
2025-11-20 05:36:49
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
10762文章数 116905关注度
往期回顾 全部

科技要闻

一夜封神,Gemini 3让谷歌找回“碾压感”

头条要闻

日方要求解释为何未告知磋商后会有媒体拍摄 中方回应

头条要闻

日方要求解释为何未告知磋商后会有媒体拍摄 中方回应

体育要闻

世界杯最小参赛国诞生!15万人岛国的奇迹

娱乐要闻

史林子出轨对方前妻放锤!

财经要闻

重磅!中金公司拟收购东兴与信达证券

汽车要闻

此刻价格不重要 第5代帝豪本身就是价值

态度原创

本地
手机
艺术
时尚
公开课

本地新闻

第十二届影展携手重庆来福士丨两江交汇,光影共生

手机要闻

OPPO Find X9系列海外卖爆!销量接近上代2倍

艺术要闻

惊呆了!外国画家如何颠覆水浒108将的形象?

辛芷蕾的炸裂10分钟,让人大受震撼

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版