网易首页 > 网易号 > 正文 申请入驻

刚刚!阿里推出首个开源多模态深度研究Agent,四大VQA基准测试赶超GPT-4o

0
分享至

智东西8月15日消息,今日晚间,阿里宣布推出首个开源多模态深度研究智能体(Deep Research Agent)——WebWatcher。

市面上的深度研究工具层出不穷,但大多只能围绕文字进行搜索。WebWatcher的核心创新点在于配备了增强的视觉语言推理能力,能够图文结合思考并调用多种工具,从而使研究结果更深入。

比如,当用户要分析一张图片里的信息,WebWatcher能调用 “图片搜索” 找相关图和说明,用 “OCR” 提取图片里的文字,用 “文字搜索” 查背景知识,用 “网页访问” 看具体网页内容,用 “代码工具” 算数据等。

▲WebWatcher运行案例

实验结果表明,WebWatcher在四个具有挑战性的VQA(视觉问答)基准测试中全面领先于主流的开闭源多模态大模型:

其在Humanity’s Last Exam(HLE)-VL(复杂推理)、BrowseComp-VL(信息检索)、LiveVQA(知识整合)和MMSearch(聚合类信息寻优)等任务测试中均获得高分,超越GPT-4o、Gemini2.5-flash、Qwen2.5-VL-72B、Claude 3.7等模型。

▲WebWatcher测评成绩

WebWatcher的技术方案覆盖了从数据构建到训练优化的完整链路,核心目标是让多模态Agent在高难度多模态深度研究任务中具备灵活推理和多工具协作能力。整个方法包含三大环节:

1、多模态高难度数据生成:构建具备复杂推理链和信息模糊化的训练数据;

2、高质量推理轨迹构建与后训练:生成贴近真实多工具交互的推理轨迹,并通过监督微调(SFT)完成初步能力对齐。然后利用GRPO在复杂任务环境中进一步提升模型的决策能力与泛化性;

3、高难度基准评测:构建并使用BrowseComp-VL对模型的多模态深度推理能力进行验证。

为了更好地评估WebWatcher的能力,阿里提出了BrowseComp-VL,它是BrowseComp在视觉-语言任务上的扩展版本,设计目标是逼近人类专家的跨模态研究任务难度。

GitHub地址:
https://github.com/Alibaba-NLP/WebAgent
论文地址 :
https://arxiv.org/abs/2508.05748

▲论文页面截图

结语:突破视觉语言,向深度搜索Agent迈进

自2025年1月推出WebWalker多Agent框架之后,阿里在过去近八个月里加速迭代,陆续推出了原生Agent搜索模型WebDancer、可执行极复杂信息搜索的Agent搜索模型WebSailor、面向信息检索Agent的数据合成方法WebShaper,向通用搜索Agent不断迈进。

本次,阿里最新推出的多模态深度研究智能体WebWatcher,进一步突破视觉语言深度研究Agent的新前沿,其构建的BrowseComp-VL基准、自动化轨迹生成与训练流程,为解决复杂多模态信息检索任务奠定基础,也为未来多模态深度研究Agent发展提供方向。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
西交大学生周凯旋被判死刑,行刑前拒见家属,孤身赴死!

西交大学生周凯旋被判死刑,行刑前拒见家属,孤身赴死!

华人星光
2026-05-23 10:51:12
美国人发现,美国近三十年来最大外交失误,可能就是阻止中国统一

美国人发现,美国近三十年来最大外交失误,可能就是阻止中国统一

流史岁月
2026-05-31 12:00:13
取消Google One后,数据多久会消失?守住这15GB底线很关键

取消Google One后,数据多久会消失?守住这15GB底线很关键

像素与芯片
2026-06-02 11:45:39
“我就是想停电了!” 江苏一售电公司发送停电通知被指“太任性”!

“我就是想停电了!” 江苏一售电公司发送停电通知被指“太任性”!

闪电新闻
2026-06-03 14:51:26
中美记者互逐:中方驱逐美记者后,美吊销新华社记者许可

中美记者互逐:中方驱逐美记者后,美吊销新华社记者许可

咸鱼金脑袋
2026-06-03 14:52:56
“纳希莫夫海军上将”号核动力巡洋舰开启最终海试,究竟有多强?

“纳希莫夫海军上将”号核动力巡洋舰开启最终海试,究竟有多强?

零度Military
2026-06-03 13:19:01
闹大了!中方驱逐美记者后,不足24小时,美吊销新华社记者许可

闹大了!中方驱逐美记者后,不足24小时,美吊销新华社记者许可

黑鹰观军事
2026-06-03 14:21:35
邓世昌至死不知:掺沙子的炮弹其实没问题 沉舰的真相被隐藏百年

邓世昌至死不知:掺沙子的炮弹其实没问题 沉舰的真相被隐藏百年

掠影后有感
2026-06-01 11:05:19
今年端午假期不一般,有3个好消息,2个坏消息,早了解早安排

今年端午假期不一般,有3个好消息,2个坏消息,早了解早安排

小谈食刻美食
2026-06-03 07:21:51
乡村爱情王小蒙变化好大,丰乳肥臀的,不再是当年清纯的小姑娘了

乡村爱情王小蒙变化好大,丰乳肥臀的,不再是当年清纯的小姑娘了

南万说娱26
2026-06-02 12:25:07
把我们当冤大头了?中国无偿援助后,菲律宾一句话彻底惹怒外交部

把我们当冤大头了?中国无偿援助后,菲律宾一句话彻底惹怒外交部

青青子衿
2026-06-02 22:06:17
编制外岗也要管!“当时不懂,就和朋友玩了”,女生政审被刷不服

编制外岗也要管!“当时不懂,就和朋友玩了”,女生政审被刷不服

蝴蝶花雨话教育
2026-06-03 00:05:13
大爷也难招!7月起保安岗没人敢用了?大龄从业者该何去何从

大爷也难招!7月起保安岗没人敢用了?大龄从业者该何去何从

复转这些年
2026-05-31 20:33:07
一顿饭就要花掉40万,四年敛财40亿,杭州土皇帝虞关荣有多嚣张

一顿饭就要花掉40万,四年敛财40亿,杭州土皇帝虞关荣有多嚣张

莫地方
2026-05-21 01:45:03
刘少奇之子刘源身陷困境求助宋庆龄,九字回复令他动容

刘少奇之子刘源身陷困境求助宋庆龄,九字回复令他动容

唠叨说历史
2026-05-29 14:16:53
“保不住香港,我们以死谢罪!”,解密惊心动魄的香港经济保卫战

“保不住香港,我们以死谢罪!”,解密惊心动魄的香港经济保卫战

文史道
2025-02-18 20:31:56
就在昨夜!这组炸裂的美国就业市场数据 令华尔街大吃一惊

就在昨夜!这组炸裂的美国就业市场数据 令华尔街大吃一惊

财联社
2026-06-03 08:42:13
《007:初露锋芒》邦女郎幕后演员揭晓

《007:初露锋芒》邦女郎幕后演员揭晓

山月不知2
2026-06-02 06:33:27
微软为英伟达RTX Spark改写Win11底层:优化CPU调度

微软为英伟达RTX Spark改写Win11底层:优化CPU调度

IT之家
2026-06-03 11:18:36
“鸟叔”被移送检方

“鸟叔”被移送检方

澎湃新闻
2026-06-02 14:59:04
2026-06-03 16:56:49
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
11961文章数 117090关注度
往期回顾 全部

科技要闻

传DeepSeek融资意向500亿:腾讯投100亿

头条要闻

94版《三国演义》成观众心中"白月光" 多位扮演者离世

头条要闻

94版《三国演义》成观众心中"白月光" 多位扮演者离世

体育要闻

选择中国品牌的库里,和他们的巨大野心

娱乐要闻

官方痛批乱象 刘涛郑恺等艺人遭点名

财经要闻

AI,开始偷懒了?

汽车要闻

依托全域辅助驾驶布局 千里浩瀚助推吉利5月市场大热

态度原创

艺术
教育
游戏
公开课
军事航空

艺术要闻

二十年前割麦的场景

教育要闻

盒子里的球怎么算组合?方法太简单!

《战舰世界》科幻联动最夯TOP3,错过任何一个都会失眠!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美伊互袭波及多国 过去一夜中东局势骤然升级

无障碍浏览 进入关怀版