网易首页 > 网易号 > 正文 申请入驻

多模态DeepResearch,成了!

0
分享至

来源:市场资讯

(来源:机器之心)


DeepResearch 的价值在于把「查资料」变成「做研究」:不是搜到一条就回答,而是会连续多轮地提出问题、去不同地方找证据、互相对照核实、再把信息整理成结构清晰的结论。这样做能显著降低「凭感觉瞎编」的风险,特别适合那些信息分散、容易混淆、需要多步推理和多来源佐证的复杂问题。

工业级 deepresearch LLM(如 tongyi-deepresearch、MiroThinker),将文本 DeepResearch 性能从探索级提高到了与闭源模型的 agentic reasoning pipeline 相当的性能,但多模态 DeepResearch 依然处在初期。


图 1A:指出现有多模态深度研究在图像搜索上的两大瓶颈:忽视搜索引擎命中率问题(单次全图 / 实体检索常失败,不同尺度裁剪结果波动大),以及推理深度与检索广度不足(轨迹短、交互少)。图 1B:展示整体流程:自动合成高质量 VQA 与多轮轨迹,并通过 SFT+RL 把深研能力内化到 MLLM 中,使其能进行多轮、多实体、多尺度的视觉与文本搜索。底部结果对比表明:在统一的 agentic 推理设置下,模型以更小参数规模在 6 个基准上达到 SOTA。

在现实世界中,多模态 DeepResearch 有着重要意义,其将研究能力从「只看文字」扩展到「文字 + 图片 / 图表 / 截图等」。现实世界里很多关键信息就藏在视觉内容里:一张照片里的标志、一个产品细节、一页报告截图里的表格、一张地图或示意图。

多模态 DeepResearch 能把这些视觉线索也当成证据来使用:先从图片中抓住关键点,再去查文字资料验证补全,必要时再回到图片继续核对,最后把图文证据一起整合成更可靠、更完整的答案。这样不仅覆盖的信息更全,也更接近人类真实的研究方式。

基于此,作者构建了一个面向真实世界搜索环境的多模态 deep-research 大模型,通过 VQA 数据合成 + 轨迹合成 + 冷启动 + 大规模强化学习,解决当前工作所忽略的引擎命中率问题,将推理轮数提高到数十轮,与搜索引擎交互次数提高到了数百次。


  • 机构:港中文 MMLab,中科大,小红书等

  • HF daily paper:

  • https://huggingface.co/papers/2601.22060

  • https://huggingface.co/papers/2602.02185

  • Project page: https://osilly.github.io/Vision-DeepResearch/

相比于之前的 multimodal deep-research MLLM 在 6 个主流 benchmark 上几乎翻倍性能,对比例如 gpt5、gemini2.5pro、claude4 等强大闭源模型的 agentic reasoning pipeline,使用 30B-A3B 甚至 8B 参数规模几乎都取得了领先或者相当的性能。

基线对比 Demo:

更多 case 展示:

现有一些多模态 DeepResearch 的探索,在真实网页环境里经常卡在两道硬坎,这导致他们缺乏实际应用价值:

命中率问题(hit-rate)被忽视:一张全图 / 一次实体级查询往往被背景噪声带偏;同一实体不同尺度裁剪,检索结果差异巨大。

推理深度与检索广度不足:多数方法轨迹短、工具调用少,难以完成多跳证据聚合与复杂问题的「试错式搜证」。

Vision-DeepResearch 提出新的多模态深度研究范式:把检索从「一次性操作」升级为多轮试探 — 反馈 — 再检索的长期交互过程,支持几十步推理、上百次引擎交互,让模型像人一样在噪声环境中不断缩小范围、验证证据,最终稳定命中关键事实。

方法核心:多尺度视觉检索 + 文本深研接力 + 端到端内化

整体路线是「高质量长轨迹合成 → 冷启动 SFT → 在线高效异步 RL 内化能力」:

多实体 / 多尺度视觉裁剪检索(CIS):模型先定位与问题相关区域,生成多个 bbox 与不同尺度 crop 并行发起视觉搜索,显著提升命中率。

视觉→网页→摘要→验证的证据管线:视觉搜索返回 URL 后,访问网页并用辅助模型做摘要与图文一致性验证,过滤噪声,提炼可用证据。

桥接文本 DeepResearch 能力:利用强文本 DeepResearch 基础模型生成对应的文本搜索长轨迹,实现跨模态长视野推理迁移。

训练策略:先用约 30K 长轨迹做 SFT 教会「怎么搜、怎么查、怎么写轨迹」,再用在线强化学习在真实在线搜索环境中优化策略(纯准确率奖励 + 多种工程稳定化技巧),把深研行为真正「内化」为模型能力。


图 2 数据管线高质量轨迹数据生成;多跳复杂 VQA 合成

实验:小参数也能打到 SOTA,长视野交互是关键增益来源

性能强大:在 VDR、FVQA、MMSearch (+)、LiveVQA、BC-VL 等 6 个基准上:

Vision-DeepResearch-8B 在同等 agent 设置下,相比 Qwen3-VL-8B-Instruct(Agentic)平均提升约 + 10.4%。

Vision-DeepResearch-30B-A3B 进一步把整体成绩推到更高水平(平均提升约 + 16.0%),在多个基准上持续扩大优势。超越 GPT-5、Gemini-2.5-Pro、Claude-4-Sonnet 等强大闭源模型构成的 deep-research 系统的性能。


消融结论明确:

仅全图检索(WIS)收益有限且易受噪声干扰;

多尺度裁剪(CIS)显著提升视觉命中;

CIS + 文本搜索(TS)组合最好,同时满足「视觉锚点精准 + 长尾知识补全」;

RL 进一步把长视野决策做稳:模型学会用更少但更有效的步骤拿到更高回报。


VDR-Bench:重新定义视觉深研评测!2,000 条「必须做视觉搜索」的真实难题,专治文本捷径与全图完美检索

多模态深度研究系统越来越多,但评测却长期「不对题」:很多基准存在两类系统性漏洞:

不够「视觉搜索中心」:答案常被问题文本线索泄露,甚至可用模型先验知识 / 纯文本检索绕过视觉验证,导致分数虚高。

检索场景过于理想化:全图反搜经常命中几乎一模一样的「近重复图片 + 标题元信息」,形成「完美检索(perfect retrieval)」,没测到真实环境下的定位、裁剪、试错与跨模态核验能力。文搜搜索深度太浅,无法反映真实世界的复杂性。


图 3 现有评测基准两大缺陷

VDR-Bench 为此提出一套更贴近现实的评测基准:2,000 条多跳 VQA,覆盖 10 个视觉域,强调必须通过局部实体发现 + 迭代裁剪检索 + 文本多跳推理才能可靠作答,从源头减少捷径与「全图一把梭」

基准构建核心:从「视觉实体」出发,强制闭环证据链

VDR-Bench 采用严格的「视觉优先」多阶段流程:

人工裁剪 + Web 级视觉搜索:标注者优先裁剪显著局部(logo / 人物 / 地标 / 产品等)而非整图,模拟真实搜图行为。

实体抽取与验证:从检索结果标题 / 描述抽取候选实体,经 MLLM 过滤一致性,再由人工核验,确保实体不是「全图轻松搜到」的近重复泄露。

Seed VQA 生成:围绕已验证视觉实体生成需要显式识别与落地的问答。

知识图谱随机游走做多跳扩展:把问题升级为「从视觉实体出发」的多跳推理(总部城市 / 创始人 / 年份 / 关联组织等)。

可解性与去捷径审核:自动与人工双重检查,确保必须依赖记录下来的视觉检索证据与推理路径,避免歧义与 shortcut。


图 4 多阶段数据标注管道

在 VDR-Bench 上,模型必须主动检索才有明显提升,并且作者发现「Lazy Search(懒搜索)」:越强的模型越可能依赖先验知识、反而不愿意充分调用视觉检索,导致深研题表现不匹配其基础能力。

为缓解这一点,作者提出 Multi-turn Visual Forcing(MVF):在推理流程上强制多轮、多尺度裁剪与验证,大幅提升深度检索性能。


意义与未来

Vision-DeepResearch 证明:多模态深研能力的关键不只是「会调用工具」,而是要在噪声世界里形成长视野、可试错、可验证的检索 — 推理闭环;并且通过可规模化数据合成与 RL,可以把这种行为从 workflow 变成模型的内生能力。

VDR-Bench 把「视觉深研」从「能不能答对」升级为「能不能在噪声世界里定位 — 检索 — 验证 — 多跳推理」,为后续模型与 Agent 训练提供更真实的测试平台,也让社区更清楚:下一代多模态深研系统的瓶颈到底在哪里?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
比亚迪连续40个月销冠被终结

比亚迪连续40个月销冠被终结

大象新闻
2026-02-24 09:44:05
王楚钦3-0打掉日本劲敌,反手拧拉&正手抢攻半出台,全方位压制

王楚钦3-0打掉日本劲敌,反手拧拉&正手抢攻半出台,全方位压制

乒谈
2026-02-24 20:34:15
北京凌晨收到消息!特朗普彻底慌了,用三个感叹号警告中国别乱来

北京凌晨收到消息!特朗普彻底慌了,用三个感叹号警告中国别乱来

头条爆料007
2026-02-24 11:51:23
广东将迎今年首次大范围降雨!省三防办要求应转尽转不漏一户

广东将迎今年首次大范围降雨!省三防办要求应转尽转不漏一户

南方都市报
2026-02-24 21:03:11
轻伤二级,法律给不了“血债血偿”,但公道必须让施暴者“社死”

轻伤二级,法律给不了“血债血偿”,但公道必须让施暴者“社死”

刚哥说法365
2026-02-24 17:12:01
11岁男童高速服务区被撞身亡 福建事发地交警部门回应:肇事司机已被控制

11岁男童高速服务区被撞身亡 福建事发地交警部门回应:肇事司机已被控制

极目新闻
2026-02-24 16:50:45
男子与女童动作亲密引质疑,内蒙古妇女联合会:其为女童继父,生父已在春节前接回孩子,准备变更抚养权;经警方询问女童未有被侵害情况

男子与女童动作亲密引质疑,内蒙古妇女联合会:其为女童继父,生父已在春节前接回孩子,准备变更抚养权;经警方询问女童未有被侵害情况

大风新闻
2026-02-24 22:31:13
库拉岗日山峰徒步失联女子已找到:在牛棚被发现 牛粪盖在身上取暖 承担部分救援费用

库拉岗日山峰徒步失联女子已找到:在牛棚被发现 牛粪盖在身上取暖 承担部分救援费用

红星新闻
2026-02-24 12:52:37
重庆烤全羊宰客社死!人民日报怒批,坑惨当地文旅,下场大快人心

重庆烤全羊宰客社死!人民日报怒批,坑惨当地文旅,下场大快人心

青梅侃史啊
2026-02-24 16:59:25
被「中国钓王」邓刚认证的钓鱼神车,吉利银河翼真L380到底是什么来路?

被「中国钓王」邓刚认证的钓鱼神车,吉利银河翼真L380到底是什么来路?

AutoBusiness
2025-09-05 11:47:55
11岁男童服务区被撞身亡,父亲哭诉:肇事车2次加速!司机称慌了,警方立案

11岁男童服务区被撞身亡,父亲哭诉:肇事车2次加速!司机称慌了,警方立案

上观新闻
2026-02-24 20:09:07
女子返乡返程把狗装桶固定车顶走红,主人称“狗狗不愿意长时间坐在车内,想去外面透气”

女子返乡返程把狗装桶固定车顶走红,主人称“狗狗不愿意长时间坐在车内,想去外面透气”

观威海
2026-02-24 16:50:04
10万亿!世界铜王正威集团的坑比恒大的还深

10万亿!世界铜王正威集团的坑比恒大的还深

新浪财经
2026-02-24 17:14:00
一场高速堵车,戳穿了3700万新能源车主“谎言”,差距一目了然

一场高速堵车,戳穿了3700万新能源车主“谎言”,差距一目了然

芭比衣橱
2026-02-24 09:41:49
4-3绝杀!斯诺克中国德比:赵心童险胜范争一!下轮对手也确定了

4-3绝杀!斯诺克中国德比:赵心童险胜范争一!下轮对手也确定了

球场没跑道
2026-02-24 23:05:03
WTT新加坡大满贯:女单16强已出其8!国乒3人日本4人,陈熠战桥本

WTT新加坡大满贯:女单16强已出其8!国乒3人日本4人,陈熠战桥本

全言作品
2026-02-24 21:07:13
体制内情商高能带来啥意外惊喜?网友:别在地铁看,别问我为什么

体制内情商高能带来啥意外惊喜?网友:别在地铁看,别问我为什么

带你感受人间冷暖
2026-02-24 01:03:13
山东济宁男子花5600元套中汽车,老板却耍赖,民警到场才服软退钱

山东济宁男子花5600元套中汽车,老板却耍赖,民警到场才服软退钱

奇思妙想草叶君
2026-02-23 18:37:59
深圳一女子春节返程遇“高铁超载”被迫下车,12306:因“买短乘长”人数太多导致超载

深圳一女子春节返程遇“高铁超载”被迫下车,12306:因“买短乘长”人数太多导致超载

上游新闻
2026-02-24 14:25:37
葡萄330元/斤,草莓360元/斤!网友高速上看到水果广告牌惊呆了,种植企业回应

葡萄330元/斤,草莓360元/斤!网友高速上看到水果广告牌惊呆了,种植企业回应

极目新闻
2026-02-24 12:58:13
2026-02-25 00:44:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2248972文章数 5526关注度
往期回顾 全部

科技要闻

宇树科技发布四足机器人Unitree As2

头条要闻

男子搂住继女强吻动作亲密 当地妇联介入

头条要闻

男子搂住继女强吻动作亲密 当地妇联介入

体育要闻

苏翊鸣总结米兰征程:我仍是那个热爱单板滑雪的少年

娱乐要闻

汪小菲官宣三胎出生:承诺会照顾好3个孩子

财经要闻

县城消费「限时繁荣」了十天

汽车要闻

入门即满配 威兰达AIR版上市 13.78万元起

态度原创

游戏
旅游
亲子
公开课
军事航空

LOL传奇选手公布恋情!发博晒照被夸夫妻相,女方身份曝光

旅游要闻

张家界玻璃栈道对身高有限制吗?别再被误导,张家界玻璃栈道身高规定,真实情况和你想的不一样!

亲子要闻

我嫁中国生了3个孩子,每天带娃堪比春晚!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美军参联会主席警告:对伊朗动武可能带来重大风险

无障碍浏览 进入关怀版