网易首页 > 网易号 > 正文 申请入驻

RAG、Search Agent不香了?苹果DeepMMSearch-R1杀入多模态搜索

0
分享至



机器之心报道

编辑:杜伟

苹果最近真是「高产」!

这几天,苹果在多模态 web 搜索中发现了赋能多模态大语言模型(MLLM)的新解法

在现实世界的应用中,MLLM 需要访问外部知识源,并对动态变化的现实世界信息进行实时响应,从而解决信息检索和知识密集型的用户查询。当前的一些方法,比如检索增强生成(RAG)、search agent 以及配备搜索功能的多模态大模型,往往存在流程僵化、搜索调用过多以及搜索查询构造不当等问题,导致效率低下以及结果不理想。

为了克服以往研究中暴露出的局限,苹果提出了 DeepMMSearch-R1 模型。该模型能够按需执行多轮网络搜索,并可针对文本与图像搜索工具动态生成查询,如图 1(右)所示。具体而言,DeepMMSearch-R1 能够通过自我反思与自我纠正,在多轮交互中自适应地生成和优化文本搜索查询,并利用检索到的内容作为反馈以及结合原始问题进行改进。



为了提升图像搜索的效果,苹果引入一个中间图像裁剪工具(Grounding DINO)来应对背景噪声和干扰性视觉实体带来的挑战。过程中,DeepMMSearch-R1 首先生成与问题最相关视觉实体的指代表达,然后利用该表达由裁剪工具动态识别并裁剪出图像中对应的区域。生成的裁剪图像随后被用于图像搜索,以检索与上下文更相关的结果。这种有针对性的搜索方式显著提升了检索质量,并大幅提高了整体性能。

苹果采用两阶段训练流程:首先进行有监督微调(SFT),然后通过 GRPO 算法进行在线强化学习(RL)。其目标是让模型学会何时发起搜索、使用哪种工具、搜索什么内容,以及如何基于检索到的内容进行推理,以决定下一步行动:是直接给出最终答案,还是进一步优化查询并发起新一轮搜索。

本文主要包括以下三个方面的贡献:

一是提出新的数据集 DeepMMSearchVQA。该数据集包含多样化多跳视觉问答样本,并以多轮对话的形式呈现。它在不同知识类别之间保持平衡分布,涵盖了既需要搜索又无需搜索的问题类型。

二是构建真实世界的多模态搜索流程,并整合了三种工具:(1)文本搜索工具,使模型能够发出有针对性的查询,从而检索相关网页并获取最新的事实性知识;(2)基于 Grounding DINO 的图像定位工具,可根据模型生成的与问题视觉实体相关的指代表达,识别并裁剪输入图像中的相关区域;(3)图像搜索工具,可基于输入图像(无论是裁剪图还是完整图)检索网页内容,包括标题与描述,帮助模型通过网络信息识别不熟悉的视觉实体。

三是通过两阶段训练过程实现了 SOTA 性能,超越以往的开源基线模型(见图 1)。该训练过程包括使用 SFT 进行冷启动初始化,随后采用 GRPO 算法进行在线强化学习。



  • 论文标题:DeepMMSearch-R1: Empowering Multimodal LLMs in Multimodal Web Search
  • arXiv 地址:https://arxiv.org/pdf/2510.12801

针对苹果的最新研究,有人认为「这可能是苹果迈向 AI 原生 LLM 和多模态搜索引擎的第一步」。



数据集 DeepMMSearchVQA

苹果在数据集构建过程中遵循两个核心原则:(1)数据集应具备多样性,并覆盖完整的知识分类体系;(2)问题应同时包含无需搜索与需要搜索的类型,并以多轮对话的形式呈现,以促进模型的推理、自我反思与自我纠正。图 2(上)展示了用于数据集构建的自动化流程概览。

苹果从 InfoSeek 训练集随机选取了 20 万个样本,并生成带有工具标签、推理步骤及网页检索信息的多轮对话数据。为确保质量,苹果仅保留其中 Gemini-2.5-Pro 的预测结果与 InfoSeek 提供的真实答案一致的对话,从而得到约 4.7 万条精炼对话样本

随后使用 Gemini-2.5-Pro 据知识分类体系对问题进行分类,并从这些类别中采样 1 万个视觉问答(VQA)样本,以在不同知识类型之间实现大致平衡的分布。同时进一步确保数据集中搜索类与非搜索类问题的数量大致相等。

图 2(下)展示了知识分类体系、需要图像搜索、文本搜索或两者兼用的问题比例,以及不同轮次对话样本的分布情况。最终得到的 1 万个 VQA 样本构成了有监督微调阶段的训练语料



DeepMMSearch-R1 两阶段训练流程

有监督微调阶段

苹果采用 Qwen2.5-VL-7B-Instruct 作为基础模型,并仅对其语言模型(LLM)模块进行有监督微调,同时保持视觉编码器和视觉投影层冻结不变。此方法能够保留强大的预训练图像表征能力,并确保模型的适应过程专注于提升语言模型在网页检索信息上的推理能力,以及遵循结构化工具使用流程的能力。

训练目标方面,苹果采用标准的因果语言建模(Causal LM)目标函数。给定一个多模态输入 (x, I),其中包括文本问题和对应图像、以及包含完整推理过程、工具调用和最终答案的多轮对话 y*,训练中的模型在给定所有前文 token 的条件下预测目标序列中的每一个 token。



强化学习阶段

RL 阶段基于组相对策略优化(Group-Relative Policy Optimization,GRPO),该方法最初在 DeepSeekMath 中被提出。GRPO 在近端策略优化( Proximal Policy Optimization,PPO)的基础上进行了扩展,通过对同一提示词下生成的候选回复进行比较,从而提升训练的稳定性。

不同于独立评估每个 rollout(展开过程或推理轨迹)的方式,GRPO 计算的是相对于同一组采样 rollout 的平均奖励的优势值。

该阶段的训练目标通过带截断的重要性加权代理进行优化,这虽与 PPO 类似,但引入了组相对优势的概念。其数学形式可表示为:



Rollouts:它们由经过 SFT 后的模型检查点生成。SFT 模型使用已学习的工具调用标签体系,以与图像定位工具、图像搜索工具和文本搜索工具进行交互, 并将这些工具返回的反馈融入后续对话轮次中。该过程会持续进行,直到模型生成最终回答或达到最大轮次数为止。

因此,每个 rollout 都代表一条完整的推理轨迹,并附带在 SFT 阶段学习到的标签体系。在训练过程中,苹果对每条轨迹的工具调用次数和最大 token 长度进行了约束,要求模型在准确性与效率之间取得平衡。

奖励机制:GRPO 优化过程采用一个结合了事实准确性与结构合规性的复合奖励函数。苹果使用 gpt-5-chat-latest 作为奖励模型,用于判断模型预测结果在语义上是否与真实答案一致。正确性得分记为 s,取值为二元变量(s ∈ {0, 1}),表示模型最终答案是否被判定为正确。同时,格式得分 s_fmt 用于衡量输出是否遵循规定的结构化输出格式,以确保标签使用正确、工具调用结构有效。最终奖励的计算公式为:



实验结果

苹果表示,配备网络搜索功能的多模态大语言模型在性能上显著优于 RAG 工作流和基于提示的搜索代理基线模型。如表 1 所示,DeepMMSearch-R1-7B(RL)相较于 RAG 工作流和基于提示的 search agent 分别取得了显著的 + 21.13% 和 + 8.89% 的性能提升,同时在整体表现上与 OpenAI o3 相当。



裁剪图像搜索以及蒸馏得到的自我反思与自我纠正能力可以显著提升模型性能。苹果在图 3(左)中展示了启用多次文本搜索与裁剪图像搜索能力所带来的效果。SFT 基线模型指的是仅使用整图搜索并进行单次文本搜索调用的设置。可以看到,随着自我反思与自我纠正机制的引入与蒸馏,模型整体性能得到了提升。

在搜索平衡的 SFT 数据中(即从所有知识分类中均匀采样样本的情况),模型表现更优。苹果首先在 SFT 数据中通过不同的「需要搜索」与「无需搜索」样本比例进行消融实验,以研究其对性能的影响。从图 3(右)可以观察到,当需要搜索的问题比例较高时,微调后的模型会表现出过度搜索的行为,并在 OK-VQA 和 A-OKVQA 等需要较少搜索调用的数据集上表现较差。



SFT 阶段使模型具备使用工具的能力,而 RL 阶段则通过减少不必要的调用来优化工具选择行为。苹果在图 4 中总结了模型在 SFT 和 RL 阶段后的工具使用情况,分别针对两个数据集进行了分析。DynVQA 是一个较新的数据集,其中包含更多需要外部信息的问题;而 OKVQA 则相对需要较少的搜索调用。

模型的工具使用行为与各数据集的特性保持了一致:在 DynVQA 中,模型在 87.7% 的样本上调用了工具;而在 OKVQA 中这一比例为 43.5%。



另外,SFT 模型有时会在不必要的情况下执行裁剪图像搜索,而 RL 模型能够纠正此类错误,如图 5 所示。这一现象进一步印证了 RL 在优化工具使用行为、提升使用效率方面的重要作用。



最后,采用 LoRA 模块进行的 SFT 以及带有 KL 惩罚项的在线 GRPO 训练能够保持模型的通用视觉问答(VQA)能力,如表 2 所示。苹果观察到模型在多个数据集上的性能保持稳定,这表明本文提出的模型在学习与网络搜索工具交互的同时,依然有效地保留了其通用的视觉理解与推理能力。



更多实验细节,参阅原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
西方国家领导人为何密集访华?BBC记者解读很到位

西方国家领导人为何密集访华?BBC记者解读很到位

潇湘晨报
2026-01-31 22:11:12
随着克雷莫内塞0-2国际米兰,赛后评分出炉:国米7号排第一

随着克雷莫内塞0-2国际米兰,赛后评分出炉:国米7号排第一

侧身凌空斩
2026-02-02 02:56:06
DO:利物浦认为雅凯比格伊更有长期价值,所以努力签下他

DO:利物浦认为雅凯比格伊更有长期价值,所以努力签下他

懂球帝
2026-02-02 06:50:39
俄媒:美国为何恢复对乌供应“海马斯”?

俄媒:美国为何恢复对乌供应“海马斯”?

参考消息
2026-02-01 14:45:16
山东小伙娶只有8岁智商的新娘,笑的合不拢嘴,网友:赚大了

山东小伙娶只有8岁智商的新娘,笑的合不拢嘴,网友:赚大了

静若梨花
2026-02-01 16:39:42
雷克萨斯急了!ES“偷偷摸摸”降10万,网友:你早干嘛去了?

雷克萨斯急了!ES“偷偷摸摸”降10万,网友:你早干嘛去了?

少数派报告Report
2026-02-01 07:21:08
山东小伙娶只有8岁智商的新娘,笑的合不拢嘴,网友:赚大了!

山东小伙娶只有8岁智商的新娘,笑的合不拢嘴,网友:赚大了!

观察鉴娱
2026-02-01 15:02:49
辞职看世界女老师11年后现状:黯然回乡,老公已分手

辞职看世界女老师11年后现状:黯然回乡,老公已分手

咸鱼金脑袋
2026-01-17 07:06:46
爆大冷!埃梅里耻辱一战:多踢1人主场落败,争冠形势迅速恶化

爆大冷!埃梅里耻辱一战:多踢1人主场落败,争冠形势迅速恶化

足球狗说
2026-02-02 00:19:11
100元纸币,这种麒麟号码,1张价值58000元!

100元纸币,这种麒麟号码,1张价值58000元!

小陈收藏社
2026-02-01 14:14:44
边防哨所里站了个插兜的兵,印军凑近又退缩,沉默比喊话更让人记住

边防哨所里站了个插兜的兵,印军凑近又退缩,沉默比喊话更让人记住

网络易不易
2026-02-01 06:05:19
骇人听闻!网传莱州一工厂规定工人1天2次集体如厕,每次5-8分钟

骇人听闻!网传莱州一工厂规定工人1天2次集体如厕,每次5-8分钟

火山诗话
2026-02-01 17:25:12
回国了我才敢说:委内瑞拉,是我去过的所有国家中,最被看轻的!

回国了我才敢说:委内瑞拉,是我去过的所有国家中,最被看轻的!

阿纂看事
2026-01-09 09:48:35
人口告别世界第一?二孩催生无效后,国家终于向住房出手了

人口告别世界第一?二孩催生无效后,国家终于向住房出手了

来科点谱
2026-01-13 08:54:22
赵露思现身上海恒隆广场,这美貌直接鲨疯了,美到让人窒息!

赵露思现身上海恒隆广场,这美貌直接鲨疯了,美到让人窒息!

东方不败然多多
2026-02-01 19:18:19
36年前陈宝国主演的盗墓恐怖片!尺度大到少儿不宜

36年前陈宝国主演的盗墓恐怖片!尺度大到少儿不宜

释凡电影
2025-08-14 09:33:19
难怪咸丰帝31岁暴毙,你看他逃往热河干了啥?每天都做4件致命事

难怪咸丰帝31岁暴毙,你看他逃往热河干了啥?每天都做4件致命事

百年历史老号
2024-06-14 01:27:29
自斯帕莱蒂上任以来,尤文意甲积分和进球数仅次于国米

自斯帕莱蒂上任以来,尤文意甲积分和进球数仅次于国米

懂球帝
2026-02-02 06:18:09
亲家有没有钱,一看便知:没钱的亲家,大多有以下4个坏习惯

亲家有没有钱,一看便知:没钱的亲家,大多有以下4个坏习惯

千秋文化
2025-12-03 10:05:36
郑爽彻底垮了!抱娃与张恒当街互撕,穿搭邋遢状态诡异疑精神失常

郑爽彻底垮了!抱娃与张恒当街互撕,穿搭邋遢状态诡异疑精神失常

八卦王者
2026-02-01 21:14:07
2026-02-02 07:16:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12226文章数 142562关注度
往期回顾 全部

科技要闻

10亿元宝红包突袭 复刻微信支付还是微视?

头条要闻

特朗普又有疯狂想法:白宫格斗赛 首都飙赛车

头条要闻

特朗普又有疯狂想法:白宫格斗赛 首都飙赛车

体育要闻

德约大度祝贺阿卡 幽默互动逗笑纳达尔

娱乐要闻

春晚第三次联排阵容曝光:全是实力派

财经要闻

黄仁勋台北"夜宴":汇聚近40位台企高管

汽车要闻

岚图汽车1月交付10515辆 同比增长31%

态度原创

家居
时尚
旅游
手机
教育

家居要闻

蓝调空舍 自由与个性

“多巴胺风”又又又火了!这样穿时髦又减龄

旅游要闻

“你好!中国”亮相2026马德里国际旅游展 | 新民侨梁

手机要闻

首发2nm芯片 三星S26系列还会是安卓机皇吗?

教育要闻

语不惊人死不休,立刚反对学英语有些着魔了,又出新谬论

无障碍浏览 进入关怀版