网易首页 > 网易号 > 正文 申请入驻

RAG、Search Agent不香了?苹果DeepMMSearch-R1杀入多模态搜索

0
分享至

机器之心报道

编辑:杜伟

苹果最近真是「高产」!

这几天,苹果在多模态 web 搜索中发现了赋能多模态大语言模型(MLLM)的新解法

在现实世界的应用中,MLLM 需要访问外部知识源,并对动态变化的现实世界信息进行实时响应,从而解决信息检索和知识密集型的用户查询。当前的一些方法,比如检索增强生成(RAG)、search agent 以及配备搜索功能的多模态大模型,往往存在流程僵化、搜索调用过多以及搜索查询构造不当等问题,导致效率低下以及结果不理想。

为了克服以往研究中暴露出的局限,苹果提出了 DeepMMSearch-R1 模型。该模型能够按需执行多轮网络搜索,并可针对文本与图像搜索工具动态生成查询,如图 1(右)所示。具体而言,DeepMMSearch-R1 能够通过自我反思与自我纠正,在多轮交互中自适应地生成和优化文本搜索查询,并利用检索到的内容作为反馈以及结合原始问题进行改进。

为了提升图像搜索的效果,苹果引入一个中间图像裁剪工具(Grounding DINO)来应对背景噪声和干扰性视觉实体带来的挑战。过程中,DeepMMSearch-R1 首先生成与问题最相关视觉实体的指代表达,然后利用该表达由裁剪工具动态识别并裁剪出图像中对应的区域。生成的裁剪图像随后被用于图像搜索,以检索与上下文更相关的结果。这种有针对性的搜索方式显著提升了检索质量,并大幅提高了整体性能。

苹果采用两阶段训练流程:首先进行有监督微调(SFT),然后通过 GRPO 算法进行在线强化学习(RL)。其目标是让模型学会何时发起搜索、使用哪种工具、搜索什么内容,以及如何基于检索到的内容进行推理,以决定下一步行动:是直接给出最终答案,还是进一步优化查询并发起新一轮搜索。

本文主要包括以下三个方面的贡献:

一是提出新的数据集 DeepMMSearchVQA。该数据集包含多样化多跳视觉问答样本,并以多轮对话的形式呈现。它在不同知识类别之间保持平衡分布,涵盖了既需要搜索又无需搜索的问题类型。

二是构建真实世界的多模态搜索流程,并整合了三种工具:(1)文本搜索工具,使模型能够发出有针对性的查询,从而检索相关网页并获取最新的事实性知识;(2)基于 Grounding DINO 的图像定位工具,可根据模型生成的与问题视觉实体相关的指代表达,识别并裁剪输入图像中的相关区域;(3)图像搜索工具,可基于输入图像(无论是裁剪图还是完整图)检索网页内容,包括标题与描述,帮助模型通过网络信息识别不熟悉的视觉实体。

三是通过两阶段训练过程实现了 SOTA 性能,超越以往的开源基线模型(见图 1)。该训练过程包括使用 SFT 进行冷启动初始化,随后采用 GRPO 算法进行在线强化学习。

  • 论文标题:DeepMMSearch-R1: Empowering Multimodal LLMs in Multimodal Web Search
  • arXiv 地址:https://arxiv.org/pdf/2510.12801

针对苹果的最新研究,有人认为「这可能是苹果迈向 AI 原生 LLM 和多模态搜索引擎的第一步」。

数据集 DeepMMSearchVQA

苹果在数据集构建过程中遵循两个核心原则:(1)数据集应具备多样性,并覆盖完整的知识分类体系;(2)问题应同时包含无需搜索与需要搜索的类型,并以多轮对话的形式呈现,以促进模型的推理、自我反思与自我纠正。图 2(上)展示了用于数据集构建的自动化流程概览。

苹果从 InfoSeek 训练集随机选取了 20 万个样本,并生成带有工具标签、推理步骤及网页检索信息的多轮对话数据。为确保质量,苹果仅保留其中 Gemini-2.5-Pro 的预测结果与 InfoSeek 提供的真实答案一致的对话,从而得到约 4.7 万条精炼对话样本

随后使用 Gemini-2.5-Pro 据知识分类体系对问题进行分类,并从这些类别中采样 1 万个视觉问答(VQA)样本,以在不同知识类型之间实现大致平衡的分布。同时进一步确保数据集中搜索类与非搜索类问题的数量大致相等。

图 2(下)展示了知识分类体系、需要图像搜索、文本搜索或两者兼用的问题比例,以及不同轮次对话样本的分布情况。最终得到的 1 万个 VQA 样本构成了有监督微调阶段的训练语料

DeepMMSearch-R1 两阶段训练流程

有监督微调阶段

苹果采用 Qwen2.5-VL-7B-Instruct 作为基础模型,并仅对其语言模型(LLM)模块进行有监督微调,同时保持视觉编码器和视觉投影层冻结不变。此方法能够保留强大的预训练图像表征能力,并确保模型的适应过程专注于提升语言模型在网页检索信息上的推理能力,以及遵循结构化工具使用流程的能力。

训练目标方面,苹果采用标准的因果语言建模(Causal LM)目标函数。给定一个多模态输入 (x, I),其中包括文本问题和对应图像、以及包含完整推理过程、工具调用和最终答案的多轮对话 y*,训练中的模型在给定所有前文 token 的条件下预测目标序列中的每一个 token。

强化学习阶段

RL 阶段基于组相对策略优化(Group-Relative Policy Optimization,GRPO),该方法最初在 DeepSeekMath 中被提出。GRPO 在近端策略优化( Proximal Policy Optimization,PPO)的基础上进行了扩展,通过对同一提示词下生成的候选回复进行比较,从而提升训练的稳定性。

不同于独立评估每个 rollout(展开过程或推理轨迹)的方式,GRPO 计算的是相对于同一组采样 rollout 的平均奖励的优势值。

该阶段的训练目标通过带截断的重要性加权代理进行优化,这虽与 PPO 类似,但引入了组相对优势的概念。其数学形式可表示为:

Rollouts:它们由经过 SFT 后的模型检查点生成。SFT 模型使用已学习的工具调用标签体系,以与图像定位工具、图像搜索工具和文本搜索工具进行交互, 并将这些工具返回的反馈融入后续对话轮次中。该过程会持续进行,直到模型生成最终回答或达到最大轮次数为止。

因此,每个 rollout 都代表一条完整的推理轨迹,并附带在 SFT 阶段学习到的标签体系。在训练过程中,苹果对每条轨迹的工具调用次数和最大 token 长度进行了约束,要求模型在准确性与效率之间取得平衡。

奖励机制:GRPO 优化过程采用一个结合了事实准确性与结构合规性的复合奖励函数。苹果使用 gpt-5-chat-latest 作为奖励模型,用于判断模型预测结果在语义上是否与真实答案一致。正确性得分记为 s,取值为二元变量(s ∈ {0, 1}),表示模型最终答案是否被判定为正确。同时,格式得分 s_fmt 用于衡量输出是否遵循规定的结构化输出格式,以确保标签使用正确、工具调用结构有效。最终奖励的计算公式为:

实验结果

苹果表示,配备网络搜索功能的多模态大语言模型在性能上显著优于 RAG 工作流和基于提示的搜索代理基线模型。如表 1 所示,DeepMMSearch-R1-7B(RL)相较于 RAG 工作流和基于提示的 search agent 分别取得了显著的 + 21.13% 和 + 8.89% 的性能提升,同时在整体表现上与 OpenAI o3 相当。

裁剪图像搜索以及蒸馏得到的自我反思与自我纠正能力可以显著提升模型性能。苹果在图 3(左)中展示了启用多次文本搜索与裁剪图像搜索能力所带来的效果。SFT 基线模型指的是仅使用整图搜索并进行单次文本搜索调用的设置。可以看到,随着自我反思与自我纠正机制的引入与蒸馏,模型整体性能得到了提升。

在搜索平衡的 SFT 数据中(即从所有知识分类中均匀采样样本的情况),模型表现更优。苹果首先在 SFT 数据中通过不同的「需要搜索」与「无需搜索」样本比例进行消融实验,以研究其对性能的影响。从图 3(右)可以观察到,当需要搜索的问题比例较高时,微调后的模型会表现出过度搜索的行为,并在 OK-VQA 和 A-OKVQA 等需要较少搜索调用的数据集上表现较差。

SFT 阶段使模型具备使用工具的能力,而 RL 阶段则通过减少不必要的调用来优化工具选择行为。苹果在图 4 中总结了模型在 SFT 和 RL 阶段后的工具使用情况,分别针对两个数据集进行了分析。DynVQA 是一个较新的数据集,其中包含更多需要外部信息的问题;而 OKVQA 则相对需要较少的搜索调用。

模型的工具使用行为与各数据集的特性保持了一致:在 DynVQA 中,模型在 87.7% 的样本上调用了工具;而在 OKVQA 中这一比例为 43.5%。

另外,SFT 模型有时会在不必要的情况下执行裁剪图像搜索,而 RL 模型能够纠正此类错误,如图 5 所示。这一现象进一步印证了 RL 在优化工具使用行为、提升使用效率方面的重要作用。

最后,采用 LoRA 模块进行的 SFT 以及带有 KL 惩罚项的在线 GRPO 训练能够保持模型的通用视觉问答(VQA)能力,如表 2 所示。苹果观察到模型在多个数据集上的性能保持稳定,这表明本文提出的模型在学习与网络搜索工具交互的同时,依然有效地保留了其通用的视觉理解与推理能力。

更多实验细节,参阅原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
为什么不能取消公务员周末休息?这样老百姓办事就不用请假了!你怎么看?

为什么不能取消公务员周末休息?这样老百姓办事就不用请假了!你怎么看?

碧翰烽
2026-05-05 07:50:33
大家很多人的生活都是一地鸡毛

大家很多人的生活都是一地鸡毛

微微热评
2026-05-04 11:25:40
25万买奔驰GLC?这波“官降”直接把豪华SUV的遮羞布给扯下来了!

25万买奔驰GLC?这波“官降”直接把豪华SUV的遮羞布给扯下来了!

沙雕小琳琳
2026-05-04 19:29:01
港独、骂中国人,如今却还想来内地捞金,这3位香港明星令人作呕

港独、骂中国人,如今却还想来内地捞金,这3位香港明星令人作呕

傲傲讲历史
2026-04-19 01:20:08
2026年退休人员的苦日子,可能真的要来了!这4大征兆已经凸显

2026年退休人员的苦日子,可能真的要来了!这4大征兆已经凸显

猫叔东山再起
2026-05-05 11:30:09
毛主席后代现状:无心进入政坛,大多从商,从不言是伟人后代

毛主席后代现状:无心进入政坛,大多从商,从不言是伟人后代

历史人文2
2026-05-05 11:30:03
沉默45年,中国第二轮"严打"终于来了!目标改变总体战正式打响

沉默45年,中国第二轮"严打"终于来了!目标改变总体战正式打响

兴史兴谈
2026-05-05 00:38:44
你听过最令人猝不及防的一句话是什么?网友:在场的人全部石化!

你听过最令人猝不及防的一句话是什么?网友:在场的人全部石化!

夜深爱杂谈
2026-05-04 21:58:03
徐正源抵达沈阳 将与全队见面 给铁人先支一招?李金羽走的不体面

徐正源抵达沈阳 将与全队见面 给铁人先支一招?李金羽走的不体面

替补席看球
2026-05-05 14:20:51
斯诺克世锦赛中国“00后”选手吴宜泽夺冠,多家上市公司受益,金利来提前押宝成功

斯诺克世锦赛中国“00后”选手吴宜泽夺冠,多家上市公司受益,金利来提前押宝成功

红星资本局
2026-05-05 19:04:42
大陆表态后、郑丽文一鸣惊人!赖清德终成笑话,国民党3人丢尽脸

大陆表态后、郑丽文一鸣惊人!赖清德终成笑话,国民党3人丢尽脸

青梅侃史啊
2026-05-05 19:39:00
刚刚,加息25个基点

刚刚,加息25个基点

中国基金报
2026-05-05 13:40:57
成北大长聘副教授后,韦东奕形象变化太大,网友再催他赶紧找媳妇

成北大长聘副教授后,韦东奕形象变化太大,网友再催他赶紧找媳妇

小鋭有话说
2026-05-05 19:33:14
詹姆斯加盟湖人队8年后,恐怕做梦也想不到自己会取得如此成就

詹姆斯加盟湖人队8年后,恐怕做梦也想不到自己会取得如此成就

好火子
2026-05-05 22:57:56
哈佛研究发现:3 种颜色是 “抑郁色”,若孩子喜欢,家长需谨慎

哈佛研究发现:3 种颜色是 “抑郁色”,若孩子喜欢,家长需谨慎

一口娱乐
2026-05-03 07:06:21
尴尬极了!母亲天天穿紧身裤,女儿吐槽:都快50岁了,穿给谁看呢

尴尬极了!母亲天天穿紧身裤,女儿吐槽:都快50岁了,穿给谁看呢

川渝视觉
2026-05-05 20:33:39
记者:老佛爷谁都看不上,克洛普也不行,他已经看淡足坛事务

记者:老佛爷谁都看不上,克洛普也不行,他已经看淡足坛事务

懂球帝
2026-05-05 12:26:04
员工展示特斯拉工厂下线的最后一辆 Model X 照片,车身签满名字

员工展示特斯拉工厂下线的最后一辆 Model X 照片,车身签满名字

金融界
2026-05-04 20:10:26
国际乒联亲宣!64岁蔡振华再破天花板,让刘国梁和乒坛“沉默”了

国际乒联亲宣!64岁蔡振华再破天花板,让刘国梁和乒坛“沉默”了

以茶带书
2026-05-05 17:10:10
社保基数严管来了!按最低交社保的公司,该慌了!

社保基数严管来了!按最低交社保的公司,该慌了!

职场资深秘书
2026-05-05 20:46:29
2026-05-05 23:51:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12919文章数 142642关注度
往期回顾 全部

科技要闻

传苹果考虑让英特尔、三星代工设备处理器

头条要闻

媒体:中国史无前例下"阻断禁令" 美媒迅速捕捉到信号

头条要闻

媒体:中国史无前例下"阻断禁令" 美媒迅速捕捉到信号

体育要闻

全世界都等着看他笑话,他带国米拿下冠军

娱乐要闻

内娱真情谊!杨紫为谢娜演唱会送花篮

财经要闻

浏阳烟花往事

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

亲子
家居
时尚
教育
数码

亲子要闻

这个五一,带宝宝来北海看海啦~银滩细沙海浪,是小朋友最爱的天

家居要闻

灵动实用 生活艺术场

衣服不用准备太多,找到一些实用的单品才最重要,百搭又有性价比

教育要闻

为什么说即将出炉的QS2027,英国大学排名一定会大提升?

数码要闻

亚马逊押注“诺奖材料”除湿技术 可大幅削减建筑能耗

无障碍浏览 进入关怀版