网易首页 > 网易号 > 正文 申请入驻

多模态模型学会“按需搜索”,少搜30%还更准!字节&NTU新研究

0
分享至

MMSearch-R1团队投稿
量子位 | 公众号 QbitAI

多模态模型学会“按需搜索”!

字节&NTU最新研究,优化多模态模型搜索策略

通过搭建网络搜索工具、构建多模态搜索数据集以及涉及简单有效的奖励机制,首次尝试基于端到端强化学习的多模态模型自主搜索训练

经过训练的模型能够自主判断搜索时机、搜索内容并处理搜索结果,在真实互联网环境中执行多轮按需搜索。

实验结果表明,在知识密集型视觉问答任务(Visual Question Answering, VQA)中,MMSearch-R1系统展现出显著优势:

其性能不仅超越同规模模型在传统检索增强生成(RAG)工作流下的性能,更在减少约30%搜索次数的前提下,达到了更大规模规模模型做传统RAG的性能水平。

下文将详细解析该研究的研究方法以及实验发现。

具体怎么做到的?

近年来,随着视觉-语言训练数据集在规模和质量上的双重提升,多模态大模型(Large Multimodal Models, LMMs)在跨模态理解任务中展现出卓越的性能,其文本与视觉知识的对齐能力显著增强。

然而,现实世界的信息具有高度动态性和复杂性,单纯依靠扩大训练数据规模的知识获取方式存在固有局限:难以覆盖长尾分布的知识、无法获取模型训练截止日期后的新信息,以及难以触及私域信息资源。

这些局限性导致模型在实际应用中容易产生幻觉现象,严重制约了其在广泛现实场景下部署的可靠性。

在此背景下,网络搜索作为人类获取新知识的核心途径,被视为扩展模型能力边界的重要工具,正受到学术界的高度重视。

如何使多模态模型具备自主、精准的外部信息获取能力,从而实现准确的问题解答,成为当前研究的关键挑战。

因此,ByteDance与南洋理工大学(NTU)S-Lab联合开展的MMSearch-R1项目针对这一挑战进行了探索。

下面详细来看该研究的研究方法。

集成多轮搜索的强化学习训练

1、多模态搜索工具

MMSearch-R1集成图像搜索和文本搜索两种工具,以满足模型应对视觉问答任务的需求,其中图像搜索工具基于Google Lens,支持搜索与用户图像视觉外观匹配的网页标题以及主要缩略图,用于帮助模型准确识别重要的视觉元素。

文本搜索工具由Google Search,JINA Reader以及用于网页内容总结的语言模型构成的链路组成,支持搜索与模型生成的搜索内容最相关的网页及其内容摘要,用于帮助模型精确定位所需文本知识与信息。

2、多轮搜索强化学习训练

MMSearch-R1采用GRPO作为强化学习算法进行模型训练,基于veRL框架实现集成多轮对话与搜索的Rollout过程,在每轮对话中,模型首先进行思考,并执行可选的动作,如调用多模态搜索工具与真实互联网进行交互,或给出最终的答案。

3、带有搜索惩罚的奖励函数

MMSearch-R1的奖励函数由准确性得分和格式得分两部分以加权求和的形式构成,其权重分别为0.9和0.1,分别衡量模型是否准确回答了用户问题(模型所给答案与真实答案作字符串精确匹配)以及遵循了既定回复格式。

为了激励模型优先利用自身知识完成作答,还会对调用搜索工具才获得正确答案的回复进行惩罚(搜索惩罚因子为0.1),最终奖励函数为:

构建搜索需求均衡的多模态图像问答数据集

为了有效训练模型实现智能化的按需搜索能力,研究精心构建了FactualVQA(FVQA)数据集,包含训练集和测试集。该数据集的构建采用了一套精心设计的半自动化流程,重点聚焦于需要丰富视觉与文本知识支持的问答场景。

1、数据采集

团队首先基于MetaCLIP的元数据分布进行多层次采样,确保覆盖从高频到长尾的多样化视觉概念(Visual Concept),并从互联网中搜索与视觉概念最相关的图片,基于GPT-4o生成事实性问答对。

为增强数据集的文本知识维度,团队还从InfoSeek训练集中筛选了具有代表性的问答样本进行补充。为确保数据质量贴近真实应用场景,FVQA还补充了800个由标注人员标注问答对样本。

2、数据均衡

完成初步数据采集后,通过一个粗训练的模型对现有样本进行分类,检查每条数据的搜索必要性,最终训练数据集包含约3400个需要搜索的样本和1600个无需搜索的样本。

实验效果如何?

MMSearch-R1-7B基于Qwen2.5-VL-7B模型进行训练。

在FVQA-test、InfoSeek等知识密集型VQA任务中,MMSearch-R1-7B的平均准确率比同等规模模型的传统RAG基线高出约3%搜索比率降低了32.9%,同时能够媲美32B模型RAG基线的效果。

经过强化学习训练,模型提升了优化搜索内容以及处理搜索结果的能力(下图左,经过强化学习的模型执行RAG Workflow性能要好于原始模型),同时增强了挖掘利用自身固有知识的能力(下图右,模型提升了不搜索即可回答正确的比率)。

强化学习展现出比监督微调更大的潜力,在所有任务上以较少的训练样本取得更大的性能增益(下图左)。

同时证明数据搜索比例均衡以及奖励函数中的搜索惩罚机制有助于在训练过程中塑造模型的按需搜索行为(下图右)。

最后总结来说,MMSearch-R1是一个基于强化学习的创新框架,赋予多模态大模型在真实互联网环境中执行智能按需搜索的能力。该框架使模型能够自主识别知识边界,进而选择图像或文本搜索方式获取所需信息,并对搜索结果进行有效推理。

团队表示,该研究为开发具备现实世界交互能力的多模态大模型提供了重要洞见,为构建自适应、交互式的多模态智能体奠定了基础。期待随着模型通过更多工具与现实世界的持续交互,多模态智能将在推理和适应能力上实现新的飞跃。

论文地址:https://arxiv.org/abs/2506.20670
项目地址:https://github.com/EvolvingLMMs-Lab/multimodal-search-r1

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
吴君如很早就说过了,陈妍希私下就是这样穿

吴君如很早就说过了,陈妍希私下就是这样穿

八卦王者
2026-05-10 13:24:46
普京表态引发关注,双方启动交换战俘,俄乌冲突“正走向结束”?

普京表态引发关注,双方启动交换战俘,俄乌冲突“正走向结束”?

环球网资讯
2026-05-11 07:00:15
张本智和竖手指挑衅 梁靖崑展示国旗回应:霸气失2追3 举双臂高呼

张本智和竖手指挑衅 梁靖崑展示国旗回应:霸气失2追3 举双臂高呼

风过乡
2026-05-11 05:47:30
西宁一17岁高中女生写作业至凌晨,外出复印试卷失联,身影消失在2公里外大桥监控里

西宁一17岁高中女生写作业至凌晨,外出复印试卷失联,身影消失在2公里外大桥监控里

极目新闻
2026-05-10 22:57:52
王曼昱负蒯曼,孙颖莎挽颜面,日本教练评价更显分量

王曼昱负蒯曼,孙颖莎挽颜面,日本教练评价更显分量

七七自驾游
2026-05-10 22:01:08
大争议!文班亚马肘击里德喉部 被吹罚二级恶犯生涯首次被驱逐

大争议!文班亚马肘击里德喉部 被吹罚二级恶犯生涯首次被驱逐

醉卧浮生
2026-05-11 08:32:04
里外不是人!“黄鹅粉雇佣兵”被乌克兰俘虏,爹不亲娘不收没人要

里外不是人!“黄鹅粉雇佣兵”被乌克兰俘虏,爹不亲娘不收没人要

瑜说还休
2026-05-09 12:03:06
男子为泄愤将单身女邻居手机号写在公厕致其频遭骚扰,因诽谤罪一审获缓刑,赔偿5000余元;当事女子:量刑过轻,计划提起上诉

男子为泄愤将单身女邻居手机号写在公厕致其频遭骚扰,因诽谤罪一审获缓刑,赔偿5000余元;当事女子:量刑过轻,计划提起上诉

极目新闻
2026-05-11 07:34:42
海参崴的街头,谁在出卖我们的历史尊严?

海参崴的街头,谁在出卖我们的历史尊严?

迷世书童H9527
2026-05-07 14:55:09
72岁濮存昕硬捧外孙女拍戏,全网吐槽:尖嘴猴腮求放过

72岁濮存昕硬捧外孙女拍戏,全网吐槽:尖嘴猴腮求放过

阿废冷眼观察所
2026-05-10 19:41:35
三亚皮皮虾再升级!老板身亡仍被追责,游客曝猛料,不止是为了钱

三亚皮皮虾再升级!老板身亡仍被追责,游客曝猛料,不止是为了钱

北纬的咖啡豆
2026-05-10 11:43:20
休学门诊挤满了初三学生,北大教培人揭开真相:三条路全被堵死,他们无处可逃

休学门诊挤满了初三学生,北大教培人揭开真相:三条路全被堵死,他们无处可逃

三言四拍
2026-05-10 10:34:00
伊媒:伊朗已拒绝美国提出的方案

伊媒:伊朗已拒绝美国提出的方案

新华社
2026-05-11 07:07:03
文班亚马肘击对手颈部,生涯首次被驱逐

文班亚马肘击对手颈部,生涯首次被驱逐

热血体育社
2026-05-11 08:33:23
英超VAR最重要判罚!西汉姆绝平球被吹,决定冠军归属,枪手欢庆

英超VAR最重要判罚!西汉姆绝平球被吹,决定冠军归属,枪手欢庆

奥拜尔
2026-05-11 02:03:40
套路一模一样!2026 年汉坦病毒刚露头,西方又准备好了老剧本

套路一模一样!2026 年汉坦病毒刚露头,西方又准备好了老剧本

魔都姐姐杂谈
2026-05-09 20:58:28
孙颖莎王曼昱的教练还有这一面?马琳在世乒赛“修行”:每一场都是新开始

孙颖莎王曼昱的教练还有这一面?马琳在世乒赛“修行”:每一场都是新开始

上观新闻
2026-05-10 21:58:07
红场阅兵结束!普京感谢中国,特朗普最不愿意看到的一幕发生

红场阅兵结束!普京感谢中国,特朗普最不愿意看到的一幕发生

书纪文谭
2026-05-10 21:14:35
善恶有报!许家印刚认罪1天,子女近况曝光,大儿子的安排全白费

善恶有报!许家印刚认罪1天,子女近况曝光,大儿子的安排全白费

历史伟人录
2026-05-10 22:06:40
任正非罕见出镜:华为芯片基础技术研究实验室亮相《新闻联播》

任正非罕见出镜:华为芯片基础技术研究实验室亮相《新闻联播》

IT之家
2026-05-10 22:51:11
2026-05-11 08:51:00
量子位 incentive-icons
量子位
追踪人工智能动态
12599文章数 176461关注度
往期回顾 全部

科技要闻

股价一年暴涨160%!谷歌凭什么?

头条要闻

男子将女邻居手机号写在公厕致其频遭骚扰 一审获缓刑

头条要闻

男子将女邻居手机号写在公厕致其频遭骚扰 一审获缓刑

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

赵露思老实人豁出去了 没舞蹈天赋硬跳

财经要闻

"手搓汽车"曝光:伪造证件、电池以旧代新

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

亲子
本地
时尚
教育
公开课

亲子要闻

一天天操碎了心~

本地新闻

用苏绣的方式,打开江西婺源

轻松拿捏又甜又酷的造型,试试这些轻熟穿搭,温柔有女人味儿

教育要闻

教育家精神背景下校长的六大意识

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版