网易首页 > 网易号 > 正文 申请入驻

OmniSearch:开启O1范式的多模态动态检索新时代

0
分享至

在多模态大语言模型(MLLMs)的迅速发展下,如何解决现实世界中复杂、多变的问题成为了人工智能领域的新挑战。传统的多模态检索增强生成(mRAG)方法在面对动态问题时常常显得力不从心,其静态的检索策略导致模型在检索知识的灵活性和精准度上存在不足。

阿里巴巴通义实验室团队为解决这一问题提供了解决方法OmniSearch,它是一个自适应规划多模态检索智能体,结合动态问题拆解和智能检索规划能力,不仅克服了传统mRAG的局限性,还为复杂问题的解决提供了高效而精准的路径。

论文标题: Benchmarking Multimodal Retrieval Augmented Generation with Dynamic VQA Dataset and Self-adaptive Planning Agent 论文链接: https://arxiv.org/abs/2411.02937 代码链接: https://github.com/Alibaba-NLP/OmniSearch ModelScope Demo: https://modelscope.cn/studios/iic/OmniSearch/summary?header=default&fullWidth=false

一、革新传统检索的三大痛点

传统mRAG方法遵循固定的检索流程,典型的步骤如下:

  1. 输入转化:接收多模态输入(例如图像+文本问题),将图像转化为描述性文本(例如通过image caption模型)。

  2. 单一模态检索:将问题或描述性文本作为检索查询,向知识库发送单一模态检索请求(通常是文本检索)。

  3. 固定生成流程:将检索到的信息与原始问题结合,交由MLLMs生成答案。

OmniSearch旨在解决传统mRAG方法的以下痛点:

  1. 静态检索策略的局限:传统方法采用固定的两步检索流程,无法根据问题和检索内容动态调整检索路径,导致信息获取效率低下。

  2. 检索查询过载:单一检索查询往往包含了多个查询意图,反而会引入大量无关信息,干扰模型的推理过程。

二、OmniSearch:动态规划,精准解决

为克服上述局限,OmniSearch引入了一种动态检索规划框架。该框架的核心在于能够模拟人类解决问题的思维方式,将复杂问题逐步拆解为多个子问题,并根据当前的检索结果和问题情境动态调整下一步的检索策略。这种设计不仅提高了检索效率,也显著增强了模型生成内容的准确性。

2.1 OmniSearch的核心架构

  1. 规划智能体(Planning Agent):负责对原始问题进行逐步拆解,根据每个检索步骤的反馈决定下一步的子问题及检索策略。

  2. 检索器(Retriever):执行实际的检索任务,支持图像检索、文本检索以及跨模态检索。

  3. 子问题求解器(Sub-question Solver):对检索到的信息进行总结和解答,具备高度的可扩展性,可以与不同大小的多模态大语言模型集成。

  4. 迭代推理与检索(Iterative Reasoning and Retrieval):通过递归式的检索与推理流程,逐步接近问题的最终答案。

  5. 多模态特征的交互:有效处理文本、图像等多模态信息,灵活调整检索策略。

  6. 反馈循环机制(Feedback Loop):在每一步检索和推理后,反思当前的检索结果并决定下一步行动,以提高检索的精确度和有效性。

2.2 Dyn-VQA数据集:填补空白,推动研究

为了更好地评估OmniSearch和其他mRAG方法的性能,我们构建了全新的Dyn-VQA数据集。Dyn-VQA包含1452个动态问题,涵盖了以下三种类型:

  1. 答案快速变化的问题:这类问题的背景知识不断更新,需要模型具备动态的再检索能力。例如,询问某位明星的最新电影票房,答案会随着时间的推移而发生变化。

  2. 多模态知识需求的问题:问题需要同时从多模态信息(如图像、文本等)中获取知识。例如,识别一张图片中的球员,并回答他的球队图标是什么。

  3. 多跳问题:问题需要多个推理步骤,要求模型在检索后进行多步推理。

这些类型的问题相比传统的VQA数据集需要更复杂的检索流程,更考验多模态检索方法对复杂检索的规划能力。

三、实验结果与性能优势

在一系列基准数据集上的实验中,OmniSearch展现了显著的性能优势。特别是在处理需要多步推理、多模态知识和快速变化答案的问题时,OmniSearch相较于现有的mRAG方法表现更为优异。

在Dyn-VQA数据集上的表现

  1. 答案更新频率:对于答案快速变化的问题,OmniSearch的表现显著优于GPT-4V结合启发式mRAG方法,准确率提升了近88%。

  2. 多模态知识需求:OmniSearch能够有效地结合图像和文本进行检索,其在需要额外视觉知识的复杂问题上的表现远超现有模型,准确率提高了35%以上。

  3. 多跳推理问题:OmniSearch通过多次检索和动态规划,能够精确解决需要多步推理的问题,实验结果表明其在这类问题上的表现优于当前最先进的多模态模型,准确率提升了约35%。

在其他数据集上的表现

  1. 接近人类级别表现:OmniSearch在大多数VQA任务上达到了接近人类水平的表现。例如,在VQAv2和A-OKVQA数据集中,OmniSearch的准确率分别达到了70.34和84.12,显著超越了传统mRAG方法。

  2. 复杂问题处理能力:在更具挑战性的Dyn-VQA数据集上,OmniSearch通过多步检索策略显著提升了模型的表现,达到了50.03的F1-Recall评分,相比基于GPT-4V的传统两步检索方法提升了近14分。

模块化能力与可扩展性

OmniSearch可以灵活集成不同规模和类型的多模态大语言模型(MLLM)作为子问题求解器。无论是开源模型(如Qwen-VL-Chat)还是闭源模型(如GPT-4V),OmniSearch都能通过动态规划与这些模型协作完成复杂问题的解决。它的模块化设计允许根据任务需求选择最合适的模型,甚至在不同阶段调用不同大小的MLLM,以在性能和计算成本之间实现灵活平衡。下面是OmniSearch和不同模型配合的实验结果。

四、未来展望

OmniSearch为多模态大语言模型的知识增强提供了新的思路。随着复杂问题的不断涌现,OmniSearch的自适应检索能力将为各类多模态应用场景提供强有力的支持。

llustration From IconScout By IconScout Store

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(

www.techbeat.net
) 。 社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信(yellowsubbj)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
蛇的寿命有多长?为何我们很少看到蛇的尸体呢?

蛇的寿命有多长?为何我们很少看到蛇的尸体呢?

农夫也疯狂
2026-06-19 11:33:34
赖清德天塌了!大陆采取行动,两大工程落地,2300万台湾民众受益

赖清德天塌了!大陆采取行动,两大工程落地,2300万台湾民众受益

小曙说娱
2026-06-22 02:25:30
真正厉害的女人是怎样 看网友讲述和他们相比简直相差十万八千里

真正厉害的女人是怎样 看网友讲述和他们相比简直相差十万八千里

侃神评故事
2026-06-22 13:15:13
双子星横空出世!一个23+6,一个12+1,苏群盛赞,静待1人补短板

双子星横空出世!一个23+6,一个12+1,苏群盛赞,静待1人补短板

萌兰聊个球
2026-06-21 21:49:55
贪污5.8亿,建行宫养百人私军公然挑衅部队,北京村官堪比土皇帝

贪污5.8亿,建行宫养百人私军公然挑衅部队,北京村官堪比土皇帝

易玄
2024-06-25 06:51:24
为什么说闲鱼是中国最大的黑市?网友:我直接给跪了!

为什么说闲鱼是中国最大的黑市?网友:我直接给跪了!

另子维爱读史
2026-06-02 10:51:07
48小时内,台军、美军、日军全动了,日媒:高市有对付中国的王牌

48小时内,台军、美军、日军全动了,日媒:高市有对付中国的王牌

卷史
2026-06-22 10:25:13
中国海军最大软肋:军舰一旦打光导弹,真的只能沦为海上的废铁?

中国海军最大软肋:军舰一旦打光导弹,真的只能沦为海上的废铁?

喜你成疾药石无医
2026-06-21 22:35:00
西班牙若头名出线将遇J组第二,若小组第二可能首轮碰阿根廷

西班牙若头名出线将遇J组第二,若小组第二可能首轮碰阿根廷

懂球帝
2026-06-22 08:46:47
时隔486天,杨瀚森将再次为中国男篮出战

时隔486天,杨瀚森将再次为中国男篮出战

北青网-北京青年报
2026-06-22 11:39:11
美国断供C919发动机1年后,世界才发现,中国造出了一台更好的

美国断供C919发动机1年后,世界才发现,中国造出了一台更好的

商业财经风向
2026-06-18 10:39:45
金融圈反腐,向阳被查!

金融圈反腐,向阳被查!

金融界
2026-06-22 13:35:47
上田绮世妻子由布菜月分享孩子照片,手中握着上田绮世的立牌

上田绮世妻子由布菜月分享孩子照片,手中握着上田绮世的立牌

懂球帝
2026-06-22 07:21:32
特朗普又要来中国了?这回可不是“串门”那么简单!

特朗普又要来中国了?这回可不是“串门”那么简单!

娱乐圈的笔娱君
2026-06-21 09:26:40
镰田大地:我答应恩凯蒂亚,在世界杯进球就做他的庆祝动作

镰田大地:我答应恩凯蒂亚,在世界杯进球就做他的庆祝动作

懂球帝
2026-06-21 15:16:43
西班牙头号倒霉蛋?26岁射手离谱失单刀+进球被吹 世界杯连场拉胯

西班牙头号倒霉蛋?26岁射手离谱失单刀+进球被吹 世界杯连场拉胯

我爱英超
2026-06-22 02:32:09
朗尼克:阿根廷无明显弱点+战术变化多;梅西堪称史上最伟大

朗尼克:阿根廷无明显弱点+战术变化多;梅西堪称史上最伟大

砚底沉香
2026-06-22 10:41:54
小心那个娃娃脸!23岁女孩备考公务员迷上杀人,一度想杀自己父亲

小心那个娃娃脸!23岁女孩备考公务员迷上杀人,一度想杀自己父亲

三目观史
2026-06-21 20:00:43
2026WTT美国大满贯赛程表!国乒赛程时间表与参赛名单一览!

2026WTT美国大满贯赛程表!国乒赛程时间表与参赛名单一览!

等等talk
2026-06-22 11:29:07
2026车市最大骗局:省油电车全亏钱,烂大街油车才是真赢家

2026车市最大骗局:省油电车全亏钱,烂大街油车才是真赢家

民间胡扯老哥
2026-05-24 13:40:40
2026-06-22 14:23:00
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2410文章数 596关注度
往期回顾 全部

科技要闻

智谱盘中狂飙超40%,市值破万亿港元

头条要闻

南派三叔新剧上线10分钟被盗版 还遭盗版者私信嘲笑

头条要闻

南派三叔新剧上线10分钟被盗版 还遭盗版者私信嘲笑

体育要闻

法国球星祝中国队下届世界杯取得好成绩

娱乐要闻

韩红帮冯小刚宣传,结果翻车了…

财经要闻

“床垫界的特斯拉”破产了

汽车要闻

全面提升 全新理想L8 livis将家用舒适再进化

态度原创

旅游
艺术
教育
游戏
公开课

旅游要闻

龙舟赛+苏超+文博大展齐发力,端午假期南京接待游客527.5万人次

艺术要闻

冷军 人物油画写生8幅

教育要闻

动动脑,请问赚了还是赔了

《GTA6》新消息确认!PS第一方独占大作演员参演

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版