网易首页 > 网易号 > 正文 申请入驻

阿里多模态检索智能体,自带o1式思考过程!复杂问题逐步拆解

0
分享至

OmniSearch团队 投稿
量子位 | 公众号 QbitAI

多模态检索增强生成(mRAG)也有o1思考推理那味儿了!

阿里通义实验室新研究推出自适应规划的多模态检索智能体。

名叫OmniSearch,它能模拟人类解决问题的思维方式,将复杂问题逐步拆解进行智能检索规划。

直接看效果:

随便上传一张图,询问任何问题,OmniSearch都会进行一段“思考过程”,不仅会将复杂问题拆解检索,而且会根据当前检索结果和问题情境动态调整下一步检索策略

相比传统mRAG受制于其静态的检索策略,这种设计不仅提高了检索效率,也显著增强了模型生成内容的准确性。

为评估OmniSearch,研究团队构建了全新Dyn-VQA数据集

在一系列基准数据集上的实验中,OmniSearch展现了显著的性能优势。特别是在处理需要多步推理、多模态知识和快速变化答案的问题时,OmniSearch相较于现有的mRAG方法表现更为优异。

目前OmniSearch在魔搭社区还有demo可玩。

动态检索规划框架,打破传统mRAG局限

传统mRAG方法遵循固定的检索流程,典型的步骤如下:

  • 输入转化:接收多模态输入(例如图像+文本问题),将图像转化为描述性文本(例如通过image caption模型)。
  • 单一模态检索:将问题或描述性文本作为检索查询,向知识库发送单一模态检索请求(通常是文本检索)。
  • 固定生成流程:将检索到的信息与原始问题结合,交由MLLM生成答案。

OmniSearch旨在解决传统mRAG方法的以下痛点:

  • 静态检索策略的局限:传统方法采用固定的两步检索流程,无法根据问题和检索内容动态调整检索路径,导致信息获取效率低下。
  • 检索查询过载:单一检索查询往往包含了多个查询意图,反而会引入大量无关信息,干扰模型的推理过程。

为克服上述局限,OmniSearch引入了一种动态检索规划框架。

OmniSearch的核心架构包括:

  • 规划智能体(Planning Agent):负责对原始问题进行逐步拆解,根据每个检索步骤的反馈决定下一步的子问题及检索策略。
  • 检索器(Retriever):执行实际的检索任务,支持图像检索、文本检索以及跨模态检索。
  • 子问题求解器(Sub-question Solver):对检索到的信息进行总结和解答,具备高度的可扩展性,可以与不同大小的多模态大语言模型集成。
  • 迭代推理与检索(Iterative Reasoning and Retrieval):通过递归式的检索与推理流程,逐步接近问题的最终答案。
  • 多模态特征的交互:有效处理文本、图像等多模态信息,灵活调整检索策略。
  • 反馈循环机制(Feedback Loop):在每一步检索和推理后,反思当前的检索结果并决定下一步行动,以提高检索的精确度和有效性。

构建新数据集进行实验评估

为了更好地评估OmniSearch和其它mRAG方法的性能,研究团队构建了全新的Dyn-VQA数据集。Dyn-VQA包含1452个动态问题,涵盖了以下三种类型:

  • 答案快速变化的问题:这类问题的背景知识不断更新,需要模型具备动态的再检索能力。例如,询问某位明星的最新电影票房,答案会随着时间的推移而发生变化。
  • 多模态知识需求的问题:问题需要同时从多模态信息(如图像、文本等)中获取知识。例如,识别一张图片中的球员,并回答他的球队图标是什么。
  • 多跳问题:问题需要多个推理步骤,要求模型在检索后进行多步推理。

这些类型的问题相比传统的VQA数据集需要更复杂的检索流程,更考验多模态检索方法对复杂检索的规划能力。

在Dyn-VQA数据集上的表现

  • 答案更新频率:对于答案快速变化的问题,OmniSearch的表现显著优于GPT-4V结合启发式mRAG方法,准确率提升了近88%。
  • 多模态知识需求:OmniSearch能够有效地结合图像和文本进行检索,其在需要额外视觉知识的复杂问题上的表现远超现有模型,准确率提高了35%以上。
  • 多跳推理问题:OmniSearch通过多次检索和动态规划,能够精确解决需要多步推理的问题,实验结果表明其在这类问题上的表现优于当前最先进的多模态模型,准确率提升了约35%。

在其它数据集上的表现

接近人类级别表现:

OmniSearch在大多数VQA任务上达到了接近人类水平的表现。例如,在VQAv2和A-OKVQA数据集中,OmniSearch的准确率分别达到了70.34和84.12,显著超越了传统mRAG方法。

复杂问题处理能力:

在更具挑战性的Dyn-VQA数据集上,OmniSearch通过多步检索策略显著提升了模型的表现,达到了50.03的F1-Recall评分,相比基于GPT-4V的传统两步检索方法提升了近14分。

模块化能力与可扩展性

OmniSearch可以灵活集成不同规模和类型的多模态大语言模型(MLLM)作为子问题求解器。

无论是开源模型(如Qwen-VL-Chat)还是闭源模型(如GPT-4V),OmniSearch都能通过动态规划与这些模型协作完成复杂问题的解决。

它的模块化设计允许根据任务需求选择最合适的模型,甚至在不同阶段调用不同大小的MLLM,以在性能和计算成本之间实现灵活平衡。

下面是OmniSearch和不同模型配合的实验结果:

Paper:https://arxiv.org/abs/2411.02937
Github:https://github.com/Alibaba-NLP/OmniSearch
ModelScope Demo: https://modelscope.cn/studios/iic/OmniSearch/summary?header=default&fullWidth=false

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
连踩中国三条底线,新加坡玩砸,黄循财纳上投名状,外长急飞北京

连踩中国三条底线,新加坡玩砸,黄循财纳上投名状,外长急飞北京

最新声音
2026-06-22 05:45:09
狗子咬坏饮料箱子被主人用拖鞋胖揍…评论区都怪主人下手太狠,直到狗主人揭秘箱子评论区陷入沉默…狗主人:没往死揍已经是我最大的仁慈…

狗子咬坏饮料箱子被主人用拖鞋胖揍…评论区都怪主人下手太狠,直到狗主人揭秘箱子评论区陷入沉默…狗主人:没往死揍已经是我最大的仁慈…

大爱狗狗控
2026-06-22 20:11:16
上市12年,下跌11年,已经从92跌到7.6,还有比它跌得久的股票吗

上市12年,下跌11年,已经从92跌到7.6,还有比它跌得久的股票吗

丁丁鲤史纪
2026-06-22 13:29:15
美专家曾一语惊人:一旦美军把核弹扔向京沪,中国其实并不会还手

美专家曾一语惊人:一旦美军把核弹扔向京沪,中国其实并不会还手

依偎在角落
2026-06-01 16:10:12
河南省纪委监委:余晓飞被查

河南省纪委监委:余晓飞被查

新浪财经
2026-06-22 19:37:35
深蓝新材料创始股东朱建琴去世,享年57岁

深蓝新材料创始股东朱建琴去世,享年57岁

界面新闻
2026-06-22 15:06:34
天地源股份有限公司专务、原常务副总裁刘永明接受纪律审查和监察调查

天地源股份有限公司专务、原常务副总裁刘永明接受纪律审查和监察调查

界面新闻
2026-06-22 09:04:42
《莫离》离山真相揭开!叶璃咬臂崩溃,才知墨修尧为何一夜白头

《莫离》离山真相揭开!叶璃咬臂崩溃,才知墨修尧为何一夜白头

风月得自难寻
2026-06-22 14:38:31
智谱市值首次突破1万亿港元,股价年内涨超20倍

智谱市值首次突破1万亿港元,股价年内涨超20倍

金融界
2026-06-22 10:11:59
618苹果又屠榜,国产机只剩尴尬

618苹果又屠榜,国产机只剩尴尬

热搜摘要官
2026-06-20 00:27:40
赖清德天塌了!大陆采取行动,两大工程落地,2300万台湾民众受益

赖清德天塌了!大陆采取行动,两大工程落地,2300万台湾民众受益

小曙说娱
2026-06-22 02:25:30
印不生莫迪,万古如长夜?莫迪执政12年,给印度带来了哪些蜕变?

印不生莫迪,万古如长夜?莫迪执政12年,给印度带来了哪些蜕变?

静夜史君
2026-06-22 00:10:07
中国男篮4大锋线基本敲定!崔永熙搭档最强4号位,冠军前锋获重用

中国男篮4大锋线基本敲定!崔永熙搭档最强4号位,冠军前锋获重用

老叶评球
2026-06-22 18:36:29
美联储,加息大消息!“大空头”,突发警告!

美联储,加息大消息!“大空头”,突发警告!

证券时报
2026-06-22 09:22:26
英国首相斯塔默为何要宣布辞职

英国首相斯塔默为何要宣布辞职

第一财经资讯
2026-06-22 16:48:51
双子星横空出世!一个23+6,一个12+1,苏群盛赞,静待1人补短板

双子星横空出世!一个23+6,一个12+1,苏群盛赞,静待1人补短板

萌兰聊个球
2026-06-21 21:49:55
9天6个涨停板!股民:上板太狡猾了!

9天6个涨停板!股民:上板太狡猾了!

数据挖掘分析
2026-06-22 15:17:38
11打10,仍未赢!亚洲第二零封比利时,再赢一场=世界杯首次出线

11打10,仍未赢!亚洲第二零封比利时,再赢一场=世界杯首次出线

侃球熊弟
2026-06-22 05:02:55
海港与麦当劳联手推出的专属套餐上线,随餐附赠精美联名周边

海港与麦当劳联手推出的专属套餐上线,随餐附赠精美联名周边

懂球帝
2026-06-22 21:41:41
上海一女老师感染艾滋病,医生寻找原因,发现她有2个致命误区

上海一女老师感染艾滋病,医生寻找原因,发现她有2个致命误区

杜医生聊健康
2026-06-22 09:30:12
2026-06-22 23:28:49
量子位 incentive-icons
量子位
追踪人工智能动态
12825文章数 176502关注度
往期回顾 全部

科技要闻

智谱盘中狂飙超40%,市值破万亿港元

头条要闻

英国首相斯塔默宣布辞职

头条要闻

英国首相斯塔默宣布辞职

体育要闻

法国球星祝中国队下届世界杯取得好成绩

娱乐要闻

陪睡陪玩是皮毛,向佐揭内娱暗规则

财经要闻

前美联储主席格林斯潘去世 享年100岁

汽车要闻

华为智驾ADS限时优惠月底结束 7月1日前下订立省3000元

态度原创

健康
本地
手机
数码
房产

粽子还没吃完?专家教你“清库存”

本地新闻

吃一次广东龙舟饭,才懂什么是豪华盛宴

手机要闻

荣耀X80 Pro Max正式发布:当中端机竞争进入“耐用时代”

数码要闻

传 Apple Watch Ultra 4 将于今年晚些时候登场

房产要闻

一年时间,36个盘“消失”!海口楼市,罕见“大收缩”!

无障碍浏览 进入关怀版