网易首页 > 网易号 > 正文 申请入驻

南洋理工大学、山东大学等机构联合提出的多模态搜索新范式

0
分享至


这项由南洋理工大学、山东大学、阿里巴巴达摩院和南方科技大学联合开展的研究,以预印本形式发布于2026年5月,论文编号为arXiv:2605.07510,有兴趣深入了解的读者可通过该编号查询完整论文。

**一个被忽视的真实场景**

假设你正在为一篇旅游攻略寻找信息。你看到一张照片,里面有一座独特的多塔尖建筑,你想知道这座建筑在哪座城市,然后再查那座城市有没有姐妹城市,最后还想看看那座姐妹城市的某个地标性建筑长什么样。这整个过程,你的眼睛和搜索框是交替工作的——看一眼图片,搜一下文字,再看一张图片,再搜一段文字。这种"交替",正是人类信息查找的真实状态。

然而,现有的AI搜索系统在处理这种场景时却存在一个根本性的盲区:它们要么只会把图片当作"提问的开头",要么只会把找到的图片当作"回答的终点",从来不会把中途找到的图片当作"下一步该搜什么"的线索。这就像一个侦探,他能看懂第一张现场照片,也能在最后亮出破案图片,但中间的侦查过程却全部靠猜,从不主动拿着线索去追查下一条线索。

这项联合研究正是为了填补这个空白而展开的,他们构建了一个名为**InterLV-Search**的测试基准,专门评估AI系统能否像真正的侦探一样,让视觉证据在整个搜索过程中持续发挥"指引下一步"的作用,而非仅仅充当开头或结尾的装饰。

**一、现有AI搜索系统的"终点陷阱"**

要理解这项研究解决的问题,需要先弄清楚现有系统卡在哪里。

早期的多模态搜索基准,例如MMSearch和FVQA-Test,其实是把图片当作"题目附件"来使用的。用户上传一张图,AI用文字去网上查资料,最后给出文字答案。整个过程中,图片的角色只是触发搜索的起点,之后便退场了。这类系统解决的问题其实是"我有一张图,我想知道关于这张图的某个文字信息",图片是起跑线,文字是终点线。

后来,研究者们意识到这还不够,于是出现了更进一步的视觉浏览类基准,比如VisBrowse和BrowseComp-V?。这类系统要求AI不仅要搜文字,还要主动去找图片——它必须在网上定位到某张特定的图,然后通过观察那张图来回答问题。这已经是很大的进步了,AI终于学会了"主动找图"。

但问题在于,这些系统找到图片之后,那张图的使命就结束了。找到一张图,看一眼颜色或者数一数人数,然后给出答案——图片始终是"最后一步",是问卷上最后一道填空题,而不是引出下一道题的线索。

现实中的信息搜索恰恰不是这样的。更常见的情况是:你找到一张图,从这张图里辨认出一个人、一个地点或一个符号,然后这个认知结果成为你下一次搜索的出发点,于是再找一段文字,再找一张图,如此循环。图片在整个搜索链条中不是终点,而是一个又一个的"中转站"。

这种"中转站"式的视觉证据使用方式,在已有的所有基准测试中都付之阙如。InterLV-Search的诞生,正是为了专门测量AI在这个维度上的能力。

**二、InterLV-Search:用三关卡设计模拟真实侦查**

整个基准被设计成三个难度递进的关卡,每一关都对应侦探破案过程中的一个具体能力。

第一关叫做"主动视觉证据获取"。在这一关里,每道题的问题是用纯文字描述的,但回答问题需要先找到一张图,然后从图里读出答案。比如题目会说:"有一位1966年出生、与某位历史上著名政治人物同名的公众人物,他深色领饰上绣着什么图案?"要回答这个问题,AI必须先根据文字描述猜出这个人是谁,然后主动去找到这个人的照片,最后仔细观察领饰上的图案。答案不是"这个人叫什么名字",而是"领饰上有热气球图案"——这是一个必须真正看到图才能知道的视觉细节。这一关考验的是AI能否从文字需求出发,主动把视觉证据找回来。

第二关叫做"离线交替多模态搜索"。这一关的题目更长、更复杂,答案需要经过多轮"看图→搜文字→看图→搜文字"的交替过程才能获得。研究团队使用的是一个受控的离线数据库,避免真实网络的不稳定性干扰评测结果。比如题目会说:"从那座以宽阔湖面、小亭画舫和现代高楼共同构成标志性景观的城市出发,找到同国另一座以单体多层传统建筑为核心景观的省会城市,那座城市与某个东南欧内陆河港城市结为姐妹城市,而那个河港城市又与某个南亚沿海大都市是姐妹城市,那个大都市里有一栋左侧带有许多拱形窗的知名建筑,它的大圆顶是什么颜色?"答案是"红色"。要得到这个答案,AI必须先搜文字认出第一座城市(杭州),再搜图认出第二座城市(武汉),再搜文字找到那个东欧港口(加拉茨),再搜文字确认南亚都市(孟买),最后再搜图观察那栋建筑的圆顶颜色。整个过程,图片在中间充当了两次"定向箭头",指引着接下来要搜什么。

第三关叫做"开放网络交替多模态搜索"。这一关和第二关考察的能力本质相同,但环境换成了真实的开放网络。真实网络意味着搜索结果不稳定、页面内容随时变化、噪声信息远多于有用信息。在这种条件下完成多轮交替搜索,难度自然大幅提升。此外,第三关还引入了一种特殊的"多分支"题型:题目不只有一条推理链,而是同时开启多条平行线索,AI必须把每条线索都跑一遍,收集并比较各条线路上的信息,然后根据比较结果选择继续深入哪条线。比如题目会要求AI先找到三部电影各自的时长,比较之后保留时长居中的那部,再顺着这部电影的相关信息继续往下查。这不再是一条笔直的侦查链,而是像真实案件中的多条嫌疑线索——你必须全部核查,然后根据证据做出选择。

**三、数据是如何制造出来的**

制造一个能测试上述能力的数据集,本身就是一件复杂的工程。

第一关和第二关的数据来自一个叫做MMKG-W的维基百科多模态知识图谱,里面包含大约一万五千个实体,每个实体都有图片、文字描述和知识图谱关系。研究团队用全自动的AI流水线来生成题目:先让一个大语言模型为某个实体构造一个"不看图就无法回答的视觉细节问题",再让它构造一个"不直接点名该实体的隐晦文字描述",最后把这两部分自然地拼合成一道完整的题目。生成之后还有严格的过滤环节,专门剔除那些答案可以从文字描述里直接猜出来、或者题目里已经不小心泄露了实体名称的"作弊题"。第二关在此基础上进一步引入了知识图谱的多跳路径,让题目中的推理链横跨多个实体,并在其中某个节点插入"必须看图才能继续"的视觉中转站。

第三关的数据则需要人机协作来完成。研究团队让一个具备联网搜索能力的强大AI模型(GPT-5.4-Thinking)先行生成题目草稿,包括题目本身、参考答案和完整的搜索推理链。然后由博士级别的人类标注者审阅每一道题,检查推理链是否真实可信、视觉中转站是否足够关键、答案来源是否稳定可查。如果发现问题,标注者会直接反馈给AI模型,要求它修改题目或重建推理链,如此循环直到质量达标。最终还要用多个强AI模型在不联网的情况下尝试直接回答这些题,只有那些"不搜索基本答不出来"的题才会被保留进最终数据集。

整个数据集共包含2061道题:第一关975道,第二关225道,第三关861道(其中340道是多分支题型,占比约40%)。题目覆盖娱乐、名人、地点、组织机构、地理标志、科技、旅游、艺术等多个领域,确保测试结果不会因为领域单一而失去代表性。

**四、测试工具:InterLV-Agent**

为了让不同的AI系统在相同条件下接受测评,研究团队还开发了一套叫做InterLV-Agent的标准化评测框架。这个框架的工作方式可以理解为给每个参赛AI配备了一套标准工具箱,工具箱里包括文字网络搜索、图片搜索(用文字描述找图)、反向图片搜索(用一张图找相似的图)、网页浏览(读取网页文字内容)、网页截图浏览(把网页渲染成图片来看)、图片裁剪和代码执行。对于第一关和第二关,工具箱里还有一套离线本地检索工具,专门在那一万五千个实体构成的数据库里进行受控检索,使用的是阿里的Qwen3-VL多模态嵌入模型。

除了工具之外,框架还为每个AI配备了一套轻量级的"两层记忆"系统。短期记忆直接保存最近几轮的工具调用和返回结果,而长期记忆则是一个不断更新的简短摘要,记录已知的关键实体、视觉线索和尚未解决的子目标。这套记忆系统的设计初衷是让AI在漫长的多跳搜索过程中不至于"忘记自己在找什么"——就像侦探随身携带的案件笔记本,虽然不会记录每一个细节,但总能提醒自己案件的核心线索和当前进展。

每道题的交互轮数也有明确限制:第一关最多3轮,第二关最多7轮,第三关最多10轮。每轮交互包括一次思考、一次或多次工具调用和对应的结果观察。最终的答案评判由GPT-5.4-mini担任裁判,允许同义词、别称和措辞差异,只要语义等价就判为正确。

**五、实验结果:没有哪个AI系统表现令人满意**

研究团队测试了五个商业闭源模型(GPT-5.4、GPT-5、Gemini-3.1-Pro、Claude-Sonnet-4.6、Qwen3.6-Plus)和三个开源的搜索专用模型(MMSearch-R1-7B、VDR-8B、SenseNova-MARS-32B),所有模型都在相同的InterLV-Agent框架下运行。

最核心的发现是:即使是表现最好的模型,整体准确率也没有超过50%。表现最佳的Gemini-3.1-Pro在三关合计的工具辅助下达到了46.05%(第一关)、41.33%(第二关)和46.46%(第三关)的成绩,但距离"解决了这个问题"还有相当长的距离。

不使用任何工具、纯靠模型已有知识直接作答的情况下,所有模型在第三关的表现都惨不忍睹,最好的也只有20%左右,充分证明了这批题目确实不能靠死记硬背蒙混过关,必须真正去搜索才行。

使用工具之后,商业模型的表现均有明显提升,尤其是在第二关和第三关,提升幅度可达10到30个百分点。这说明工具确实有用,但不同模型使用工具的效率差异很大,反映出各自在搜索规划、视觉定位和多模态证据整合上的能力高低不同。

开源搜索专用模型的情况则令人意外:加上工具之后,它们的表现不仅没有显著提升,有的甚至比不用工具时还要差。这揭示出一个重要现实——为文字搜索专门优化的开源模型,在面对需要反复切换视觉和文字的交替搜索任务时,反而因为乱用工具而走了弯路,搜索规划能力的缺失比工具本身的限制更致命。

多分支题型和单链题型之间的差距也相当显著。在第三关,所有模型在单链题上的准确率都明显高于多分支题,说明当搜索路径不再是一条直线、而是需要同时维护多条平行线索时,当前AI系统的协调能力明显不足。

**六、深入解剖:问题究竟出在哪里**

为了更精细地定位失败原因,研究团队对第一关和第二关的结果做了进一步拆解分析。他们区分了两种情况:AI最终找到了正确的目标图片,以及AI没有找到正确的目标图片,然后分别统计这两种情况下最终答题的正确率。

结果非常清晰。当AI成功找到了目标图片时,最终答对的概率大幅提升——Gemini在第一关找到目标图时的答对率高达59.51%,在第二关更是达到73.75%。而没有找到目标图时,答对率只有23%到34%左右。这意味着:只要能找到正确的图,AI其实相当擅长从图片里读出正确答案;真正的瓶颈在于能否在茫茫图海中找到那张正确的图,尤其是第二关,目标图片检索召回率只有35%左右,这才是整个系统最薄弱的环节。

工具使用习惯的分析也揭示了有趣的规律。在第二关(离线环境)里,AI的工具调用被图片相关操作主导——Gemini有68.3%的工具调用都是图片搜索类操作,这与第二关的设计意图高度吻合,说明模型确实理解了这道题需要找图。而在第三关(开放网络),文字网络搜索占据了大头(60%以上),图片操作的比例有所下降但仍占17%左右,说明第三关并没有退化成纯文字的网页浏览游戏,视觉搜索依然是不可缺少的一环。

研究团队还专门分析了AI的实际执行路径,检查那些搜索轨迹中是否真正出现了"用视觉证据指引下一步搜索"的行为。在第二关,Gemini有88.9%的执行路径包含了视觉中转站,Claude达到80%,GPT-5.4也有74.9%。这证明InterLV-Search确实成功地测到了它想测的能力,而不仅仅是在考察普通的文字搜索技巧。

去掉图片搜索工具之后会发生什么?在第二关,去掉图片搜索的结果接近甚至低于完全不用工具直接回答的水平,说明图片搜索对于第二关而言几乎是不可或缺的。在第三关,去掉图片搜索的影响稍小,因为真实网络提供了更丰富的文字线索作为补充,但依然造成了一致性的成绩下滑。记忆系统的重要性在第三关体现得比第二关更明显,这与直觉相符:第三关的搜索链更长、分支更多、噪声更大,更需要一个可靠的"案件笔记本"来维持搜索状态的连贯性。

**七、从失败案例中看懂核心难题**

论文最后提供的成功与失败案例,把上述发现讲得更加具体生动。

一个成功的三分支案例是这样运作的:题目要求AI找到三部电影各自的官方节日页面,比较它们的时长,保留时长居中的那部,然后继续深入那部电影的目标图,回答目标图里某个自然现象的问题。AI的处理过程是先对三个视觉描述各自进行图片搜索,定位到三部候选电影(Nox、Krakatoa、My Semba),然后切换到文字搜索获取时长数据(分别是64分钟、79分钟和93分钟),比较之后选定中间值79分钟对应的Krakatoa,最后回到图片搜索找到Krakatoa的目标图,通过视觉观察回答"标题文字后面升起的是什么自然现象"——答案是火山喷发。这个成功案例的关键在于,AI在整个过程中持续地把图片和文字交替使用,而且每一次切换都有明确的目的和依据。

一个典型的失败案例则相反:题目要求AI分别找到Tate美术馆的毕加索相关页面和柏林电影节的新泻相关页面,从这两个页面出发进入各自的"本地符号系统",比较两者的数量,沿着数量较小的那条线索继续,最终回答对应旗帜边框左半部分是什么颜色。AI做了大量的文字搜索,也成功找到了两个页面,但它从来没有真正把这两个页面与各自对应的本地符号系统(马拉加的徽章和新泻的官方符号系统)建立视觉连接,更没有去统计和比较数量。到最后,它只能靠猜给了一个蓝色的答案,而正确答案是紫色。失败的根源不是搜索不够努力,而是它把图片搜索当成了可选项,没有意识到视觉证据在这道题里是不可绕过的必经环节。

另一个单链失败案例更能说明问题:题目里提到一个关于双层巴士的旅游页面,但这些巴士只是表面,关键在于巴士车身上借用了某个"守护者形象"的视觉身份。AI需要先用图片搜索看清楚巴士车身上画的是什么,然后以这个视觉线索为跳板,找到对应的城市所在州,再查那个州的官方旗帜,最后回答旗帜上对角条带的颜色(答案是白色)。但AI完全没有主动去检查巴士的视觉外观,一直在用文字查询各种宽泛的关键词,最终答了"红色"——它把旗帜整体的红色背景和那条对角白色条带混淆了。问题出在最初就没有把视觉线索当作搜索的出发点,而是一头扎进了文字世界里打转。

**说到底,这项研究告诉我们什么**

归根结底,InterLV-Search揭示了一个目前所有AI搜索系统都面临的共同困境:它们在使用视觉证据时,要么只会用图作为起点,要么只会用图作为终点,真正能把图片当作搜索链条中反复出现的"路标"的系统,目前还几乎不存在。

最好的商业模型在这套测试中的整体准确率不到50%,这个数字说明当前的AI离"像人一样自然地交替使用视觉和文字来查找信息"还有相当大的差距。而开源搜索专用模型的表现甚至更令人担忧——它们在加上工具之后反而可能表现更差,说明问题不只是工具有没有,更是有了工具之后懂不懂得用、会不会在恰当的时机切换到视觉搜索模式。

这对普通人意味着什么?你每天在网上查信息时感到的那种"AI不够智能"的挫败感,很可能恰好来源于这个盲区。当你上传一张图问AI"这张图里这个东西叫什么名字,然后告诉我这个东西的制造商是谁,再告诉我那家制造商CEO的外貌特征"时,AI在第一步可能还不错,但从第二步开始,视觉线索和文字推理的无缝衔接往往就会断掉。

这项研究通过构建一套系统性的测评工具,让这个问题变得可测量、可追踪、可改进。某种意义上,它做的事情就是给AI搜索能力的弱点画了一张精确的地图,让后续的研究者知道应该把力气花在哪里。至于AI什么时候能真正做到像人一样流畅地在视觉和文字之间来回穿行,这道题的答案还需要时间来揭晓。数据集和评测代码已经开源,任何有兴趣的研究团队都可以在此基础上继续探索。

Q&A

Q1:InterLV-Search测试基准和普通的多模态搜索测试有什么本质区别?

A:普通的多模态搜索测试通常只关注两种模式:要么把图片作为问题的起点,然后靠文字搜索得出答案;要么要求AI主动找到某张图,用那张图回答一个局部视觉问题。InterLV-Search的本质区别在于,它要求图片在整个搜索过程中反复出现,每一张中途找到的图都要成为"下一步该搜什么"的依据,而不是搜索链条的终点。简单说,就是从"图→文字→答案"或"文字→图→答案",升级为"文字→图→文字→图→文字→图→答案"的反复交替模式。

Q2:为什么开源搜索专用模型加上工具反而表现变差?

A:这是因为这些开源模型是针对文字搜索任务专门训练的,它们的搜索规划策略天然倾向于反复调用文字查询工具。当面对需要在特定时机切换到图片搜索的交替任务时,这些模型不知道什么时候该停止文字搜索、转而发起视觉检索,于是工具调用变成了无效甚至有害的行为,消耗了宝贵的交互轮数却没有找到关键的视觉证据。根本问题不是工具本身有缺陷,而是模型缺乏"什么时候该看图、什么时候该搜文字"的判断能力。

Q3:InterLV-Search的多分支题型在测试中体现了什么特殊难点?

A:多分支题型要求AI同时维护多条平行推理链,分别沿每条链搜集证据,再根据比较结果选定其中一条继续深入。这对AI的搜索状态管理提出了远超单链题的要求——它必须记住自己正在同时跑几条线、每条线上已经找到了什么、哪条线还缺什么信息,最终还要在多条线的结果之间做出有依据的比较选择。实验数据显示,所有测试模型在多分支题上的准确率都显著低于单链题,说明当搜索路径不再是一条直线时,当前AI系统的多任务协调能力明显不足。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
上海半决赛开门红仍存隐患:险遭20分逆转+三分23中5 张镇麟惊艳

上海半决赛开门红仍存隐患:险遭20分逆转+三分23中5 张镇麟惊艳

醉卧浮生
2026-05-15 21:29:04
俄罗斯超大舰队进入东海

俄罗斯超大舰队进入东海

烽火观天下
2026-05-14 10:58:42
中使馆提醒:一次沉迷,终生悔恨!欢迎举报或自首

中使馆提醒:一次沉迷,终生悔恨!欢迎举报或自首

南方都市报
2026-05-15 08:19:03
夏奇拉:这已经是我第四届世界杯,Waka Waka是最爱歌曲之一

夏奇拉:这已经是我第四届世界杯,Waka Waka是最爱歌曲之一

懂球帝
2026-05-15 17:50:13
4000万年薪泡汤?伦敦之夜,张本宇看儿女惨败,红着眼眶收拾书包。

4000万年薪泡汤?伦敦之夜,张本宇看儿女惨败,红着眼眶收拾书包。

最爱乒乓球
2026-05-15 00:08:05
18年了!汶川地震丢下学生逃跑的“范跑跑”,如今竟过成了这样?

18年了!汶川地震丢下学生逃跑的“范跑跑”,如今竟过成了这样?

一盅情怀
2026-05-14 09:05:26
蓉城2-1逆转津门虎 创纪录9连胜 不败+暂14分领跑中超 韦世豪双响

蓉城2-1逆转津门虎 创纪录9连胜 不败+暂14分领跑中超 韦世豪双响

我爱英超
2026-05-15 21:36:31
梅总大逆转,辛纳遭调侃,高芙退双保单,郑钦文列第二替补

梅总大逆转,辛纳遭调侃,高芙退双保单,郑钦文列第二替补

网球之家
2026-05-15 14:14:39
3-2逆天改命!东部诞生最大黑马,1人立下大功,快船肠子都悔青了

3-2逆天改命!东部诞生最大黑马,1人立下大功,快船肠子都悔青了

揽星河的笔记
2026-05-15 17:14:03
世乒赛刚结束,日本主帅评价梁靖崑,只字未提实力却句句戳心

世乒赛刚结束,日本主帅评价梁靖崑,只字未提实力却句句戳心

阿讯说天下
2026-05-15 11:51:27
护送空军一号飞入中国领空后,美空军末日飞机掉头,决定降落日本

护送空军一号飞入中国领空后,美空军末日飞机掉头,决定降落日本

走过海棠
2026-05-15 14:23:13
何九华官宣当爸!直言生女没得选全程不提孩子妈,和王鸥真离了?

何九华官宣当爸!直言生女没得选全程不提孩子妈,和王鸥真离了?

萌神木木
2026-05-14 11:18:28
特朗普结束访华,专机离开北京,已当面发出邀请,回国后准备迎客

特朗普结束访华,专机离开北京,已当面发出邀请,回国后准备迎客

魔神主的仇恨
2026-05-15 19:31:45
日本乒协没想到,被骂惨的张本智和,如今一句话在中国逆转了口碑

日本乒协没想到,被骂惨的张本智和,如今一句话在中国逆转了口碑

天天热点见闻
2026-05-15 06:26:40
巅峰时期的QQ有多“狂”?2008年,腾讯竟打算用Q币给员工发工资

巅峰时期的QQ有多“狂”?2008年,腾讯竟打算用Q币给员工发工资

荆楚寰宇文枢
2026-05-14 23:20:07
没给日本的,中方都给了特朗普,除了21响礼炮,还有一个重要承诺

没给日本的,中方都给了特朗普,除了21响礼炮,还有一个重要承诺

肖兹探秘说
2026-05-15 13:42:33
随特朗普访华企业家:看好中国长远发展和市场机遇

随特朗普访华企业家:看好中国长远发展和市场机遇

新华社
2026-05-15 11:50:54
1995年,49岁的特朗普来到香港,怀中抱着一位神秘女人,她是谁?

1995年,49岁的特朗普来到香港,怀中抱着一位神秘女人,她是谁?

文史达观
2025-01-26 06:45:03
特朗普访华首日,大陆宣布统一后安排!岛内学者:台军应消灭台独

特朗普访华首日,大陆宣布统一后安排!岛内学者:台军应消灭台独

浪子阿邴聊体育
2026-05-14 21:15:28
马斯克儿子四个月婚姻破裂,两年后产女并爱上男DJ

马斯克儿子四个月婚姻破裂,两年后产女并爱上男DJ

李橑在北漂
2026-05-15 14:26:39
2026-05-15 22:20:49
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
8357文章数 564关注度
往期回顾 全部

科技要闻

直降千元起步!苹果华为率先开启618让利

头条要闻

生产成本疑不足40元 "童鞋界爱马仕"泰兰尼斯广告翻车

头条要闻

生产成本疑不足40元 "童鞋界爱马仕"泰兰尼斯广告翻车

体育要闻

德约科维奇买的球队,从第6级联赛升入法甲

娱乐要闻

方媛为何要来《桃花坞6》没苦硬吃?

财经要闻

腾讯掉队,马化腾戳破真相

汽车要闻

高尔夫GTI刷新纽北纪录 ID. Polo GTI迎全球首秀

态度原创

艺术
房产
亲子
公开课
军事航空

艺术要闻

敦煌挖出王羲之书法!全卷2000字清晰如新!

房产要闻

老黄埔热销之下,珠江春,为何去化仅3成?

亲子要闻

深圳萌娃化身“护鸟卫士” 为红耳鹎蛋宝宝搭围栏立守则

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

乌克兰首都基辅遭空袭 死亡人数增至12人

无障碍浏览 进入关怀版