网易首页 > 网易号 > 正文 申请入驻

ICML 2025 | 从联合空间到文本空间:测试时增强跨模态检索新范式

0
分享至

本文围绕跨模态检索中的语义冗余与粒度错配问题,提出在测试阶段对候选图像/视频进行“视觉抽象”,并在文本空间以查询感知 QA 重排,实现即插即用、稳定增益与可解释性。本研究在图像、视频和长文本三类场景验证了该方法的有效性,并证明其可低成本嵌入现有召回—重排链路。

论文标题: Visual Abstraction: A Plug-and-Play Approach for Text-Visual Retrieval 论文地址: https://pengxi.me/wp-content/uploads/2025/05/2025ICML.pdf 代码地址: https://github.com/XLearning-SCU/2025-ICML-VISA
一、研究背景

跨模态检索在 CLIP 等对比学习范式加持下整体进步显著,但在真实检索里始终被两类根本性矛盾卡住:

  • 语义冗余:联合空间的全局对齐会把与语义无关的底层视觉因素一并拉近,淹没真正有用的语义线索。例如雪地纹理、树枝线条、水面反光、舞台灯光等,检索时易出现“背景相似但语义不对”的假阳性;在视频场景中,也会出现时序冗余

  • 粒度错配图像/视频天然具有“无限粒度”,而弱标注文本往往短、粗、信息稀疏,难以覆盖用户查询所需的细粒度与多约束组合。当需要区分颜色/材质/部件、小目标相对位置(空间关系)时,导致粗排召回相关但不精确,精排也难以给出明确、可解释的依据。

二、方法

该论文从语言空间对齐的角度重新审视视觉语义的建模方式,提出了一种全新的跨模态检索范式。该论文的核心观察在于:相比原始稀疏且冗余的视觉信号,自然语言具有更强的语义承载能力和表达浓度。

基于这一点,该论文设计了一个即插即用的测试时增强方案——视觉抽象(VISual Abstraction, VISA),通过调用多模态大模型,将图像或视频内容转换为高度概括的语言描述,从而过滤冗余信息、强化语义聚焦。

同时引入基于用户查询的问答机制,将复杂查询解析为一系列细粒度语义子目标,并据此对候选视觉内容进行响应,实现跨粒度语义对齐。

最终,VISA 将原本的跨模态检索过程转化为统一文本空间内的语义匹配任务,在无需额外训练的前提下,显著提升了现有模型在图像与视频检索中的检索精度。

1)视觉抽象:为每个候选生成"语义密集"的长描述

先用原始 Vision language model (VLM) 在跨模态联合空间里检索,得到 Top-k 候选。对 Top-k 候选逐个调用现成 LMM,生成覆盖对象、属性、关系与场景的通用长描述(General Description)。长文本相较原始视觉信号能天然过滤低层冗余(如背景纹理、噪声),便于后续在文本空间稳健匹配。

2)查询感知的 QA 精修:补足所需粒度细节

通用长描述覆盖面广,但可能缺少用户当前查询所需的细粒度证据。为此,本文采用 CoT 思路先由 LLM 从查询中抽取关键短语(对象、属性、动作、位置、交互等),据此生成可明确判定的问题;再由 LMM逐候选作答:若图像/视频无法支撑判断则明确输出“Uncertain”,此类回答会被丢弃以避免幻觉。最终将 QA 的有效回答与通用长描述拼接,得到面向该查询、更细粒度的文本表示。

3)与现有 VLM 的无缝集成:无需训练,分数融合

文本检索器在第二步得到的文本表示上打分,并与 VLM 分数进行两路相加完成重排。 这一流程完全发生在测试时,不改动底座模型训练。

三、实验

本论文在图像检索、视频检索与长文本检索等任务上完成验证,部分实验结果如下。

1)图像检索

把 VISA 接到 SigLIP 与 EVA-CLIP 等主流底座上,在不训练的前提下即可稳步提升召回率,说明“测试时视觉转写 + 轻量重排”对不同规模都有效。

COCO 与 Flickr30K数据集为例,SigLIP叠加 VISA:R@1 54.2→57.2、83.0→85.1EVA-CLIP叠加 VISA:R@1 55.6→59.5、83.1→86.1

值得一提的是,即便直接“堆大”合并多模型(表中 SigLIP * + EVA-CLIP *),效果也不及本论文提出的测试时的路线,更大≠一定更好,关键在于表示的方式与对齐的粒度。

2)视频检索

DiDeMo为代表,R@1+2.5。在MSR-VTT同样呈现+2.4的增益。VISA在基座 InternVideo-C 和 -G 上的提升说明对双流与混合架构的视频底座都即插即用就涨分

3)长文本检索

真实搜索往往是“长描述 + 多约束”。把候选转成语义密集文本后,排序更贴近用户意图,且配套 QA 片段可作为可解释的重排证据。以DCI为代表,R@1 +12.1;在Urban1K也观察到约+8.7的提升,说明转写后的密集文本更贴近用户意图,体现了在多概念、强约束场景下的优势。

4)分析实验

(a)关于通用长描述(GD)质量:即便不启用 QA,仅依靠“长描述”也能带来可观提升;而且随着描述模型能力增强,表述更到位、重排更稳。

(b)在问题数量(QA 个数)上:总体呈现“适当多问更好”的趋势,但存在甜点区;通常 3–5 个问题在效果与开销之间最均衡,继续增加容易出现重复、回报递减(短查询上尤为明显)。

(c)就回答器选择而言:更强回答器更可靠;同时,像中等规模的模型在“答得准”与对无关问题果断拒答(Uncertain)之间取得良好平衡,能够有效抑制幻觉噪声。

(d)面向文本检索器的兼容性:单流方案常因句级融合略占优势,不过双流与轻量检索器同样能稳定增益。换句话说,VISA 对检索器选型不敏感,迁移与落地成本低。

四、可视化

下图展示了本论文在“蓝色衬衫+围裙+做饭”这一查询下的混淆候选与真实匹配。上半部分中,通用描述将上衣误写为 black shirt,QA 将其矫正为 black jacket。且 QA 对“是否系围裙”给出 Uncertain,因此该候选在重排中被降权。

下半部分中,General Description 和 QA 明确识别出 blue shirt 与 apron,并确认人物正在 preparing food;这些被红框标注为“证据句”的回答与查询要点一一对应,使该样本在 VISA 重排中上升为更高名次。整体说明:查询感知的 QA 能补足细粒度细节,并以可解释的证据提升最终排序。

五、总结与展望

本文聚焦跨模态检索中的语义冗余与粒度错配难题,提出在测试时将候选图像/视频进行“视觉抽象”,再以查询感知的 QA 在文本空间完成重排的路线,兼顾即插即用、稳定增益与可解释性。本论文在图像、视频与长文本三类场景验证了这一路线的有效性,也在工程上证明它能够以极低的改动嵌入现有召回—重排链路。

本论文作者期待与业界在大规模检索业务中开展更紧密的合作,特别是在电商搜索、内容检索、长视频检索与广告匹配(搜广推)等高价值场景,共同推进“视觉摘要索引”的生产级落地。如果您所在的团队正在升级检索、推荐或广告的相关能力,期待与您交流实践经验,一同打磨可落地的方案。

作者:丁国峰 来源:公众号【PaperWeekly】

llustration From IconScout By IconScout Store

-The End-

本周上新!

扫码观看!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线700+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

michellechang@thejiangmen.com

或添加工作人员微信(michelle333_)投稿,沟通投稿详情

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伦敦世乒赛!爆11-0惨案!63岁倪夏莲自动让分,王楚钦放狠话捍卫国乒荣耀

伦敦世乒赛!爆11-0惨案!63岁倪夏莲自动让分,王楚钦放狠话捍卫国乒荣耀

好乒乓
2026-04-30 12:02:32
曾经对程序员最好的公司,倒下了

曾经对程序员最好的公司,倒下了

纯洁的微笑
2026-04-28 12:18:28
俄方宣布红场阅兵不再展示重型装备,从“一辆坦克”到彻底取消

俄方宣布红场阅兵不再展示重型装备,从“一辆坦克”到彻底取消

桂系007
2026-04-29 05:18:10
男子酷似毛主席,毛新宇见了情绪失控?毛新宇:这种情形不止一次

男子酷似毛主席,毛新宇见了情绪失控?毛新宇:这种情形不止一次

覃仕勇说史
2026-04-29 16:57:15
NextJS套壳后体积暴跌99%:300MB变3MB的桌面应用新配方

NextJS套壳后体积暴跌99%:300MB变3MB的桌面应用新配方

Ping值焦虑
2026-04-29 10:41:39
英媒、人民日报接连锐评!现在的赵心童,完全证实丁俊晖当初的话

英媒、人民日报接连锐评!现在的赵心童,完全证实丁俊晖当初的话

老好人的愤怒
2026-04-29 19:36:18
DDR5价格断崖式下跌!

DDR5价格断崖式下跌!

中国半导体论坛
2026-04-28 19:53:20
清华女学霸被牛津录取,父亲看到女儿录取通知书,被女儿活活锤死

清华女学霸被牛津录取,父亲看到女儿录取通知书,被女儿活活锤死

清茶浅谈
2025-05-01 15:11:30
格力集团原董事长投案,震惊行业!

格力集团原董事长投案,震惊行业!

新零售参考Pro
2026-04-29 17:59:44
发现一个奇怪的现象:凡是情绪稳定、睡眠好、不焦虑的人,都有一个共性,那就是再大的事也不搁在心里,再恶劣的环境也能想办法适应

发现一个奇怪的现象:凡是情绪稳定、睡眠好、不焦虑的人,都有一个共性,那就是再大的事也不搁在心里,再恶劣的环境也能想办法适应

LULU生活家
2026-04-24 19:12:24
有点惨!燃油车再迎大降价:最大跌幅50%,豪华车带头“跳水”

有点惨!燃油车再迎大降价:最大跌幅50%,豪华车带头“跳水”

刘哥谈体育
2026-04-28 07:05:24
五月运势全面起飞,压都压不住的3个生肖!从穷到富一路逆袭

五月运势全面起飞,压都压不住的3个生肖!从穷到富一路逆袭

毅谈生肖
2026-04-30 10:58:55
安妮·海瑟薇谈《穿普拉达》体重追问:当年不懂应对

安妮·海瑟薇谈《穿普拉达》体重追问:当年不懂应对

热搜摘要官
2026-04-29 21:39:48
随着41岁C罗破门+率队2-0完胜争冠劲敌,沙特联最新积分榜出炉

随着41岁C罗破门+率队2-0完胜争冠劲敌,沙特联最新积分榜出炉

侧身凌空斩
2026-04-30 04:35:20
戴笠坠机是骗局?台湾一老妇临终前揭露秘密,却始终无人相信

戴笠坠机是骗局?台湾一老妇临终前揭露秘密,却始终无人相信

云霄纪史观
2026-04-29 19:07:33
3-2!拯救骑士!神级三方大交易...

3-2!拯救骑士!神级三方大交易...

技巧君侃球
2026-04-30 10:31:25
王近山不经请示干掉日本战地观战团,毛主席:早就听说有个王疯子

王近山不经请示干掉日本战地观战团,毛主席:早就听说有个王疯子

鹤羽说个事
2026-04-20 22:56:36
基辛格带着妻子来北京,毛主席一见到她,不禁眼前一亮

基辛格带着妻子来北京,毛主席一见到她,不禁眼前一亮

大运河时空
2026-04-29 09:30:03
火箭1-3湖人,掘金2-3森林狼!谁能完成大逆转,苏群的答案很直接

火箭1-3湖人,掘金2-3森林狼!谁能完成大逆转,苏群的答案很直接

史智文道
2026-04-30 09:58:47
那场难忘的世界最大水库垮坝惨案:1975河南驻马店大水

那场难忘的世界最大水库垮坝惨案:1975河南驻马店大水

尚曦读史
2025-01-19 12:50:03
2026-04-30 12:55:00
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2364文章数 596关注度
往期回顾 全部

科技要闻

四巨头财报齐发:AI已经不只是风口

头条要闻

"上海最通透爸爸"去世 女儿:他退休20多年这辈子不亏

头条要闻

"上海最通透爸爸"去世 女儿:他退休20多年这辈子不亏

体育要闻

骑士天王山:哈登、莫布里和……施罗德?

娱乐要闻

孙杨妈妈被曝!过往言行被扒大开眼界

财经要闻

安世之乱,闻泰帝国近黄昏?

汽车要闻

上汽一季报出炉 在低增长周期里守住基本盘

态度原创

教育
手机
时尚
艺术
健康

教育要闻

第16课What to say at dinner banquets商务宴请职场形象加分表达

手机要闻

外媒初探三星Galaxy Connect:设置繁琐、兼容性受限

春季穿衣千万别太暗沉!试试蓝白配色、选基础款裤子,大方得体

艺术要闻

安东·爱德华·基尔德鲁普:19世纪丹麦风景画家

干细胞治烧烫伤能用了么?

无障碍浏览 进入关怀版