网易首页 > 网易号 > 正文 申请入驻

让多模态检索超越SOTA!ReCALL框架化解生成式与判别式的范式冲突

0
分享至

来源:市场资讯

(来源:量子位)

生成式模型当检索器大材小用效果还不好?

当多模态大模型(MLLM)凭借强大的图文理解与逻辑推理能力成为AI领域的核心抓手,将其应用于图像检索尤其是组合图像检索(CIR)任务,本应是降维打击的最优解。

然而现实却相悖:把生成式大模型强行改造为判别式检索器后,模型会出现严重的能力退化,连原本100%能精准解决的问题都频频出错,生成式与判别式的范式冲突,成为大模型向检索领域落地的核心壁垒。


如今,这一行业难题被AI国家队紫东太初团队联合新加坡国立大学成功攻克。其最新研究成果ReCALL框架,凭借独创的“诊断-生成-校准”闭环体系,从根本上解决了大模型从生成式到判别式的范式冲突问题,让大模型在保留原生细粒度推理能力的同时,完美变身高效检索器

该成果已被计算机视觉顶会CVPR 2026正式录用,在CIRR、FashionIQ等主流基准测试中全面刷新SOTA性能,更开辟了大模型下游任务能力无损适配的全新路径,为多模态大模型的垂直领域落地奠定核心基础。

行业痛点:范式冲突致大模型检索“智能倒退”

为什么聪明的MLLM一做检索就容易翻车?作者团队一针见血地指出了问题的核心:范式冲突(Paradigm Conflict)

原生的大模型习惯于生成式范式,它通过一步步的链式思考(Step-wise reasoning)来理解细粒度的视觉关系。但是,现有的检索适配方法往往采用判别式范式,强行把大模型的高维思考压缩成一个单一的向量,去计算相似度。

这种暴力的转变直接导致了一个致命后果——能力退化(Capability Degradation)


如上图左侧所示,面对“地板上的两只同品种狗”这样需要细粒度推理的查询时,原生的大模型(F)通过VQA问答可以轻松锁定目标。然而,经过传统微调后的检索器版本(Rbase)却完全丧失了这种细粒度grounding能力,找出的全是错误的图。

定量数据更令人震惊:在原生大模型原本能够100%找对的子集上,微调后的检索器在CIRR数据集上R@1暴跌至62.33%,在FashionIQ上暴跌至55.80%。模型不仅没有学到新东西,反而把原本自带的推理天赋给弄丢了!

破局之道:ReCALL四阶段校准框架

既然能力退化是因为初期的检索微调把大模型“带偏了”,那怎么把它拉回正轨?

作者提出了一个通用的框架ReCALL。它的核心思想非常巧妙:用大模型原生的推理信号,来纠正检索空间中的盲区。实际上,整个闭环被严密地划分为四个阶段,其中第一阶段完成了基础的检索器初始化并暴露出退化问题,后三个阶段则是极其优雅的“诊断-生成-打磨”校准管线:

Stage 1:基础检索适配(Baseline Adaptation)。为了让生成式大模型具备基本的图文检索功能,研究人员首先用标准的InfoNCE损失函数,将原生大模型(F)微调成一个基础检索器(Rbase)。这一步虽然赋予了模型基础的判别与检索能力,但也正是这种暴力的单向量压缩,诱发了前文提到的“能力退化”症状。

Stage 2:自我诊断(Diagnose)。俗话说“错题本是最好的老师”。有了基础检索器后,让它在训练集上跑一遍,专门挑出那些它“找错”的样本(Informative Instances)。这些能高分骗过检索器的负样本,往往和正确答案有着极细微的视觉差别,它们正是模型能力退化、认知最模糊的“盲区”。

Stage 3:生成校正(Generate)。拿着这些挑出来的错题,作者团队并没有简单粗暴地让原生大模型(F)重新“看图说话”,而是精心设计了一套包含严密逻辑的链式思考(CoT)诱导机制。具体而言,这个“讲题”过程被巧妙地拆解为两个核心步骤:

① 意图分解与验证(Intent Decomposition & Verification):大模型首先会将原始的修改指令拆解成一个个“原子意图”,并挨个对照参考图和找错的图进行核查,精准定位出到底哪一个细粒度意图在错图中被违背了。

② 最小编辑合成(Minimal Edit Synthesis):在抓住了矛盾点后,大模型会保留那些依然成立的意图,仅仅重写被违背的部分,从而“打补丁”式地合成出一条全新的修改指令。

通过这种极其精巧的设计,框架自动生成了从“参考图”指向“错图”的全新纠错三元组。这种从原文本到新文本的“极小幅文字编辑”,在视觉上直接镜像了真实目标图与强干扰错图之间极其微妙的差异,从而为检索模型提供了极其显式、高密度的细粒度图文对齐监督信号。

更重要的是,这种严格遵循“最小编辑原则”的生成方式,绝非无拘无束的文本发散,它最大程度地保证了新构建的训练三元组与原始数据集在数据分布上的高度一致性。最后,再辅以VQA(视觉问答)级别的语义一致性过滤,剔除掉幻觉和噪音,确保送入模型微调的“纠错信号”不仅直击痛点,而且绝对高保真。

Stage 4:针对性打磨(Refine)。有了精确的纠错指令,最后一步就是通过分组对比学习(Grouped Contrastive Refinement)来完成进化。框架会把原查询和对应的纠错查询打包放在同一个批次里“对冲”,配合双重优化目标,逼迫检索器去明确区分那些极其细微的视觉-语义边界,最终将原生大模型的细粒度推理能力完美内化。


通过这套组合拳,检索器不仅重新找回了丢失的细粒度推理能力,还将其完美内化到了自己的向量空间中。

实测成绩:全场景刷新SOTA,细粒度检索能力拉满

ReCALL的有效性在各大主流基准测试中得到了验证。



看看上面的实际检索案例,基线模型遇到“正视镜头”、“半袖”这种细粒度条件直接懵圈;而经过ReCALL校准后的模型,眼光毒辣,精准锁定目标!

结语

ReCALL的成功不仅在于刷新了组合图像检索的性能上限,更在于它揭示并修复了多模态大模型在向下游任务迁移时的一道隐形裂痕。

大模型做检索,不应只是粗暴地将高维的“生成式智慧”压缩降维成单一的“判别式向量”。从“盲目对齐”到“诊断—生成—内化”的逻辑闭环,大模型的检索适配正在进入一个强调保留与激发原生推理能力的新阶段。

当我们不再一味追求用海量外部数据去“喂”出一个检索器,而是教会模型用自己的思维链去剖析错题、缝合认知盲区时,它不仅找回了丢失的细粒度感知,更展示了生成与判别两大范式走向和解的可能。

这或许是大模型在诸多垂直领域真正实现“能力无损适配”的重要一步。

论⽂链接:

https://arxiv.org/abs/2602.01639

项⽬代码:

https://github.com/RemRico/Recall

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
黄景瑜前妻内涵张艺上:一句话把张艺上《浪姐》翻车现场火上浇油!

黄景瑜前妻内涵张艺上:一句话把张艺上《浪姐》翻车现场火上浇油!

毒舌八卦
2026-04-06 22:38:37
70岁米歇尔求婚小他17岁的巩俐:我年入5亿,嫁给我!巩俐:我每周做4次有氧运动,你行吗?

70岁米歇尔求婚小他17岁的巩俐:我年入5亿,嫁给我!巩俐:我每周做4次有氧运动,你行吗?

乔话
2026-04-04 19:18:16
断崖式下跌!中国人突然不爱喝酒了?真相太扎心!

断崖式下跌!中国人突然不爱喝酒了?真相太扎心!

达文西看世界
2026-01-18 20:56:11
停车全免费!江西、湖南这波操作,让全国车主都酸了

停车全免费!江西、湖南这波操作,让全国车主都酸了

普陀动物世界
2026-04-06 21:55:34
场均33.5分,得分王没了。
因为只打了64场。

场均33.5分,得分王没了。 因为只打了64场。

岁月有情1314
2026-04-06 18:33:58
苹果8号员工干了49年:裁员名单绕着他走,因为赔不起

苹果8号员工干了49年:裁员名单绕着他走,因为赔不起

Ping值焦虑
2026-04-03 09:37:23
伊朗甩出10项停战条款!美国想停?伊朗条件一个比一个硬!

伊朗甩出10项停战条款!美国想停?伊朗条件一个比一个硬!

Ck的蜜糖
2026-04-07 00:22:12
俄媒:“特朗普往死里羞辱‘纸老虎’”

俄媒:“特朗普往死里羞辱‘纸老虎’”

参考消息
2026-04-06 15:04:07
沉默48小时后,人民日报通告全球,把话说很重,日本听好

沉默48小时后,人民日报通告全球,把话说很重,日本听好

黑翼天使
2026-04-04 08:54:30
女人爱听这些两性关系中的“下流话”,尤其是过了中年的女人

女人爱听这些两性关系中的“下流话”,尤其是过了中年的女人

i书与房
2026-03-25 16:30:22
61岁男子,坚持饿肚子不吃晚饭,6个月之后,血糖和体重情况如何

61岁男子,坚持饿肚子不吃晚饭,6个月之后,血糖和体重情况如何

蜉蝣说
2026-02-03 15:04:01
蓝调:一种关于存在的深邃叙事

蓝调:一种关于存在的深邃叙事

疾跑的小蜗牛
2026-03-27 20:52:52
新型出轨,真的越来越流行了

新型出轨,真的越来越流行了

洞读君
2026-03-29 21:10:03
韩国总统就“无人机入朝事件”向朝鲜表示遗憾

韩国总统就“无人机入朝事件”向朝鲜表示遗憾

环球网资讯
2026-04-06 12:34:20
香菇再次被关注!医生发现:癌症患者吃香菇,不过多久或有4变化

香菇再次被关注!医生发现:癌症患者吃香菇,不过多久或有4变化

医学科普汇
2026-04-06 21:15:05
马英九:大陆武统,我不接受。赖清德:如果统一,我们会拼命保护

马英九:大陆武统,我不接受。赖清德:如果统一,我们会拼命保护

南权先生
2026-01-21 15:45:43
掘金队与马刺队比赛后,约基奇和哈斯勒姆进行了一番有趣的互动

掘金队与马刺队比赛后,约基奇和哈斯勒姆进行了一番有趣的互动

好火子
2026-04-06 23:57:22
张纪中剃掉三十年胡子!染发后牵手杜星霖,隔代感全无

张纪中剃掉三十年胡子!染发后牵手杜星霖,隔代感全无

笑一个吧
2026-04-04 07:01:16
傅斯年怒斥苏联“集罪恶之大成”:那些敢向苏联开炮的中国硬骨头

傅斯年怒斥苏联“集罪恶之大成”:那些敢向苏联开炮的中国硬骨头

顾史
2026-03-21 19:52:44
德国奥地利都说德语,都日耳曼人,同文同种,为什么不干脆合并?

德国奥地利都说德语,都日耳曼人,同文同种,为什么不干脆合并?

孤城落叶
2026-04-05 07:55:14
2026-04-07 02:52:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2765724文章数 6462关注度
往期回顾 全部

科技要闻

折叠屏iPhone要来了,富士康已在试产!

头条要闻

特朗普:一夜就能拿下伊朗 可能就是周二晚上

头条要闻

特朗普:一夜就能拿下伊朗 可能就是周二晚上

体育要闻

官方:中国女足球员邵子钦加盟本菲卡

娱乐要闻

唐嫣罗晋新加坡遛娃,6岁女儿身高抢镜

财经要闻

史诗级暴跌"一周年" A股接下来如何走?

汽车要闻

阿维塔06T快上市了 旅行车还能这么玩?

态度原创

艺术
旅游
游戏
健康
公开课

艺术要闻

张雪机车logo陷抄袭争议?商标还被人抢先注册了!

旅游要闻

春日泛舟北小河 水岸花溪美如画

一人开发!国产独立游戏《破晓》4月9日发售

干细胞抗衰4大误区,90%的人都中招

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版