网易首页 > 网易号 > 正文 申请入驻

多模态检索新突破,用软标签打破传统刚性映射约束,全面超越CLIP

0
分享至

UniME-V2团队 投稿
量子位 | 公众号 QbitAI

统一多模态嵌入模型是众多任务的技术基石。

当前主流方法通常采用批内负例挖掘策略,通过计算查询-候选对的相似度进行训练。

但这类方法存在明显局限:难以捕捉候选样本间细微的语义差异,负例样本多样性不足,且模型在区分错误负例与困难负例时的判别能力有限。

针对这些问题,团队提出全新解决方案——基于多模态大模型语义理解能力的统一多模态嵌入模型UniME-V2。

该方法首先通过全局检索构建潜在困难负例集,随后创新性地引入“MLLM-as-a-Judge”机制:利用MLLM对查询-候选对进行语义对齐评估,生成软语义匹配分数。

这一设计带来三重突破:

  • 以匹配分数为依据实现精准困难负例挖掘,有效规避错误负例干扰
  • 确保筛选出的困难负例兼具多样性与高质量特性
  • 通过软标签机制打破传统一对一的刚性映射约束



通过将模型相似度矩阵与软语义匹配分数矩阵对齐,使模型真正学会辨析候选样本间的语义差异,显著提升判别能力。

为进一步提升性能,团队基于挖掘的困难负例训练出重排序模型UniME-V2-Reranker,采用配对与列表联合优化策略。



图1 UniME-V2与以往方法的本质不同,在于巧妙利用了多模态大模型(MLLM)的深层语义理解能力。它不仅能用此能力精准挖掘“困难负例”,更能生成一个软语义匹配分数,如同一位资深导师,指导模型学会辨别候选样本间微妙的语义差异。

方法
MLLM-as-a-Judge 困难负样本挖掘

过去的研究主要依赖于批内硬负样本挖掘,其中计算查询-候选嵌入相似性以采样负样本。

然而,这种方法通常受到负样本多样性有限和嵌入判别能力不足的困扰,难以有效区分错误和困难的负样本。

为了克服这些挑战,如图2所示,首先利用全局检索构建一个潜在的困难负样本集。

之后,利用MLLM的强大理解能力来评估每个查询-候选对的语义对齐性,并生成软语义匹配分数。

这个分数指导了硬负样本挖掘,使得能够识别出多样化和高质量的困难负样本,同时减少错误负样本的影响。



图2:基于MLLM-as-a-Judge的困难负样本挖掘流程。我们首先利用现有的多模态嵌入模型进行全局检索,构建一个潜在的困难负样本集。然后,利用MLLM强大的理解能力根据语义对齐性对查询-候选对进行评分,从而精确识别困难负样本。

潜在困难负样本集合为了从全局样本中提取更高质量的困难负样本,首先使用VLM2Vec为查询和候选生成嵌入。

接着,为每个查询检索出50个最相关的候选。

为了应对错误负样本并增加多样性,我们基于查询-候选相似度分数设定一个相似度阈值,并选择前50名的候选作为潜在的困难负样本集:

其中 是由VLM2Vec模型计算得出的查询 与候选 的相似度分数。

语义匹配分数在构建潜在的困难负样本集后,我们使用MLLM作为评判,为中的每个查询-候选对计算语义匹配分数,具体指令如下:



随后,根据()和()标记的logits计算语义匹配分数,其中。这里,表示查询的数量。利用MLLMs的高级理解能力,语义匹配分数有效地捕捉了查询和候选之间的语义对齐程度。

困难负样本采样为了提高困难负样本的质量,利用语义匹配分数对候选进行精炼。

候选样本的分数超过阈值(其中表示正样本,是控制阈值间隔的超参数)则会当作错误负样本并排除。为保持多样性,采用五步间隔的循环采样策略。

如果精炼后的集合包含的候选少于十个,将重复选择以确保至少有十个。

在极少数情况下(<1%),如果没有候选符合条件,将从最初的五十个候选中随机选择10个,并给每个分配1.0的语义匹配分数。

最后,对于每个查询,我们获得困难负样本集及其相应的语义匹配分数。



图3:基于MLLM判断的训练框架结构。UniME-V2使用软语义匹配分数作为监督信号,以增强候选者间的语义区分学习。UniME-V2-Reranker采用pairwise和listwise联合训练以提升重排序性能。

基于MLLM判断的训练框架

UniME-V2为此提出了一个基于MLLM判断的分布对齐框架,如图3所示,利用软语义匹配分数作为监督信号来提高表征性能。

具体来说,给定一个查询及其候选集,将它们输入到MLLM中,并提取最后一个标记作为查询和候选集的嵌入,其中是目标候选的嵌入,是每个查询的困难负样本数。然后计算查询嵌入与候选嵌入之间的关系得分矩阵如下:

基于语义匹配分数,计算由MLLM判断得出的语义匹配分数矩阵如下:

为了增强学习的稳健性并确保矩阵对称性,采用了JS-Divergence,这是KL-Divergence的一种对称替代。最终的损失函数定义为:

除此之外,受前人工作启发,UniME-V2联合pairwise和listwise训练了一个重排序模型UniME-V2-Reranker(如图3所示)来提高基于初始嵌入的检索精度。

在成对训练中,为每个查询构造两对,一对与正候选结合,另一对与最困难的负候选结合。然后指导UniME-V2-Reranker对正候选输出,对负候选输出。成对损失使用交叉熵损失函数计算如下:

其中表示UniME-V2-Reranker的自回归输出过程。对于列表训练,基于语义匹配分数,从困难负候选中选择前个候选,随机插入目标候选并获取其索引。

然后提示UniME-V2-Reranker输出真实位置,公式为:

最终的损失函数定义为。



表1:MMEB基准测试结果。IND表示在分布内,OOD表示在分布外。分数为补充材料中的平均精度结果。

实验
多模态检索

表1展示了在相同训练数据和配置下UniME-V2与现有基线模型在MMEB基准上的性能对比。

UniME-V2在各种基础模型上均有显著的性能提升。

具体来说,UniME-V2在Qwen2-VL-2B和7B模型上分别比VLM2Vec高出3.5%和2.2%。

当基于LLaVA-OneVision作为基础时,UniME-V2比包括QQMM、LLaVE和UniME在内的之前的最先进模型提高了0.5%-0.9%。此外,UniME-V2在分布外数据集上的得分为66.7,凸显其鲁棒性和卓越的迁移能力。



表2:在短描述(Flickr30K, MS-COCO)、长描述(ShareGPT4V, Urban1K)和组合(SugarCrepe)数据集上的零样本文本-图像检索结果。

跨模态检索

如表2所示,在零样本跨模态检索任务上评估UniME-V2。对于短描述数据集,包括Flickr30K和MS-COCO,UniME-V2在图像到文本检索中比UniME表现出了2.2%-9.7%的性能提升。

在文本到图像检索中,其性能与UniME相当,这主要归因于两个因素:

(1)MMEB训练集中文本到图像数据的比例有限;

(2)短描述中的语义信息不足。

对于长描述跨模态检索任务,UniME-V2在ShareGPT4V和Urban1K上取得了显著改进,这得益于其增强的区分能力和详细描述提供的丰富语义内容。

值得注意的是,与EVA-CLIP-8B相比,UniME-V2展示了更为稳健的检索性能,这主要因为其通用多模态嵌入能显著减少模态间的差距(如图4所示)。



图4:EVA-CLIP-8B与UniME-V2(LLaVA-OneVision-7B)之间的表示分布对比。

组合跨模态检索

基于SugarCrepe评估UniME-V2模型区分困难负样本的能力。

如表2所示,UniME-V2在所有评估指标上均表现出卓越性能。

与UniME相比在使用Qwen2-VL-2B时性能提升了5.3%,6.0%,4.5%。当模型从2B扩展到7B后也实现了9.0%,9.2%,9.2%的性能提升。

此外,与EVA-CLIP-8B相比,UniME-V2还显示出2.7%,3.4%,和3.8%的改进,凸显其在区分困难负样本上的强大能力。



表3:使用UniME-V2 (Qwen2-VL-7B) 和 UniME-V2 (Qwen2-VL-2B) 比较LamRA与UniME-V2-Reranker的重排序性能。

重排序对比

在表3中基于top5检索结果对比了LamRA与UniME-V2-Reranker的性能。为确保公平,使用与LamRA相同的训练参数和基础模型(Qwen2.5-VL-7B)。

当使用LamRA和UniME-V2-Reranker对UniME-V2 (Qwen2-VL-2B) 检索结果进行重排后在四个下游任务上均提升了性能。

UniME-V2-Reranker在只使用一半数据的情况下始终获得更优结果。类似地,使用UniME-V2 (Qwen2-VL-7B) 进行检索时,UniME-V2-Reranker的表现也超过了LamRA,在四个任务中分别获得了0.5%,0.4%,0.3%,和7.4%的性能提升。

值得注意的是,UniME-V2-Reranker在组合理解检索任务中展示了对LamRA的显著优势,这归功于其利用MLLM的理解能力提取多样化和高质量的困难样本,有效增强了模型的区分能力。

论文:

https://arxiv.org/abs/2510.13515

GitHub:

https://github.com/GaryGuTC/UniME-v2

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
朱媛媛离世7个月后遗作定档,辛柏青状态令人担忧,李乃文没说错

朱媛媛离世7个月后遗作定档,辛柏青状态令人担忧,李乃文没说错

林雁飞
2026-01-10 13:32:50
胰腺癌去世的人越来越多!专家:牢记饭后4不做,饭前3不吃

胰腺癌去世的人越来越多!专家:牢记饭后4不做,饭前3不吃

岐黄传人孙大夫
2025-12-20 11:45:03
做到了!鲁尼弟弟赛前称如果淘汰水晶宫将载入足总杯史册

做到了!鲁尼弟弟赛前称如果淘汰水晶宫将载入足总杯史册

懂球帝
2026-01-10 22:37:09
花生再次被关注!调查发现:糖尿病常吃花生,不过半年或有6好处

花生再次被关注!调查发现:糖尿病常吃花生,不过半年或有6好处

蜉蝣说
2025-11-20 14:40:39
美国人为啥不爱存钱!不是因为他们不想存,而是因为他们不能存

美国人为啥不爱存钱!不是因为他们不想存,而是因为他们不能存

西楼知趣杂谈
2025-12-28 11:28:55
中超第11座专业足球场年底落成:草皮和视野都是国内顶级!

中超第11座专业足球场年底落成:草皮和视野都是国内顶级!

邱泽云
2026-01-10 19:30:22
因长得太漂亮,7次拒绝导演要求遭打压,如今43岁才等到掌声

因长得太漂亮,7次拒绝导演要求遭打压,如今43岁才等到掌声

黎兜兜
2025-12-25 21:57:32
中俄朝三国都明白了,打美军航母已不重要:必须先打日本导弹基地

中俄朝三国都明白了,打美军航母已不重要:必须先打日本导弹基地

小兰聊历史
2026-01-11 02:13:13
最讨厌的演员排名,潘长江仅第五,闫学晶第二,第一毋庸置疑

最讨厌的演员排名,潘长江仅第五,闫学晶第二,第一毋庸置疑

林雁飞
2026-01-04 19:29:51
《晨光漫过屋檐,终于吻上那滴凝结了十年的泪痕》

《晨光漫过屋檐,终于吻上那滴凝结了十年的泪痕》

時代亿人
2026-01-04 07:02:50
梅德韦杰夫威胁要打击欧洲,声称不会接受西方军队部署在乌克兰

梅德韦杰夫威胁要打击欧洲,声称不会接受西方军队部署在乌克兰

山河路口
2026-01-10 23:25:28
状态越来越好了,快船锋线大将的表现已经接近大家的预期了?

状态越来越好了,快船锋线大将的表现已经接近大家的预期了?

稻谷与小麦
2026-01-10 23:11:07
恰到好处的三十岁、女人最妩媚的年纪 - 木下凛凛子

恰到好处的三十岁、女人最妩媚的年纪 - 木下凛凛子

吃瓜党二号头目
2025-12-30 09:34:55
中国不但没有给日本留后路,也没有给自己留后路!

中国不但没有给日本留后路,也没有给自己留后路!

柏林观察
2025-12-08 11:30:25
可控核聚变领域,国内表现优秀的10家公司名单曝光!(建议收藏)

可控核聚变领域,国内表现优秀的10家公司名单曝光!(建议收藏)

元爸体育
2026-01-09 08:49:12
斯普利特:以现在的年龄依旧砍下30+ 杜兰特实在令人钦佩

斯普利特:以现在的年龄依旧砍下30+ 杜兰特实在令人钦佩

北青网-北京青年报
2026-01-10 18:43:03
3种鱼已被列入致癌名单,吃多了会致癌?医生忠告:尽量少吃

3种鱼已被列入致癌名单,吃多了会致癌?医生忠告:尽量少吃

阿兵科普
2025-12-06 12:43:28
CCTV5直播,U23国足背水一战 5后卫改对攻 王钰栋和蒯纪闻更适配

CCTV5直播,U23国足背水一战 5后卫改对攻 王钰栋和蒯纪闻更适配

替补席看球
2026-01-10 07:59:47
18岁伊斯兰少女直播拒戴头巾,被冷血父亲荣誉处决。

18岁伊斯兰少女直播拒戴头巾,被冷血父亲荣誉处决。

环球趣闻分享
2026-01-07 13:30:09
外媒:丹麦国防部证实,若美国武力夺取格陵兰岛,丹麦士兵可“先开枪再请示”

外媒:丹麦国防部证实,若美国武力夺取格陵兰岛,丹麦士兵可“先开枪再请示”

环球网资讯
2026-01-08 14:39:45
2026-01-11 04:12:49
量子位 incentive-icons
量子位
追踪人工智能动态
11998文章数 176357关注度
往期回顾 全部

科技要闻

必看 | 2026开年最顶格的AI对话

头条要闻

特朗普签署行政令 宣布进入国家紧急状态

头条要闻

特朗普签署行政令 宣布进入国家紧急状态

体育要闻

怒摔水瓶!杜兰特30+12 难阻火箭遭双杀

娱乐要闻

吴速玲曝儿子Joe是恋爱脑

财经要闻

这不算诈骗吗?水滴保诱导扣款惹众怒

汽车要闻

宝马25年全球销量246.3万台 中国仍是第一大市场

态度原创

游戏
旅游
本地
艺术
军事航空

《地平线6》首发为何没PS5版?原来只是没做完!

旅游要闻

12.7亿元营收、15倍增长背后:谁在操盘万岁山武侠城?顶流景区直面“长红”之困|主题乐园资本论

本地新闻

云游内蒙|“包”你再来?一座在硬核里酿出诗意的城

艺术要闻

601米,150亿美元!沙特目前第一高楼是它!

军事要闻

海空英雄高翔逝世 曾驾驶歼-6打爆美军机

无障碍浏览 进入关怀版