网易首页 > 网易号 > 正文 申请入驻

超越CLIP等,多模态图片检索的增强视觉语言大模型预训练

0
分享至



多模态图片检索是计算机视觉和多模态机器学习领域很重要的一个任务。现在大家做多模态图片检索一般会用 CLIP/SigLIP 这种视觉语言大模型,因为他们经过了大规模的预训练,所以 zero-shot 的能力比较强。

牛津 VGG ,港大,上交大团队这篇论文旨在提供一种方法,能够用学术界的资源来增强视觉语言大模型的预训练 (Enhance Language-Image Pre-training),使得其可以更好地用于文字 - 图片检索。这篇论文被 IEEE 国际基于内容的多媒体索引大会(IEEE International Conference on Content-Based Multimedia Indexing)接受,并被评选为最佳论文提名,大会近期在爱尔兰都柏林召开。



  • 关键词:大模型;视觉语言模型;图片检索
  • 项目主页:https://www.robots.ox.ac.uk/~vgg/research/elip/
  • 论文链接:https://www.robots.ox.ac.uk/~vgg/publications/2025/Zhan25a/zhan25a.pdf
  • 代码仓库:https://github.com/ypliubit/ELIP

方法概览

下图是这篇文章方法的预览图。ELIP 方法的核心思想是,先用传统的 CLIP/SigLIP 对全体图片做一次 ranking,然后选出 top-k candidate 再做一次 re-ranking。做 re-ranking 的时候,作者设计了一个简单的 MLP mapping network,可以用文字的特征来定义一些视觉域中的 token,并把这些 token 插入到 image encoder 当中,使得 image encoder 在编码图片信息的时候可以感知到语言信息。这样重新编码之后的图片信息和语言信息再做比对的时候,同一个语言 query 能得到更好的 ranking 结果。ELIP 可以应用到一系列大模型上,比如 CLIP/SigLIP/SigLIP-2/BLIP-2,作者称之为 ELIP-C/ELIP-S/ELIP-S-2/ELIP-B。



学术界研究的挑战

视觉语言大模型的预训练,一般都是工业界做的事情,但作者提出的方法使得用学术界两张 GPU 做训练也变得可能。想法的创新点主要在模型架构和训练数据上。

创新点:模型架构

模型架构上,庞大的图片编码器和文本编码器的权重是固定的,只有作者涉及的由三层 linear + GeLU 构成的 MLP maping network 需要打开训练。

下图是 ELIP-C 和 ELIP-S 的训练图示。训练的时候,一个 batch 的文本图片对输入模型,文本特征映射到视觉特征空间来引导图片信息的编码。对于 CLIP 沿用 InfoNCE 损失函数,对于 SigLIP 沿用 Sigmoid 损失函数,来对齐文本特征和重新计算的图片特征。



下图是 ELIP-B 的训练图示。和 CLIP/SigLIP 类似,MLP mapping network 把文本特征映射到视觉特征空间。唯一不同的是,在这里由文本引导的图片特征放进了 Q-Former 来和输入的文本做 cross-attention,并最终由 ITM Head 来预测图片和文本是否匹配。训练的时候,ELIP-B 沿用 BLIP-2 的 BCE 损失函数。



创新点:训练数据

训练数据上,在学术界做大模型训练要面临的挑战就是 GPU 数量不够,没法开很大的 batch size 训练,这样可能训练出来的模型分辨能力就会下降。而 ELIP 却是要去分辨 CLIP/SigLIP 排序出来的 hard sample,对模型分辨能力的要求就更高了。为了解决这样的挑战,作者在训练的时候先算了一下每个训练图片和对应文字标题的 CLIP 特征,然后把相似特征的图文对聚集在一起形成 hard sample training batch。下图是作者聚合的训练 batch 的例子。对于每一行,第一个 sample 被用来聚合其他 sample。第一行的 caption 从左往右分别是:'a wooden table with no base'; 'a wooden table with a couple of folding legs on it'; 'a table that has a metal base with an olive wood top'; 'small table outdoors sitting on top of the asphalt'。第二行的 caption 从左往右分别是:'a huge body of blue ice floats in a mountain stream'; 'the big chunk of glacier is falling off of the cliff'; 'there is a broken piece of glass that has been broken from the ground'; 'a body of water surrounded by a forest near a mountain'。



新的评测数据集

除了在标准测试集比如 COCO, Flickr 上做测试之外,作者还提出了两个新的 OOD 测试集:Occluded COCO 和 ImageNet-R。对于 Occluded COCO,正样本包含了文字中描述的物体(物体通常被遮挡);对于 ImageNet-R,正样本中包含了文字中描述的物体,但是是来自一些不常见的领域的。负样本中不含文字中描述的物体。下图是一些例子,第一行是正样本,第二行是负样本。对于 Occluded COCO,正样本中含有被遮挡的自行车,负样本中不含自行车;对于 ImageNet-R,正样本中含有金鱼,负样本中不含金鱼。



实验结果

文章的结果如下表。可以看到,应用了 ELIP 之后,CLIP/SigLIP/SigLIP-2 的图片检索表现都显著增长,甚至于 SigLIP 系列模型达到了和 BLIP-2 接近的表现。ELIP-B 应用到 BLIP-2 上之后,也提升了 BLIP-2 的表现,超过了最新的 Q-Pert 方法。



在 OOD 的测试数据集上,ELIP-C/ELIP-S/ELIP-S-2/ELIP-B 都取得了 zero-shot 的泛化提升。如果我们在对应的 domain 上做一些 fine-tune,比如对于 Occluded COCO 我们在 COCO 数据集上 fine-tune,对于 ImageNet-R 数据集我们在 ImageNet 数据集上 fine-tune,可以得到更显著的提升。这进一步说明了 ELIP 除了增强预训练之外,还提供了一种高效的 adaptation 的方式。



作者进一步观察了注意力图,发现当 text query 和图片相关时,ELIP 可以提高图片信息提取 CLS token 对于文字描述的相关区域的注意力和信息提取。



更多细节详见论文原文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
73岁的谭咏麟近照曝光惊呆网友,简直若判两人,这还是当年那个谭咏麟吗?

73岁的谭咏麟近照曝光惊呆网友,简直若判两人,这还是当年那个谭咏麟吗?

今古深日报
2025-10-31 11:02:26
热搜上炸裂的“小鱼丸子”事件:“假富家千金”翻车,坑惨多少人

热搜上炸裂的“小鱼丸子”事件:“假富家千金”翻车,坑惨多少人

小椰子专栏
2025-10-22 13:05:54
正式退出,肖战发声,做出决定,去向曝光,国乒批准

正式退出,肖战发声,做出决定,去向曝光,国乒批准

乐聊球
2025-11-02 13:29:06
加纳乔被换下后显不满,球迷批:别以为踢90分钟是理所当然

加纳乔被换下后显不满,球迷批:别以为踢90分钟是理所当然

雷速体育
2025-11-02 12:47:25
6旬富豪专好''吃阴枣'',包养4个19岁女学生,民警破门后:禽兽不如

6旬富豪专好''吃阴枣'',包养4个19岁女学生,民警破门后:禽兽不如

悬案解密档案
2025-10-22 09:26:05
打捞一艘沉船花掉三亿人民币,打开船舱后所有人都呆了!

打捞一艘沉船花掉三亿人民币,打开船舱后所有人都呆了!

阿器谈史
2025-10-30 18:57:22
陈涛:很遗憾没从自己手中保级,但结局还好不辱使命

陈涛:很遗憾没从自己手中保级,但结局还好不辱使命

懂球帝
2025-11-01 22:25:12
丫蛋有三个孩子,大儿子王天琦是她与王金龙所生,于2011年出生。

丫蛋有三个孩子,大儿子王天琦是她与王金龙所生,于2011年出生。

百态人间
2025-10-31 14:43:12
女人30后不要太节俭,常吃这3样,补充雌激素,皮肤光滑气色好!

女人30后不要太节俭,常吃这3样,补充雌激素,皮肤光滑气色好!

江江食研社
2025-11-01 14:30:03
62329人挤爆决赛,“苏超”大结局,多少人意难平?

62329人挤爆决赛,“苏超”大结局,多少人意难平?

每日人物
2025-11-02 12:10:09
张召忠终于承认了!骗美国拆了F22生产线?16年后,局座解开谜底

张召忠终于承认了!骗美国拆了F22生产线?16年后,局座解开谜底

boss外传
2025-11-01 14:55:03
中年夫妻的婚姻状态都是啥样?网友:我34,老公54,一个月八九次

中年夫妻的婚姻状态都是啥样?网友:我34,老公54,一个月八九次

解读热点事件
2025-10-24 00:20:03
灰调辣妹风,吊带背心加微喇牛仔,都市街头酷飒感!

灰调辣妹风,吊带背心加微喇牛仔,都市街头酷飒感!

白宸侃片
2025-11-02 15:51:40
2026年起,家里存款超100万的家庭,这5个“麻烦”可能找上门

2026年起,家里存款超100万的家庭,这5个“麻烦”可能找上门

小蜜情感说
2025-10-27 09:39:20
国补确认恢复继续!国补政策2025年最新消息:新一轮国补690亿11月发放领取中,国补截止到年底结束

国补确认恢复继续!国补政策2025年最新消息:新一轮国补690亿11月发放领取中,国补截止到年底结束

中国润滑油信息网
2025-11-02 15:48:57
玉石“骗局”:为什么全世界只有中国把它当宝贝?

玉石“骗局”:为什么全世界只有中国把它当宝贝?

白夜若梦
2025-10-29 16:59:27
国防部下通牒,点名收拾赖清德,美国也出手了,扣留千亿售台军火

国防部下通牒,点名收拾赖清德,美国也出手了,扣留千亿售台军火

Ck的蜜糖
2025-11-02 10:02:38
老年人行房最晚到多大年龄?或许很多人想错了!

老年人行房最晚到多大年龄?或许很多人想错了!

深度报
2025-09-11 23:05:16
他在狱中亲眼见吴石将军,受电刑不吐一字,最后那餐只说了一句!

他在狱中亲眼见吴石将军,受电刑不吐一字,最后那餐只说了一句!

云霄纪史观
2025-11-01 09:13:37
从选调生提拔为区委常委,“85后”蔡哲分享成长历程

从选调生提拔为区委常委,“85后”蔡哲分享成长历程

新京报政事儿
2025-11-02 10:34:57
2025-11-02 17:08:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11617文章数 142497关注度
往期回顾 全部

科技要闻

10月零跑突破7万辆,小鹏、蔚来超4万辆

头条要闻

小区因千万接口费欠款致600户居民3年未供暖 多方回应

头条要闻

小区因千万接口费欠款致600户居民3年未供暖 多方回应

体育要闻

这个日本人,凭啥值3.25亿美元?

娱乐要闻

陈道明被王家卫说他是阴阳同体的极品

财经要闻

段永平捐了1500万元茅台股票!本人回应

汽车要闻

神龙汽车推出“发动机终身质保”政策

态度原创

健康
本地
数码
公开课
军事航空

核磁VS肌骨超声,谁更胜一筹?

本地新闻

全网围观,到底多少人被这个野人大学生笑疯了

数码要闻

从单塔单扇 4 热管到双塔双扇 6 热管,乔思伯推出 5 款塔式风冷

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

俄在日本海演习击沉假想敌潜艇

无障碍浏览 进入关怀版