网易首页 > 网易号 > 正文 申请入驻

超越CLIP等,多模态图片检索的增强视觉语言大模型预训练

0
分享至



多模态图片检索是计算机视觉和多模态机器学习领域很重要的一个任务。现在大家做多模态图片检索一般会用 CLIP/SigLIP 这种视觉语言大模型,因为他们经过了大规模的预训练,所以 zero-shot 的能力比较强。

牛津 VGG ,港大,上交大团队这篇论文旨在提供一种方法,能够用学术界的资源来增强视觉语言大模型的预训练 (Enhance Language-Image Pre-training),使得其可以更好地用于文字 - 图片检索。这篇论文被 IEEE 国际基于内容的多媒体索引大会(IEEE International Conference on Content-Based Multimedia Indexing)接受,并被评选为最佳论文提名,大会近期在爱尔兰都柏林召开。



  • 关键词:大模型;视觉语言模型;图片检索
  • 项目主页:https://www.robots.ox.ac.uk/~vgg/research/elip/
  • 论文链接:https://www.robots.ox.ac.uk/~vgg/publications/2025/Zhan25a/zhan25a.pdf
  • 代码仓库:https://github.com/ypliubit/ELIP

方法概览

下图是这篇文章方法的预览图。ELIP 方法的核心思想是,先用传统的 CLIP/SigLIP 对全体图片做一次 ranking,然后选出 top-k candidate 再做一次 re-ranking。做 re-ranking 的时候,作者设计了一个简单的 MLP mapping network,可以用文字的特征来定义一些视觉域中的 token,并把这些 token 插入到 image encoder 当中,使得 image encoder 在编码图片信息的时候可以感知到语言信息。这样重新编码之后的图片信息和语言信息再做比对的时候,同一个语言 query 能得到更好的 ranking 结果。ELIP 可以应用到一系列大模型上,比如 CLIP/SigLIP/SigLIP-2/BLIP-2,作者称之为 ELIP-C/ELIP-S/ELIP-S-2/ELIP-B。



学术界研究的挑战

视觉语言大模型的预训练,一般都是工业界做的事情,但作者提出的方法使得用学术界两张 GPU 做训练也变得可能。想法的创新点主要在模型架构和训练数据上。

创新点:模型架构

模型架构上,庞大的图片编码器和文本编码器的权重是固定的,只有作者涉及的由三层 linear + GeLU 构成的 MLP maping network 需要打开训练。

下图是 ELIP-C 和 ELIP-S 的训练图示。训练的时候,一个 batch 的文本图片对输入模型,文本特征映射到视觉特征空间来引导图片信息的编码。对于 CLIP 沿用 InfoNCE 损失函数,对于 SigLIP 沿用 Sigmoid 损失函数,来对齐文本特征和重新计算的图片特征。



下图是 ELIP-B 的训练图示。和 CLIP/SigLIP 类似,MLP mapping network 把文本特征映射到视觉特征空间。唯一不同的是,在这里由文本引导的图片特征放进了 Q-Former 来和输入的文本做 cross-attention,并最终由 ITM Head 来预测图片和文本是否匹配。训练的时候,ELIP-B 沿用 BLIP-2 的 BCE 损失函数。



创新点:训练数据

训练数据上,在学术界做大模型训练要面临的挑战就是 GPU 数量不够,没法开很大的 batch size 训练,这样可能训练出来的模型分辨能力就会下降。而 ELIP 却是要去分辨 CLIP/SigLIP 排序出来的 hard sample,对模型分辨能力的要求就更高了。为了解决这样的挑战,作者在训练的时候先算了一下每个训练图片和对应文字标题的 CLIP 特征,然后把相似特征的图文对聚集在一起形成 hard sample training batch。下图是作者聚合的训练 batch 的例子。对于每一行,第一个 sample 被用来聚合其他 sample。第一行的 caption 从左往右分别是:'a wooden table with no base'; 'a wooden table with a couple of folding legs on it'; 'a table that has a metal base with an olive wood top'; 'small table outdoors sitting on top of the asphalt'。第二行的 caption 从左往右分别是:'a huge body of blue ice floats in a mountain stream'; 'the big chunk of glacier is falling off of the cliff'; 'there is a broken piece of glass that has been broken from the ground'; 'a body of water surrounded by a forest near a mountain'。



新的评测数据集

除了在标准测试集比如 COCO, Flickr 上做测试之外,作者还提出了两个新的 OOD 测试集:Occluded COCO 和 ImageNet-R。对于 Occluded COCO,正样本包含了文字中描述的物体(物体通常被遮挡);对于 ImageNet-R,正样本中包含了文字中描述的物体,但是是来自一些不常见的领域的。负样本中不含文字中描述的物体。下图是一些例子,第一行是正样本,第二行是负样本。对于 Occluded COCO,正样本中含有被遮挡的自行车,负样本中不含自行车;对于 ImageNet-R,正样本中含有金鱼,负样本中不含金鱼。



实验结果

文章的结果如下表。可以看到,应用了 ELIP 之后,CLIP/SigLIP/SigLIP-2 的图片检索表现都显著增长,甚至于 SigLIP 系列模型达到了和 BLIP-2 接近的表现。ELIP-B 应用到 BLIP-2 上之后,也提升了 BLIP-2 的表现,超过了最新的 Q-Pert 方法。



在 OOD 的测试数据集上,ELIP-C/ELIP-S/ELIP-S-2/ELIP-B 都取得了 zero-shot 的泛化提升。如果我们在对应的 domain 上做一些 fine-tune,比如对于 Occluded COCO 我们在 COCO 数据集上 fine-tune,对于 ImageNet-R 数据集我们在 ImageNet 数据集上 fine-tune,可以得到更显著的提升。这进一步说明了 ELIP 除了增强预训练之外,还提供了一种高效的 adaptation 的方式。



作者进一步观察了注意力图,发现当 text query 和图片相关时,ELIP 可以提高图片信息提取 CLS token 对于文字描述的相关区域的注意力和信息提取。



更多细节详见论文原文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
威廉夫妇出席大主教就职典礼!英国王储穿西服很绅士,凯特美翻了

威廉夫妇出席大主教就职典礼!英国王储穿西服很绅士,凯特美翻了

八八尚语
2026-03-26 11:20:24
已经穷到别人炫富都看不出来了!网友:知道的豪车就是宝马奔驰

已经穷到别人炫富都看不出来了!网友:知道的豪车就是宝马奔驰

夜深爱杂谈
2026-03-22 21:48:32
酸菜被关注!研究发现:吃得越多,寿命或越短?告诉您真相

酸菜被关注!研究发现:吃得越多,寿命或越短?告诉您真相

华庭讲美食
2026-03-24 05:52:10
东莞,要下暴雨了!

东莞,要下暴雨了!

东莞纪实
2026-03-26 17:38:40
蔡正元即将入狱,国台办做出回应,内容不寻常,已看透他的真面目

蔡正元即将入狱,国台办做出回应,内容不寻常,已看透他的真面目

北纬的咖啡豆
2026-03-26 22:20:06
德天空:曼城方面视孔帕尼、阿隆索为瓜迪奥拉的潜在接班人

德天空:曼城方面视孔帕尼、阿隆索为瓜迪奥拉的潜在接班人

懂球帝
2026-03-27 02:28:10
48岁深圳未婚女士征婚被群嘲  网友:你不懂中年男人择偶的真相

48岁深圳未婚女士征婚被群嘲 网友:你不懂中年男人择偶的真相

尘埃里的看客
2026-03-24 10:48:33
深圳25岁天才股神直言:炒股一定要做到五不碰,牢记三阴不破阳!

深圳25岁天才股神直言:炒股一定要做到五不碰,牢记三阴不破阳!

股经纵横谈
2026-03-26 21:19:51
最快护士张水华辞职后,靠比赛拿名次、一年广告费能拿200-400万

最快护士张水华辞职后,靠比赛拿名次、一年广告费能拿200-400万

魔都姐姐杂谈
2026-03-24 20:50:19
欠中国的钱,委内瑞拉不还了?美财长:中国已无法继续获得委石油

欠中国的钱,委内瑞拉不还了?美财长:中国已无法继续获得委石油

萌城少年强
2026-01-22 12:47:40
乌克兰的阳谋:特朗普解除对俄制裁,乌克兰对俄施加制裁

乌克兰的阳谋:特朗普解除对俄制裁,乌克兰对俄施加制裁

山河路口
2026-03-26 18:36:03
怀孕传闻真相大白后,翁帆突传“喜讯”,杨振宁终于可以放心了!

怀孕传闻真相大白后,翁帆突传“喜讯”,杨振宁终于可以放心了!

丁丁鲤史纪
2026-03-25 16:35:13
曝张雪峰心脏骤停ICU抢救,知情人曝抢救细节,微博上线不发声

曝张雪峰心脏骤停ICU抢救,知情人曝抢救细节,微博上线不发声

古希腊掌管松饼的神
2026-03-24 18:51:41
36岁中国大哥在非洲开“手机网吧”,生意火爆到需要排队取号,当事人:投入很小,仅花了点流量钱,最火的时候10来个人看一个手机

36岁中国大哥在非洲开“手机网吧”,生意火爆到需要排队取号,当事人:投入很小,仅花了点流量钱,最火的时候10来个人看一个手机

观威海
2026-03-26 09:19:03
中国男篮官宣6月热身赛对手:将战澳大利亚与荷兰 承办赛区待定

中国男篮官宣6月热身赛对手:将战澳大利亚与荷兰 承办赛区待定

醉卧浮生
2026-03-26 20:30:46
这些"纯阳之物",每天吃一点,直接把阳气补到根,比吃药强多了

这些"纯阳之物",每天吃一点,直接把阳气补到根,比吃药强多了

小莜读史
2026-03-26 20:10:12
王晶曝陈百强真正死因,64岁何超琼颜面尽失

王晶曝陈百强真正死因,64岁何超琼颜面尽失

君笙的拂兮
2026-03-22 03:44:36
日本教练谈奥运窒息一战:张本智和超水平发挥,樊振东扛住非人压力

日本教练谈奥运窒息一战:张本智和超水平发挥,樊振东扛住非人压力

乒乓助手
2026-03-27 00:05:21
跌成了白菜价也没人买,14亿人输给3亿美国人,电视到底怎么了?

跌成了白菜价也没人买,14亿人输给3亿美国人,电视到底怎么了?

小嵩
2026-03-24 22:09:12
长期静养与每天锻炼的人,谁更长寿?调查36383名老人,给出答案

长期静养与每天锻炼的人,谁更长寿?调查36383名老人,给出答案

39健康网
2026-03-11 20:11:03
2026-03-27 03:07:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

游戏
健康
亲子
教育
房产

PS1大IP游戏藏私货!成人手绘与盗版马里奥ROM塞满

转头就晕的耳石症,能开车上班吗?

亲子要闻

试工育儿嫂被查出传染病,宝妈崩溃!家政服务“健康关”如何保障?

教育要闻

精准研判,提质增效丨我校召开2026届毕业生就业工作研判会

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

无障碍浏览 进入关怀版