网易首页 > 网易号 > 正文 申请入驻

超越CLIP等,多模态图片检索的增强视觉语言大模型预训练

0
分享至



多模态图片检索是计算机视觉和多模态机器学习领域很重要的一个任务。现在大家做多模态图片检索一般会用 CLIP/SigLIP 这种视觉语言大模型,因为他们经过了大规模的预训练,所以 zero-shot 的能力比较强。

牛津 VGG ,港大,上交大团队这篇论文旨在提供一种方法,能够用学术界的资源来增强视觉语言大模型的预训练 (Enhance Language-Image Pre-training),使得其可以更好地用于文字 - 图片检索。这篇论文被 IEEE 国际基于内容的多媒体索引大会(IEEE International Conference on Content-Based Multimedia Indexing)接受,并被评选为最佳论文提名,大会近期在爱尔兰都柏林召开。



  • 关键词:大模型;视觉语言模型;图片检索
  • 项目主页:https://www.robots.ox.ac.uk/~vgg/research/elip/
  • 论文链接:https://www.robots.ox.ac.uk/~vgg/publications/2025/Zhan25a/zhan25a.pdf
  • 代码仓库:https://github.com/ypliubit/ELIP

方法概览

下图是这篇文章方法的预览图。ELIP 方法的核心思想是,先用传统的 CLIP/SigLIP 对全体图片做一次 ranking,然后选出 top-k candidate 再做一次 re-ranking。做 re-ranking 的时候,作者设计了一个简单的 MLP mapping network,可以用文字的特征来定义一些视觉域中的 token,并把这些 token 插入到 image encoder 当中,使得 image encoder 在编码图片信息的时候可以感知到语言信息。这样重新编码之后的图片信息和语言信息再做比对的时候,同一个语言 query 能得到更好的 ranking 结果。ELIP 可以应用到一系列大模型上,比如 CLIP/SigLIP/SigLIP-2/BLIP-2,作者称之为 ELIP-C/ELIP-S/ELIP-S-2/ELIP-B。



学术界研究的挑战

视觉语言大模型的预训练,一般都是工业界做的事情,但作者提出的方法使得用学术界两张 GPU 做训练也变得可能。想法的创新点主要在模型架构和训练数据上。

创新点:模型架构

模型架构上,庞大的图片编码器和文本编码器的权重是固定的,只有作者涉及的由三层 linear + GeLU 构成的 MLP maping network 需要打开训练。

下图是 ELIP-C 和 ELIP-S 的训练图示。训练的时候,一个 batch 的文本图片对输入模型,文本特征映射到视觉特征空间来引导图片信息的编码。对于 CLIP 沿用 InfoNCE 损失函数,对于 SigLIP 沿用 Sigmoid 损失函数,来对齐文本特征和重新计算的图片特征。



下图是 ELIP-B 的训练图示。和 CLIP/SigLIP 类似,MLP mapping network 把文本特征映射到视觉特征空间。唯一不同的是,在这里由文本引导的图片特征放进了 Q-Former 来和输入的文本做 cross-attention,并最终由 ITM Head 来预测图片和文本是否匹配。训练的时候,ELIP-B 沿用 BLIP-2 的 BCE 损失函数。



创新点:训练数据

训练数据上,在学术界做大模型训练要面临的挑战就是 GPU 数量不够,没法开很大的 batch size 训练,这样可能训练出来的模型分辨能力就会下降。而 ELIP 却是要去分辨 CLIP/SigLIP 排序出来的 hard sample,对模型分辨能力的要求就更高了。为了解决这样的挑战,作者在训练的时候先算了一下每个训练图片和对应文字标题的 CLIP 特征,然后把相似特征的图文对聚集在一起形成 hard sample training batch。下图是作者聚合的训练 batch 的例子。对于每一行,第一个 sample 被用来聚合其他 sample。第一行的 caption 从左往右分别是:'a wooden table with no base'; 'a wooden table with a couple of folding legs on it'; 'a table that has a metal base with an olive wood top'; 'small table outdoors sitting on top of the asphalt'。第二行的 caption 从左往右分别是:'a huge body of blue ice floats in a mountain stream'; 'the big chunk of glacier is falling off of the cliff'; 'there is a broken piece of glass that has been broken from the ground'; 'a body of water surrounded by a forest near a mountain'。



新的评测数据集

除了在标准测试集比如 COCO, Flickr 上做测试之外,作者还提出了两个新的 OOD 测试集:Occluded COCO 和 ImageNet-R。对于 Occluded COCO,正样本包含了文字中描述的物体(物体通常被遮挡);对于 ImageNet-R,正样本中包含了文字中描述的物体,但是是来自一些不常见的领域的。负样本中不含文字中描述的物体。下图是一些例子,第一行是正样本,第二行是负样本。对于 Occluded COCO,正样本中含有被遮挡的自行车,负样本中不含自行车;对于 ImageNet-R,正样本中含有金鱼,负样本中不含金鱼。



实验结果

文章的结果如下表。可以看到,应用了 ELIP 之后,CLIP/SigLIP/SigLIP-2 的图片检索表现都显著增长,甚至于 SigLIP 系列模型达到了和 BLIP-2 接近的表现。ELIP-B 应用到 BLIP-2 上之后,也提升了 BLIP-2 的表现,超过了最新的 Q-Pert 方法。



在 OOD 的测试数据集上,ELIP-C/ELIP-S/ELIP-S-2/ELIP-B 都取得了 zero-shot 的泛化提升。如果我们在对应的 domain 上做一些 fine-tune,比如对于 Occluded COCO 我们在 COCO 数据集上 fine-tune,对于 ImageNet-R 数据集我们在 ImageNet 数据集上 fine-tune,可以得到更显著的提升。这进一步说明了 ELIP 除了增强预训练之外,还提供了一种高效的 adaptation 的方式。



作者进一步观察了注意力图,发现当 text query 和图片相关时,ELIP 可以提高图片信息提取 CLS token 对于文字描述的相关区域的注意力和信息提取。



更多细节详见论文原文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
西方国家领导人为何密集访华?BBC记者解读很到位

西方国家领导人为何密集访华?BBC记者解读很到位

潇湘晨报
2026-01-31 22:11:12
随着克雷莫内塞0-2国际米兰,赛后评分出炉:国米7号排第一

随着克雷莫内塞0-2国际米兰,赛后评分出炉:国米7号排第一

侧身凌空斩
2026-02-02 02:56:06
DO:利物浦认为雅凯比格伊更有长期价值,所以努力签下他

DO:利物浦认为雅凯比格伊更有长期价值,所以努力签下他

懂球帝
2026-02-02 06:50:39
俄媒:美国为何恢复对乌供应“海马斯”?

俄媒:美国为何恢复对乌供应“海马斯”?

参考消息
2026-02-01 14:45:16
山东小伙娶只有8岁智商的新娘,笑的合不拢嘴,网友:赚大了

山东小伙娶只有8岁智商的新娘,笑的合不拢嘴,网友:赚大了

静若梨花
2026-02-01 16:39:42
雷克萨斯急了!ES“偷偷摸摸”降10万,网友:你早干嘛去了?

雷克萨斯急了!ES“偷偷摸摸”降10万,网友:你早干嘛去了?

少数派报告Report
2026-02-01 07:21:08
山东小伙娶只有8岁智商的新娘,笑的合不拢嘴,网友:赚大了!

山东小伙娶只有8岁智商的新娘,笑的合不拢嘴,网友:赚大了!

观察鉴娱
2026-02-01 15:02:49
辞职看世界女老师11年后现状:黯然回乡,老公已分手

辞职看世界女老师11年后现状:黯然回乡,老公已分手

咸鱼金脑袋
2026-01-17 07:06:46
爆大冷!埃梅里耻辱一战:多踢1人主场落败,争冠形势迅速恶化

爆大冷!埃梅里耻辱一战:多踢1人主场落败,争冠形势迅速恶化

足球狗说
2026-02-02 00:19:11
100元纸币,这种麒麟号码,1张价值58000元!

100元纸币,这种麒麟号码,1张价值58000元!

小陈收藏社
2026-02-01 14:14:44
边防哨所里站了个插兜的兵,印军凑近又退缩,沉默比喊话更让人记住

边防哨所里站了个插兜的兵,印军凑近又退缩,沉默比喊话更让人记住

网络易不易
2026-02-01 06:05:19
骇人听闻!网传莱州一工厂规定工人1天2次集体如厕,每次5-8分钟

骇人听闻!网传莱州一工厂规定工人1天2次集体如厕,每次5-8分钟

火山诗话
2026-02-01 17:25:12
回国了我才敢说:委内瑞拉,是我去过的所有国家中,最被看轻的!

回国了我才敢说:委内瑞拉,是我去过的所有国家中,最被看轻的!

阿纂看事
2026-01-09 09:48:35
人口告别世界第一?二孩催生无效后,国家终于向住房出手了

人口告别世界第一?二孩催生无效后,国家终于向住房出手了

来科点谱
2026-01-13 08:54:22
赵露思现身上海恒隆广场,这美貌直接鲨疯了,美到让人窒息!

赵露思现身上海恒隆广场,这美貌直接鲨疯了,美到让人窒息!

东方不败然多多
2026-02-01 19:18:19
36年前陈宝国主演的盗墓恐怖片!尺度大到少儿不宜

36年前陈宝国主演的盗墓恐怖片!尺度大到少儿不宜

释凡电影
2025-08-14 09:33:19
难怪咸丰帝31岁暴毙,你看他逃往热河干了啥?每天都做4件致命事

难怪咸丰帝31岁暴毙,你看他逃往热河干了啥?每天都做4件致命事

百年历史老号
2024-06-14 01:27:29
自斯帕莱蒂上任以来,尤文意甲积分和进球数仅次于国米

自斯帕莱蒂上任以来,尤文意甲积分和进球数仅次于国米

懂球帝
2026-02-02 06:18:09
亲家有没有钱,一看便知:没钱的亲家,大多有以下4个坏习惯

亲家有没有钱,一看便知:没钱的亲家,大多有以下4个坏习惯

千秋文化
2025-12-03 10:05:36
郑爽彻底垮了!抱娃与张恒当街互撕,穿搭邋遢状态诡异疑精神失常

郑爽彻底垮了!抱娃与张恒当街互撕,穿搭邋遢状态诡异疑精神失常

八卦王者
2026-02-01 21:14:07
2026-02-02 07:16:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12226文章数 142562关注度
往期回顾 全部

科技要闻

10亿元宝红包突袭 复刻微信支付还是微视?

头条要闻

特朗普又有疯狂想法:白宫格斗赛 首都飙赛车

头条要闻

特朗普又有疯狂想法:白宫格斗赛 首都飙赛车

体育要闻

德约大度祝贺阿卡 幽默互动逗笑纳达尔

娱乐要闻

春晚第三次联排阵容曝光:全是实力派

财经要闻

黄仁勋台北"夜宴":汇聚近40位台企高管

汽车要闻

岚图汽车1月交付10515辆 同比增长31%

态度原创

本地
健康
旅游
数码
公开课

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

耳石症分类型,症状大不同

旅游要闻

“你好!中国”亮相2026马德里国际旅游展 | 新民侨梁

数码要闻

显存稀缺暴涨:三款RTX 50 GPU将占一季度总供应量75%!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版