网易首页 > 网易号 > 正文 申请入驻

格灵深瞳开源RWKV-CLIP模型,强大的视觉语言表征学习器

0
分享至

始智AI wisemodel.cn开源社区

始智AI wisemodel.cn社区将打造成huggingface之外最活跃的中立开放的AI开源社区。欢迎《》以及《》。wisemodel社区上升级了体验空间,,并。

1

摘要

图文预训练 (CLIP) 任务通过使用从网站获取的图像-文本对扩展数据集,从而显著提高了各种视觉,语言任务的性能。本文从数据和模型架构的角度进一步探讨了 CLIP,为了解决噪声数据的普遍存在并提高从互联网上爬取的大规模图像文本数据的质量,研究团队引入了一个多样化的描述生成框架,该框架可以利用大型语言模型 (LLM) 从基于网络的文本、合成字幕和检测标签中合成和细化内容。

研究团队提出了RWKV-CLIP,这是第一个由 RWKV 驱动的视觉语言表示学习模型,它将 Transformer 的有效并行训练与 RNN 的有效推理相结合。跨各种模型规模和预训练数据集的综合实验表明,RWKV-CLIP 是一个强大而高效的视觉语言表示学习器,它在多个下游任务中取得了最先进的性能,包括线性探测、零样本分类和零样本图像文本检索。RWKV-CLIP已经发布到了始智AI wisemodel.cn开源社区,欢迎前往了解和使用。

https://wisemodel.cn/models/deepglint/RWKV-CLIP(模型地址)

2

介绍

使用CLIP模型筛选基于网络的图像-文本对时,仍然存在大量噪声数据。为了提高数据质量,研究团队提出了一种多样化描述生成框架,利用大型语言模型(LLMs)的能力,从基于网络的文本、合成字幕和检测标签中综合和提炼信息,以生成更准确、语义丰富的描述。除此之外,研究团队还提出了RWKV驱动的视觉-语言表示学习模型,它结合了transformer的有效并行训练和RNNs的高效推理。通过在不同模型规模和预训练数据集上的广泛实验且证明它是一个稳健且高效的视觉语言表征学习器。

3

方法

图1 多样性文本生成框架结构图

3.1 多样性文本生成框架

为了减少图像-文本对不匹配的影响,利用大型语言模型(LLMs)整合基于网络的文本、合成字幕和检测标签的信息,以生成更准确和语义丰富的描述。研究团队使用OFA模型为每个图像生成与图像相匹配的文本描述。由于OFA生成的合成文本质量不是很高,研究团队随之引入了开放世界标记模型RAM++,从图像中提取对象检测标签,以获取更细致的语义信息。最后利用ChatGPT结合原始文本、合成字幕和检测标签的信息,但因其计算量大,改用基于ChatGPT交互构建的指令数据集 (70K),微调开源的LLaMA3模型,用于大规模推理。多样性文本生成框架结构如图1所示。

图2 RWKV-CLIP模型结构图

3.2 RWKV-CLIP模型

受到RWKV和Vision-RWKV的启发,RWKV-CLIP采用了双塔架构,它融合了Transformer 的有效并行训练和RNN的高效推理的有点。如图2所示,该模型由多个空间混合(Spatial Mixing)和通道混合(Channel Mixing)模块堆叠而成,通过这些模块实现对输入图像和文本的深入处理。在空间混合阶段,模型利用注意力机制进行全局的线性复杂度计算,强化特征在通道层级的交互。随后的通道混合阶段进一步细化特征表示。RWKV-CLIP模型在输入增强方面,通过随机选择原始文本、合成字幕或生成描述作为文本输入,增强了模型的鲁棒性。此外,模型使用了一种新颖的线性插值方法B-Lerp和Q-Lerp,分别是在channel维度左右双向和上下左右四向扫描文本和图像特征,和双向加权键值(Bi-WKV)来优化特征融合过程。

4

实验

4.1实验细节

预训练数据集:模型在YFCC15M数据集上进行预训练,该数据集是YFCC100M的一个子集,由DeCLIP过滤得到。为了验证模型的通用性,还从LAION400M中随机选择了10M和30M的子集进行实验。

实现细节:使用OFA base生成合成字幕,利用ChatGPT-35-turbo构建指令数据集,并微调LLaMA3-8B模型以增强描述的多样性。优化器采用AdamW,设置了学习率、权重衰减等超参数。

模型架构细节:

表1 RWKV-CLIP的具体模型架构参数

如表1所示,研究团队搭建的RWKV-CLIP的具体参数设置,模型的计算flops对标的是CLIP。

4.2 实验结果

表2 RWKV-CLIP的线性评估任务的结果

研究团队使用 RWKV-CLIP 作为特征提取器并仅训练逻辑回归分类器。表 2 详细介绍了 ALIP 中引用的 10 个下游数据集的线性探测性能。与基线模型相比,RWKV-CLIP 实现了 1.9% 至 11.1% 的显著性能提升,在 10 个数据集中的 8 个中表现优于 ALIP。观察到的性能改进主要归因于两个主要因素:(1)研究团队提出的描述生成框架有效地综合和细化了来自基于网络的文本、合成字幕和检测标签的信息,从而生成更准确、语义更丰富的描述。(2)与基于 Transformer 的模型相比,RWKV-CLIP 表现出卓越的表征学习能力。

表3 RWKV-CLIP的零样本图文检索任务的结果

在表 3 中,将本文的方法与Flickr30k 和 MSCOCO上的零样本图像文本检索中的最先进方法进行了比较。RWKV-CLIP 在所有评估指标上都取得了新的最先进结果。具体来说,RWKV-CLIP在 Flickr30K 上实现了 76.0% / 57.6% 的 I2T/T2I 检索 Recall@1,超过 ALIP 5.5% / 8.7%。同样,在 MSCOCO 上,RWKV-CLIP 的 I2T/T2I 检索 Recall@1 也显著提高了 3.5% / 4.7%。这种出色的图像文本检索能力表明 RWKV-CLIP 学习到的表示是稳健的,并且表现出增强的跨模态对齐。

表4 RWKV-CLIP的零样本分类任务的结果

研究团队展示了 11 个数据集的零样本分类性能。为了确保公平比较,研究团队使用与 ALIP 和 SLIP 中建立的相同的提示模板和类名。如表 4 所示,RWKV-CLIP 比基线模型的平均性能提高了 2.6% 到14.4%。值得注意的是,RWKV-CLIP模型在 11 个数据集中的 10 个中都优于 ALIP,并且在 Food101 和 ImageNet 等实例判别数据集上具有显着增强。这种改进主要归功于框架生成的多样化描述,从而提供了更细粒度的语义信息。

4.3 不同模态分析

图3 跨模态分析可视化图

为了了解 RWKV-CLIP 的有效性,同时对RWKV-CLIP进行了跨模态分析。首先从 YFCC15M 中随机选择了 250 个图像-文本对,并可视化了 ALIP 和 RWKV-CLIP 的模态差距。具体来说,每张图像及其对应的文本都被编码到嵌入空间中,并使用 UMAP 将其缩减为二维。如图所示,可以发现 RWKV-CLIP 学习到的表示在同一模态中表现出更清晰的可辨别性。此外,与 ALIP 相比,RWKV-CLIP 在图像-文本模态空间中表现出更近的距离,表明跨模态对齐性能更出色。

除此之外,为了评估 RWKV-CLIP 跨模态对齐的性能,从 YFCC15M 中随机选择了 50 个样本,并在图中可视化了跨模态余弦相似度矩阵。可以观察到 RWKV-CLIP 矩阵的对角线与 ALIP 相比明显更清晰,这表明 RWKV-CLIP 学习到的表示表现出更高的独特性和更好的跨模态对齐能力。

5

结论

本文从数据和模型架构的角度进一步探讨了 CLIP。为了解决噪声数据普遍存在的问题并提高从互联网上抓取的大规模图像文本数据的质量,引入了一个多样化的描述生成框架,该框架可以利用大型语言模型 (LLM) 来合成和细化来自网络文本、合成字幕和检测标签的内容。此外,研究团队提出了 RWKV-CLIP,这是第一个由 RWKV 驱动的视觉语言表示学习模型,它将 Transformer 的有效并行训练与 RNN 的有效推理相结合。在各种模型规模和预训练数据集上进行的综合实验表明,RWKV-CLIP 是一个强大而高效的视觉语言表示学习器;它在几个下游任务中实现了最先进的性能,包括线性探测、零样本分类和零样本图像文本检索。为了提高结果的可重复性,将发布预处理数据、训练代码和预训练模型权重。

图文:格灵深瞳

编辑:成蕴年

----- END -----

wisemodel相关

系统升级

系列模型:

复旦大学团队发布Hallo多模态模型,首个音频驱动的人脸视频生成模型

关于wisemodel更多

1

欢迎持续关注和支持

开源社区建设需要长期坚持和投入,更需要广大用户的积极参与、贡献和维护,欢迎大家加入wisemodel开源社区的志愿者计划和开源共创计划。期待更多开发者将开源成果,包括模型、数据集和代码等发布到 wisemodel.cn 社区,共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信,申请加入wisemodel社群,持续关注wisemodel.cn开源社区动态,

2

欢迎加盟wisemodel开源社区

始智AI wisemodel社区自2023年9月上线以来,逐渐成为影响力日益扩大的中立开放的AI开源社区,为了加快公司发展,我们长期需要技术、运营等人才加盟,技术侧重在AI infra、后端开发,熟悉K8S、模型训练和推理等技术, 以及熟悉开发者生态运营的成员,欢迎感兴趣的朋友加盟,可以通过添加wisemodel微信,或者将简历投递到邮箱:liudaoquan@wisemodel.cn

3

欢迎投稿优质内容

欢迎投稿分享人工智能领域相关的优秀研究成果,鼓励高校实验室、大企业研究团队、个人等,在wisemodel平台上分享各类优质内容,可以是AI领域最新论文解读、最新开源成果介绍,也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到liudaoquan@wisemodel.cn,也可以扫码添加wisemodel微信。

4

关于wisemodel开源社区

始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立,旨在打造和建设中立开放的AI开源创新社区,将打造成“HuggingFace”之外最活跃的AI开源社区,汇聚主要AI开源模型、数据集和代码等,欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者,以及政府部门、学会协会、联盟、基金会等,还有投资机构、科技媒体等,共同参与建设AI开源创新生态。

向上滑动查看

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
面若桃花元气满满青春美少女图集

面若桃花元气满满青春美少女图集

手工制作阿歼
2026-01-06 11:43:28
26岁的周恩来担任黄埔军校政治部主任,老蒋:此人之才,胜我十倍

26岁的周恩来担任黄埔军校政治部主任,老蒋:此人之才,胜我十倍

鹤羽说个事
2025-12-29 15:47:42
郭富城老婆狂扫金饰!提三大袋战利品 豪气消费估破百万

郭富城老婆狂扫金饰!提三大袋战利品 豪气消费估破百万

达达哥
2026-01-06 11:32:33
邱清泉跑了一夜,死在指挥所几百米处,参谋长:死前已经疯了

邱清泉跑了一夜,死在指挥所几百米处,参谋长:死前已经疯了

云霄纪史观
2026-01-06 01:32:32
七旬老人烧瓷50年无人问津,孙子随手送岳父,岳父看后:不敢收

七旬老人烧瓷50年无人问津,孙子随手送岳父,岳父看后:不敢收

温情邮局
2025-12-01 15:19:48
80后已经有1100万人提前下车了。

80后已经有1100万人提前下车了。

爱吃糖的猫cat
2025-11-16 18:27:38
中东国家都意识到了:就算中国高端武器再多,也没办法保护他们

中东国家都意识到了:就算中国高端武器再多,也没办法保护他们

芳芳历史烩
2026-01-04 20:48:24
闫学晶回应质疑:你们能和我比吗?都是酸黄瓜,欠揍的话不要讲

闫学晶回应质疑:你们能和我比吗?都是酸黄瓜,欠揍的话不要讲

阿纂看事
2026-01-03 16:07:39
女子对年薪四五十万老公不满,全网劝离,甚至更有网友想取而代之

女子对年薪四五十万老公不满,全网劝离,甚至更有网友想取而代之

周哥一影视
2026-01-04 11:47:16
驻韩美军主力连夜撤走,韩国人的天塌了

驻韩美军主力连夜撤走,韩国人的天塌了

李荣茂
2026-01-05 18:41:10
2026年十笔潜在重磅交易:哈登联手爱德华兹 湖人勇士争夺小波特

2026年十笔潜在重磅交易:哈登联手爱德华兹 湖人勇士争夺小波特

篮球话题团
2026-01-06 00:35:03
苏州南京泰州网友纷纷出资打巨幅广告,祝贺永州队“湘超”夺冠,广告公司:广告牌还有很多,足够各地网友打广告

苏州南京泰州网友纷纷出资打巨幅广告,祝贺永州队“湘超”夺冠,广告公司:广告牌还有很多,足够各地网友打广告

极目新闻
2026-01-05 21:47:19
美媒爆:大批美军机突然飞往欧洲

美媒爆:大批美军机突然飞往欧洲

环球时报国际
2026-01-06 11:49:55
徐湖平父亲和岳父身份被扒!个个不简单,难怪举报他4次都不成功

徐湖平父亲和岳父身份被扒!个个不简单,难怪举报他4次都不成功

诗意世界
2025-12-31 16:43:19
一声巨响,弹道导弹命中目标!很显然是声援委内瑞拉

一声巨响,弹道导弹命中目标!很显然是声援委内瑞拉

安安说
2026-01-06 11:21:22
斯诺克战报!4场5-0,中国2将晋级,常冰玉4-1,新人爆冷10冠王?

斯诺克战报!4场5-0,中国2将晋级,常冰玉4-1,新人爆冷10冠王?

刘姚尧的文字城堡
2026-01-06 05:51:47
黄国昌刚辞职,就被民进党盯上,要危险了,萧旭岑一句话亮了

黄国昌刚辞职,就被民进党盯上,要危险了,萧旭岑一句话亮了

DS北风
2026-01-06 11:02:04
国际奥委会如今怕是后悔莫及了,当年对北京申奥时的种种苛刻要求

国际奥委会如今怕是后悔莫及了,当年对北京申奥时的种种苛刻要求

百态人间
2026-01-03 16:50:30
二百多名军官被枪毙、撤职、处分,长津湖战役中失职的志愿军88师

二百多名军官被枪毙、撤职、处分,长津湖战役中失职的志愿军88师

丞丞故事汇
2025-12-28 00:13:54
李斯:为什么《寻秦记》的李斯最不像演的,带你看历史上的李斯

李斯:为什么《寻秦记》的李斯最不像演的,带你看历史上的李斯

威言晓史
2026-01-05 08:57:27
2026-01-06 12:43:00
wisemodel开源社区 incentive-icons
wisemodel开源社区
始智AI wisemodel.cn开源社区,打造中国版“huggingface”
432文章数 14关注度
往期回顾 全部

科技要闻

速看!黄仁勋万字实录:甩出"物理AI"王牌

头条要闻

邓紫棋的科幻小说"入围"银河奖引热议 其副业不只写作

头条要闻

邓紫棋的科幻小说"入围"银河奖引热议 其副业不只写作

体育要闻

从NBA最菜首发控卫,到NBA最强乔治

娱乐要闻

朱媛媛遗作《小城大事》定档1月10日

财经要闻

丁一凡:中美进入相对稳定的竞争共存期

汽车要闻

让智驾能看懂真实世界 英伟达发布开源Alpamayo平台

态度原创

教育
数码
健康
家居
军事航空

教育要闻

学霸题:求阴影部分的面积,真六啊

数码要闻

AMD扩充锐龙AI Max+处理器产品线,推出新品Max+ 392 / 388

这些新疗法,让化疗不再那么痛苦

家居要闻

引光之宅 地下室也有生机

军事要闻

美称对“占领”委内瑞拉保留选择权

无障碍浏览 进入关怀版