网易首页 > 网易号 > 正文 申请入驻

Jina-CLIP-v1:开源多模态向量模型,性能超越 OpenAI-CLIP

0
分享至

始智AI wisemodel.cn开源社区

始智AI wisemodel.cn社区将打造成huggingface之外最活跃的中立开放的AI开源社区。欢迎《》以及《》。

CLIP 模型架起了文本和图像的桥梁,但实际上很少有人会用它来进行文本检索,因为CLIP的文本编码器无法有效的对长文本进行语义建模。

为了解决这一问题,jina推出了 Jina CLIP v1,已经在始智AIwisemodel.cn开源社区发布,是一个增强版的 OpenAI CLIP 模型,擅长文本-文本、文本-图像、图像-文本、图像-图像四个方向的检索。从现在起,你的 CLIP 模型不仅是图像检索器,更是强大的文本检索器。

在构建多模态 RAG 应用时,你不再需要在不同的向量模型之间切换,一个模型、两种模态、四个搜索方向都交给 Jina CLIP v1。更关键的是,它还能够处理长达 8K 的输入长度。

1

CLIP 模型架构

在 2021 年 1 月,OpenAI 推出了开创性的 CLIP 模型,其架构简洁却极具巧思:将一个文本编码器与一个图像编码器结合,在统一的向量空间中输出结果。CLIP 的文本向量与图像向量之间的距离,反映了两者语义关联的紧密程度。

CLIP 这一架构非常适用于跨模态检索和零样本分类任务,通过学习大量的图像和文本对,即使在没有针对性任务训练的情况下,也能理解并分类新的图像。

原始 CLIP 模型中的文本编码器是一个定制的神经网络,在图像编码器方面,OpenAI 则使用了一系列 ResNet 和 ViT 模型,再用图像描述进行训练,以生成相似的图像-文本向量。

这种方法非常有效,尤其是在零样本分类中的表现。举个例子,即使训练数据中没有标注宇航员的图像,CLIP 仍能凭借对文本和图像相关概念的理解,准确识别宇航员的图片。

然而,OpenAI 的 CLIP 也存在两大短板:

1. 文本输入容量非常有限。最多仅支持 77 个 token 的输入,根据 LongCLIP 的实验,实际上其有效输入不超过 20 个 token。

2. 在纯文本检索中表现不佳。主要原因有两点:首先,CLIP 模型的训练目标是对齐文本和图像,没有针对纯文本检索进行专门优化。其次,CLIP 模型的训练数据主要由相对较短的文本组成,难以泛化到更广阔的文本检索场景。

因此,在大多数应用到 CLIP 模型的实际应用场景中,如果涉及到纯文本检索任务,就需要引入其他专用文本向量模型并行使用,使得 AI 框架的规模和复杂性增加了一倍。

Jina CLIP v1 直接解决了这些痛点,利用了近年来的进展,jina-clip-v1 为涉及所有文本和图像模态组合的任务提供了最先进的性能,一个模型支持两种模态、四个搜索方向,为用户带来前所未有的便捷性和高效性。

2

Jina CLIP v1 模型架构

Jina CLIP v1 沿用了 OpenAI CLIP 的双编码器架构:两个编码器共同训练,生成在同一向量空间中的输出结果。

在文本编码器方面,采用自身的向量模型所使用的 Jina BERT v2 架构,支持高达 8k token 的长文本输入,输出维度为 768,明显优于 CLIP,能够处理更长的文本,并生成更精确的向量。

在图像编码器方面,使用了北京智源人工智能研究院的最新模型 EVA-02,对一系列图像编码器进行了测评,在相似的预训练背景下进行跨模态测试,EVA-02 明显优于其他模型。它的模型大小也与 Jina BERT 架构相当,因此图像和文本处理任务的计算负担大致相同。经过进一步训练,它在图像到图像及跨模态任务中展现出极佳表现。

通过这一全新组合,Jina CLIP v1 取得了以下重大进展:

  • 在跨模态、纯文本、纯图像等所有场景下表现都很卓越,相比 CLIP 模型平均性能提升了 46%。

  • EVA-02 在图像-文本和纯图像任务中表现出色,Jina AI 的额外训练进一步提升了其纯图像任务的表现。

  • 支持更长的文本输入,最高支持 8k token 输入,可与丰富语义上下文相关联。

  • Jina CLIP 即使在非跨模态场景中也有出色表现,可以大幅节省用户使用时的空间、计算、代码维护和复杂度。


Jina CLIP 各项性能表现均优于 OpenAI CLIP

3

模型训练

Jina CLIP v1 在性能上的出色表现,归因于创新性的三阶段训练流程。前面提到了 CLIP 模型在纯文本场景下表现不佳的主要原因:

1.CLIP 专注于捕捉跨模态(图像和文本)的语义关联,对于单个模态(纯文本)之间的细粒度语义建模能力相对较弱。

2.CLIP 使用的训练数据主要来自网络上的图像-文本对,相比于大规模语料库,训练数据在覆盖面和多样性方面存在局限,这导致模型难以泛化到更广阔的文本检索场景。

因此,有针对性地设计了训练方案来改善这一问题,通过两个任务共同优化、以及长文本单项优化的方式进行训练,具体分为三个步骤:

三阶段联合训练流程

第一阶段:对齐图像和文本向量

首先,使用带描述的图像数据来对齐图像和文本向量,辅助文本对来进行协同训练。这种训练方法使两模态互相促进,提升短文本的检索能力,同时大幅提升跨模态检索性能。

第二阶段:利用合成数据进行长文本优化

接着,引入了由 AI 模型生成的合成数据,主要是长文本图像描述数据,通过增加文本序列长度(至 512)来训练模型。这一阶段重点提升了模型对于长文本的关注和处理能力,进一步优化了文本检索的性能。

第三阶段:难负样本学习

在最后阶段,使用包含难负样本的文本三元组,进一步改进文本编码器,学习区分相关文本与不相关文本。同时,为保持文本-图像对齐,继续对长图像描述进行训练。此阶段显著提升了纯文本性能,模型的图像-文本的跨模态检索能力则保持稳定。

通过上述策略,实现了文本和图像两种模态的共同进化,使模型在所有检索场景中均能发挥出色表现。有关训练和模型架构的详细信息,请参阅论文:《Jina CLIP: Your CLIP Model Is Also Your Text Retriever》https://arxiv.org/abs/2405.20204。

4

多模态向量的新前沿

Jina CLIP v1 在纯文本、纯图像以及跨模态任务中的表现评估,使用 MTEB 检索基准来评估其文本性能;在纯图像任务中,采用 CIFAR-100 基准测试;在跨模态任务方面,选择了包含在 CLIP 基准中的 Flickr8k、Flickr30K 和 MSCOCO Captions 数据集进行评估。

结果如上图所示:jina-clip-v1 在所有类别中均优于 OpenAI 的原始 CLIP,尤其是在纯文本提升了 165.1%,纯图像检索方面提升了 12.3%,平均来看性能提升了 46%。

5

如何上手 API

您可以轻松地通过 Jina Embeddings API 将 Jina CLIP v1 集成到您的应用中。

下面的代码示例展示了如何通过 Python 中的 requests 包调用 API 来获取文本和图像的向量,它将文本字符串和图像的 URL 传递给 Jina AI 服务器,并返回两者的编码。

☝️ 记得将替换为已激活的 Jina API 密钥。你可以在 Jina Embeddings 网页获取包含一百万免费 tokens 的试用密钥。

主流 LLM 框架集成

Jina CLIP v1 已与 LlamaIndex 和 LangChain 等热门框架集成:

  • 在 LlamaIndex 中: 通过 MultimodalEmbedding 基类使用 JinaEmbedding,并调用 get_image_embeddings或 get_text_embeddings。

  • 在 LangChain 中: 使用 JinaEmbeddings,并调用 embed_images 或 embed_documents。

定价

文本和图像输入的费用按 token 消耗计算。

  • 对于英语文本,平均每个单词需要 1.1 个 token。

  • 对于图像,则 224x224 像素块数量计算,每块 1,000 tokens,不足一块的按一块计算。

jina还为企业用户提供包含个性化咨询、定制解决方案、优先支持等增值服务。

在 wisemodel和Hugging Face 上开源

Jina AI 一直积极推动开源社区发展,因此,在wisemodel 和 Hugging Face 上开源了 Jina CLIP v1 模型,采用 Apache 2.0 许可证,欢迎大家下载使用。在wisemodel 和 Hugging Face 的 jina-clip-v1 模型页面上找到示例代码,用于在你自己的系统或云部署中下载并运行此模型。

wisemodel:https://wisemodel.cn/models/jina.ai/jina-clip-v1

Hugging Face:https://huggingface.co/jinaai/jina-clip-v1

6

总结

作为jina在多模态向量检索的力作,Jina CLIP v1 性能显著超越了 OpenAI 的 CLIP,尤其在纯文本和纯图像检索任务中有显著改进。它成功克服了 CLIP 在单一模态建模方面的不足,真正实现了文本、图像两种模态的高效融合,统一了跨模态检索任务。

对于应用开发者来说,现在你只需部署一个模型实例,即可同时支持文本-文本、文本-图像、图像-文本和图像-图像四种检索方向,无需针对不同的检索任务分别使用专门的模型。显著降低了模型管理和部署的复杂度,减少了维护和计算开销。

由于资源限制,该模型目前仅支持英文文本,后续将扩展其对更多语言的支持。

编辑:成蕴年

----- END -----

始智AI wisemodel开源社区最近上线了开源模型的在线体验功能,已经有近50个大模型可以直接进行在线体验。 在线体验的创建无需任何代码开发,人人都可以来玩开源大模型。 欢迎前往wisemodel.cn社区进行体验,若需指引可以参考《 》。 大家研发的模型也可以发布到wisemodel社区,同时适配一下wisemodel-API,相应模型就可以直接在线运行了。 如果有需要模型的在线推理运行托管服务,也欢迎联系我们。

wisemodel相关

系统升级

系列模型:

关于wisemodel更多

1

欢迎持续关注和支持

开源社区建设需要长期坚持和投入,更需要广大用户的积极参与、贡献和维护,欢迎大家加入wisemodel开源社区的志愿者计划和开源共创计划。期待更多开发者将开源成果,包括模型、数据集和代码等发布到 wisemodel.cn 社区,共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信,申请加入wisemodel社群,持续关注wisemodel.cn开源社区动态。

2

欢迎加盟wisemodel开源社区

始智AI wisemodel社区自2023年9月上线以来,逐渐成为影响力日益扩大的中立开放的AI开源社区,为了加快公司发展,我们长期需要技术、运营等人才加盟,技术侧重在AI infra、后端开发,熟悉K8S、模型训练和推理等技术, 以及熟悉开发者生态运营的成员,欢迎感兴趣的朋友加盟,可以通过添加wisemodel微信,或者将简历投递到邮箱:liudaoquan@wisemodel.cn

3

欢迎投稿优质内容

欢迎投稿分享人工智能领域相关的优秀研究成果,鼓励高校实验室、大企业研究团队、个人等,在wisemodel平台上分享各类优质内容,可以是AI领域最新论文解读、最新开源成果介绍,也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到liudaoquan@wisemodel.cn,也可以扫码添加wisemodel微信。

4

关于wisemodel开源社区

始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立,旨在打造和建设中立开放的AI开源创新社区,将打造成“HuggingFace”之外最活跃的AI开源社区,汇聚主要AI开源模型、数据集和代码等,欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者,以及政府部门、学会协会、联盟、基金会等,还有投资机构、科技媒体等,共同参与建设AI开源创新生态。

向上滑动查看

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
千万网红“痞幼”最新爆料

千万网红“痞幼”最新爆料

陈意小可爱
2026-06-26 10:02:39
1-1!亚洲首支出线队诞生,日本挑战五星巴西,韩国晋级形势如下

1-1!亚洲首支出线队诞生,日本挑战五星巴西,韩国晋级形势如下

球场没跑道
2026-06-26 09:24:19
刘备临终前告诫:子龙不可重用!为何这么说?这才是刘备帝王之心

刘备临终前告诫:子龙不可重用!为何这么说?这才是刘备帝王之心

搜史君
2026-06-25 13:45:09
穿越者再现?1977年猫王最后一场演出,观众手里竟有“手机”

穿越者再现?1977年猫王最后一场演出,观众手里竟有“手机”

Science科学说
2026-06-25 08:05:03
6.26世界杯推荐:乌拉圭vs西班牙

6.26世界杯推荐:乌拉圭vs西班牙

乌鸦侃球战术板
2026-06-26 12:30:42
立陶宛之后,澳洲也反水了?许多国家开始意识到,对华关系很重要

立陶宛之后,澳洲也反水了?许多国家开始意识到,对华关系很重要

小武侃风云
2026-06-26 13:27:00
天津高考多少分能上天津大学、南开大学?

天津高考多少分能上天津大学、南开大学?

天津人
2026-06-26 15:13:51
胡锡进为韩红冯小刚发声:电影非常好看,呼吁大家走个面错哪了?

胡锡进为韩红冯小刚发声:电影非常好看,呼吁大家走个面错哪了?

映射生活的身影
2026-06-25 20:00:42
高考721分!全国同专业第一 郭斌(6岁永久失明)已被录取 成为一名盲人双学位大学生#郭斌被录取

高考721分!全国同专业第一 郭斌(6岁永久失明)已被录取 成为一名盲人双学位大学生#郭斌被录取

每日经济新闻
2026-06-25 00:35:45
低密度脂蛋白高于这个数,必须立刻重视,你的血管已经严重失控

低密度脂蛋白高于这个数,必须立刻重视,你的血管已经严重失控

垚垚分享健康
2026-06-22 20:15:11
印度排泄物危机:7亿人摧毁人类百年抗生素积累

印度排泄物危机:7亿人摧毁人类百年抗生素积累

最新声音
2026-06-25 16:32:04
日本便利店装上机器狼 眼冒红光来回扭头 咆哮不会原谅你防熊

日本便利店装上机器狼 眼冒红光来回扭头 咆哮不会原谅你防熊

快科技
2026-06-26 17:54:20
激光通信:下一个星链产业链

激光通信:下一个星链产业链

新浪财经
2026-06-24 15:59:26
80后,正成为社会的高危人群

80后,正成为社会的高危人群

职场资深秘书
2026-06-25 23:41:27
毁了两场比赛!女裁判执法世界杯两场均有重大误判,还致一队淘汰

毁了两场比赛!女裁判执法世界杯两场均有重大误判,还致一队淘汰

衣衫褴褛的文人
2026-06-26 09:15:56
鲍鹏山:如果中国真的足够强大!我们没必要脆弱到那么害怕批评!

鲍鹏山:如果中国真的足够强大!我们没必要脆弱到那么害怕批评!

用冷眼洞悉世界
2026-06-24 00:44:14
港股智谱股价跌破2000港元,现跌超15%

港股智谱股价跌破2000港元,现跌超15%

每日经济新闻
2026-06-26 14:37:11
44年来首次!中国一枚洲际导弹打出去,全世界反应堪比好莱坞大片

44年来首次!中国一枚洲际导弹打出去,全世界反应堪比好莱坞大片

策前论
2026-06-26 13:44:53
美国终于开始害怕?比稀土更致命王牌出手了,万斯:中国要冷静

美国终于开始害怕?比稀土更致命王牌出手了,万斯:中国要冷静

混沌录
2026-04-10 22:53:19
WNBA:李月汝50秒连轰5分上场时间太少 飞翼惨负卫冕冠军

WNBA:李月汝50秒连轰5分上场时间太少 飞翼惨负卫冕冠军

醉卧浮生
2026-06-26 12:15:16
2026-06-26 18:36:49
wisemodel开源社区 incentive-icons
wisemodel开源社区
始智AI wisemodel.cn开源社区,打造中国版“huggingface”
488文章数 16关注度
往期回顾 全部

科技要闻

拿了500亿的梁文锋,只挖地基,不信销售

头条要闻

已有19支队伍晋级32强 盘点世界杯小组出线形势

头条要闻

已有19支队伍晋级32强 盘点世界杯小组出线形势

体育要闻

我在世界杯的每次奔跑,都为了证明你没看错

娱乐要闻

玥儿不回北京,马筱梅解释后妈身份

财经要闻

悬在科技头上的达摩克利斯之剑

汽车要闻

老板们的新座驾!65万元起,尊界V800/V680开启预订

态度原创

房产
艺术
数码
家居
军事航空

房产要闻

全国高考大放水,300分就能上本科!论上岸率,海南没输过!

艺术要闻

卡塔尔再添世界级艺术地标,Herzog & de Meuron设计

数码要闻

联想警告内存供应危机:价格上涨将成新常态,延续至2030年以后

家居要闻

绿意盎然 自然之境

军事要闻

伊朗:驶离指定航线船舶不享有安全保障

无障碍浏览 进入关怀版