网易首页 > 网易号 > 正文 申请入驻

智源BGE-VL拍照提问即可精准搜,1/70数据击穿多模态检索天花板!

0
分享至

新智元报道

编辑:编辑部 HYZ

【新智元导读】智源联手多所顶尖高校发布的多模态向量模型BGE-VL,重塑了AI检索领域的游戏规则。它凭借独创的MegaPairs合成数据技术,在图文检索、组合图像检索等多项任务中,横扫各大基准刷新SOTA。

BGE系列模型自发布以来广受社区好评。

近日,智源研究院联合多所高校开发了多模态向量模型BGE-VL,进一步扩充了原有生态体系。BGE-VL在图文检索、组合图像检索等主要多模态检索任务中均取得了最佳效果。

BGE-VL借助大规模合成数据MegaPairs训练而成。这一设计具备以下两大核心优势:

  • 优异的可扩展性:MegaPairs 结合多模态表征模型、多模态大模型和大语言模型,在海量图文语料库中高效挖掘多模态三元组数据。算法能够以极低成本持续生成多样化且高质量的多模态三元组。本次发布的版本涵盖 2600 万条样本,为多模态检索模型的训练提供了大规模、高价值的数据支持。

  • 卓越的数据质量:相较于传统多模态数据,MegaPairs 仅需1/70的数据量即可实现更优的训练效果。利用该合成数据,智源训练了多模态检索模型BGE-VL,显著提升了多个主流多模态检索基准的性能。

BGE-VL的技术报告已发布,相关数据、模型及代码资源将陆续向社区全面开放。

论文地址:https://arxiv.org/abs/2412.14475
项目主页:https://github.com/VectorSpaceLab/MegaPairs
模型地址:https://huggingface.co/BAAI/BGE-VL-MLLM-S1

研究背景

在大模型时代,信息检索需要满足人们日益多样化的需求,这种需求不仅体现在用户的多模态查询输入上,也体现在对多模态信息的需求上。例如,用户可能拍摄一张汽车外观图,并希望获取该款汽车的指定信息。

在这种情况下,多模态检索器需要综合理解用户的图像和文本指令,并从多种模态的信息中检索出最相关的内容。

然而,现有的多模态检索模型通常基于单一形式的跨模态配对数据(如图像-文本对)进行训练,这使得它们难以处理复杂的组合模态输入。

近年来,指令微调技术在文本检索和大语言模型等领域已经证明了其增强多任务能力的有效性。然而,以往的多模态检索指令数据集大多依赖人工标注,限制了大规模多样化数据的获取。

为解决这一限制,智源BGE团队创新性地提出了MegaPairs数据合成方法。该方法通过从现有大规模图像数据集中挖掘多样的关联图像对,并利用开源多模态大模型和大语言模型进行自动化指令生成,从而构建出高质量、可扩展、泛化性强的多模态检索指令微调数据集。

团队基于MegaPairs的高质量数据,训练并开源多模态向量模型BGE-VL系列,实现了当前最佳的多模态检索能力。

MegaPairs构造

MegaPairs提出从现有大规模图文语料库中挖掘并构造大规模、高质量多模态检索指令数据集。

具体地,MegaPairs的构造主要分为两个关键步骤:

  1. 使用多种相似度模型从图像数据集中挖掘多样的图像对;

  2. 使用开源的多模态大模型和大语言模型合成开放域检索指令。

以下图为例:

  • 首先,MegaPairs会从大规模图像数据集中采样一对图像-文本数据作为查询数据。

  • 然后,利用多种图像和文本相似度模型,挖掘出多组关联图像对(例如:同款汽车的外饰与内饰、同款汽车不同涂装、同品牌汽车未来概念图等)。

  • 接着,针对这些挖掘出的图像对,MegaPairs采用两阶段标注方法:首先使用多模态大语言模型(MLLM)总结两张图片之间的关联关系,然后使用大语言模型(LLM)撰写最终的开放域检索指令。

值得注意的是,MegaPairs完全基于开源数据集和开源模型进行自动化构建和标注。通过引入多个相似度模型和两阶段标注方法,MegaPairs能够在无需人工参与的情况下,扩展性地生成大规模、高质量且多样化的多模态检索指令数据集。

MegaPairs多模态三元数据构造流程

基于上述流水线,MegaPairs合成了超过2600万条(查询图像, 查询语句, 目标图像)三元数据对。

此外,鉴于「难负例」在训练检索模型的重要性,MegaPairs对于每组挖掘的图像对数据都选取了其他相似图片作为难负例。

BGE-VL模型

基于MegaPairs合成的大规模多模态检索指令数据集,智源BGE团队训练出了3款不同尺寸的多模态检索模型。包括基于CLIP架构的BGE-VL-Base和BGE-VL-Large,以及基于多模态大模型架构的BGE-VL-MLLM。

团队发现,仅仅使用MegaPairs三元组数据训练,模型就在多个任务上实现了远超以往方法的的领先性能优势。

综合多模态嵌入任务性能表现

团队首先在Massive Multimodal Embedding Benchmark(MMEB)上验证了MMRet模型的性能。

MMEB是一个综合性基准测试,涵盖了4大类共计36个不同多模态嵌入评测任务:分类(Classification)、视觉问答(Visual Question Answering)、检索(Retrieval)和视觉定位(Visual Grounding)。

MMEB评测任务示例图

在零样本性能表现方面,BGE-VL在MMEB的多个任务类型和整体评分均实现了最优性能。

更令人兴奋的是,MegaPairs并未包含MMEB中的绝大部分任务类型数据(例如Classification、VQA,Grounding),却能够实现良好的任务泛化能力。

根据MMEB的设置,团队进一步在MMEB的分布内(IND)集合(包含36个评测任务中的20个任务)上对BGE-VL进行了有监督微调。

实验结果显示,BGE-VL的平均性能指标相比直接在MMEB上微调的VLM2Vec (LLaVA-1.6) 模型高出9.1个百分点。同时,在分布外(OOD)数据集上的平均表现也比两版VLM2Vec分别高出11.6%和7.1%。这些结果证明了MegaPairs数据的高质量和泛化能力。

组合图像检索性能

传统图像检索通常采用「文搜图」或「图搜图」的方式。近年来,组合图像检索作为一种新兴的图像搜索范式,允许用户同时输入图像和搜索指令,实现更精准的图像检索效果。这一方法被谷歌称为「下一代图像搜索范式」。

在当前主流的组合图像检索评测集CIRCO上,BGE-VL在不同模型尺寸上均显著刷新了现有基准。大幅超越包括谷歌的MagicLens系列和英伟达的MM-Embed等对比基线。

具体而言,BGE-VL-MLLM较之前的SOTA模型提升了8.1个百分点。此外,BGE-VL-Base模型以不到1/50的参数量超越了如MM-Embed和E5-V等大模型底座的多模态检索器。这些实验结果有力展示了MegaPairs数据的有效性。

团队还对MegaPairs的可扩展性和数据质量进行了深入研究。

如图所示,一方面,随着MegaPairs数据规模的增加,BGE-VL模型表现出一致的性能增长趋势,证明了MegaPairs数据构造方法的良好可扩展性。

另一方面,与在37M闭源数据上训练的SOTA模型Google MagicLens相比,MegaPairs仅需1/70的数据规模(0.5M)即可实现显著的性能优势,证明了MegaPairs数据的高效性和高质量。

MegaPairs可扩展性分析:使用不同规模的MegaPairs数据训练BGE-VL-base模型在各评测基准上的性能变化趋势。虚线表示基于CLIP-base并在37M MagicLens数据集上训练的MagicLens-B模型的性能。

BGE-VL检索可视化结果

未来,智源将继续探索MegaPairs与更丰富的多模态检索场景结合,进一步打造更全能通用的多模态检索器。

更多方法和实验细节请参照论文。

参考资料:

https://arxiv.org/abs/2412.14475

https://github.com/VectorSpaceLab/MegaPairs

https://huggingface.co/BAAI/BGE-VL-MLLM-S1

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
错换人生事件:姚策生命权案一审败诉,真相令人震惊

错换人生事件:姚策生命权案一审败诉,真相令人震惊

思愈飞
2026-04-13 16:29:06
河北杀妻魔金昊已被执行死刑,女方家争孩子抚养权,孩子成长堪忧

河北杀妻魔金昊已被执行死刑,女方家争孩子抚养权,孩子成长堪忧

甜柠檬吖
2026-04-14 13:57:11
Lisa被驴老三甩了!鲸鱼男女通吃陪大佬!

Lisa被驴老三甩了!鲸鱼男女通吃陪大佬!

八卦疯叔
2026-04-14 11:50:46
加总理通告特朗普,美将损失3700亿,卡尼:加拿大不再依赖美国!

加总理通告特朗普,美将损失3700亿,卡尼:加拿大不再依赖美国!

知法而形
2026-04-14 15:20:19
特朗普给了中方两个选择,北京二话不说,直接刚给俄罗斯发出邀请

特朗普给了中方两个选择,北京二话不说,直接刚给俄罗斯发出邀请

霁寒飘雪
2026-04-14 15:06:48
伊朗官员说美若明智就别再冒险

伊朗官员说美若明智就别再冒险

财联社
2026-04-14 15:06:18
北京城建集团中标11.8亿元项目

北京城建集团中标11.8亿元项目

每日经济新闻
2026-04-14 11:06:19
每天走多少步最延寿?哈佛研究实锤:这样走路,全因死亡风险降17%

每天走多少步最延寿?哈佛研究实锤:这样走路,全因死亡风险降17%

CHTV百姓健康
2026-04-14 12:00:07
许家印,当庭认罪!

许家印,当庭认罪!

梳子姐
2026-04-14 13:19:01
南京一卫生院用杆秤称重,新生儿不慎被秤砣砸伤,当地卫健委介入调查

南京一卫生院用杆秤称重,新生儿不慎被秤砣砸伤,当地卫健委介入调查

封面新闻
2026-04-14 12:04:13
“90后说唱总理”沙阿来了

“90后说唱总理”沙阿来了

中国新闻周刊
2026-04-13 15:36:24
52岁北京炒股冠军罕见发声:如果本金有20W,建议死啃涨停双响炮

52岁北京炒股冠军罕见发声:如果本金有20W,建议死啃涨停双响炮

股经纵横谈
2026-04-13 18:28:54
越闹越大!奥迪加油站逃单后续,不到一天就落网,司机身份被公开

越闹越大!奥迪加油站逃单后续,不到一天就落网,司机身份被公开

云舟史策
2026-04-13 07:19:48
退休后,永远不要在熟人面前,说以下6句话,切记切记

退休后,永远不要在熟人面前,说以下6句话,切记切记

东林夕亭
2026-04-02 16:44:39
李晨晒跑男聚餐照!Baby重回C位,郑恺陈赫终于不避嫌了

李晨晒跑男聚餐照!Baby重回C位,郑恺陈赫终于不避嫌了

贾妈的幸福生活
2026-04-14 11:33:49
知名对冲基金公司SLJ:中国股市2026年底前上涨10%!这与高盛、摩根大通的预测基本一致

知名对冲基金公司SLJ:中国股市2026年底前上涨10%!这与高盛、摩根大通的预测基本一致

每日经济新闻
2026-04-14 14:27:30
向太劝醒年轻人:没200万存款别买车!自己只开二手车钱全投房产

向太劝醒年轻人:没200万存款别买车!自己只开二手车钱全投房产

观鱼听雨
2026-04-11 20:38:34
鲁迅后人现状,儿子是赫赫有名的大官,有一位是家喻户晓的大明星

鲁迅后人现状,儿子是赫赫有名的大官,有一位是家喻户晓的大明星

史之铭
2026-04-12 17:59:01
中国“捡钱”时代将要来临:若手中只有10万,试下死啃这两条线

中国“捡钱”时代将要来临:若手中只有10万,试下死啃这两条线

混沌录
2026-04-03 17:28:23
特朗普重申将封锁进出伊朗港口船只 中方回应

特朗普重申将封锁进出伊朗港口船只 中方回应

新京报
2026-04-13 15:35:45
2026-04-14 16:36:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14964文章数 66769关注度
往期回顾 全部

科技要闻

离职同事"炼化"成AI?这届公司不需要活人了

头条要闻

防范特朗普政府"对华软化" 史上最严对华芯片法案来了

头条要闻

防范特朗普政府"对华软化" 史上最严对华芯片法案来了

体育要闻

他做对了所有事,却被整个职业网坛放逐了八年

娱乐要闻

宋祖儿刘宇宁恋情大反转 正主火速辟谣

财经要闻

许家印受审当庭表示认罪悔罪

汽车要闻

长城欧拉5限定版纯电版上市 限量99台售价13.38万元

态度原创

艺术
本地
时尚
教育
公开课

艺术要闻

这位美女画家的夏天竟如此梦幻

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

今年科切拉的风吹向了谁?

教育要闻

初中数学,根式运算

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版