网易首页 > 网易号 > 正文 申请入驻

清华姚班校友马腾宇,发布了他的首个多模态嵌入模型:「多模态检索」实现SOTA

0
分享至

清华姚班校友马腾宇和他的团队,推出了自创业以来的首个多模态嵌入模型 voyage-multimodal-3,而且发布即“SOTA”

据介绍,在对 3 个多模态检索任务(共 20 个数据集)进行评估时,voyage-multimodal-3比第二名平均高出了 19.63% 的检索准确率。这是为包含丰富视觉和文本的文档提供无缝 RAG 和语义搜索的重要进展。

去年 11 月,已为斯坦福大学助理教授的马腾宇,正式宣布了他的大模型创业项目 Voyage-AI,旨在提供 SOTA 嵌入模型,为企业的智能检索提供超级动力,推动检索增强生成(RAG)和可信赖的大语言模型(LLM)应用的发展。

据 Voyage-AI 官网显示,他们的学术顾问十分豪华,包括斯坦福大学首位红杉讲席教授李飞飞、斯坦福大学教授 Christopher Manning 和斯坦福大学副教授 Christopher Ré 等。9 月,Voyage-AI 完成了 2000 万美元 A 轮融资,总融资额达到 2800 万美元。

据介绍,与现有的多模态嵌入模型不同,voyage-multimodal-3 能够对交错文本和图像进行矢量化处理,并从 PDF、幻灯片、表格、数字等截图中捕捉关键视觉特征,而无需进行复杂的文档解析

voyage-multimodal-3 支持文本和内容丰富的图像,如文本截图、数字、表格、PDF、幻灯片等。由此产生的矢量可捕捉关键的文本和视觉特征,如字体大小、文本位置、空白等。这消除了基于启发式的文档解析的需要,因为当布局复杂或穿插数字和照片时,启发式文档解析往往难以保证准确性。与处理单一文本或图片输入的现有多模态嵌入模型不同,voyage-multimodal-3 允许交错文本和图片,以实现最大的灵活性。

voyage-multimodal-3 的架构类似于视觉语言 transformers。这使得它与现有的多模态嵌入模型显著不同,包括但不限于 OpenAI CLIP large (clip-vit-large-patch14-336) 和 Cohere multimodal v3 (embed-multimodal-v3.0))。

在对 20 个多模态检索数据集和 34 个文本检索数据集进行的一组评估中,voyage-multimodal-3:

  • 在表格/图表检索方面,平均分别比 OpenAI CLIP large 和 Cohere multimodal v3 高出 41.44%(提高 2.1 倍)和 43.37%(提高 2.2 倍);在文档截图检索方面,分别比 OpenAI CLIP large 和 Cohere multimodal v3 高出 26.54% 和 25.84%;在文本到图片检索方面,分别比 OpenAI CLIP large 和 Cohere multimodal v3 高出 6.55% 和 5.86%。

  • 在纯文本数据集方面,分别比 OpenAI v3 large 和 Cohere multimodal/English1 v3 高出 5.13% 和 13.70%。

支持交错文本和图像

所有现有的常用多模态嵌入模型(如 Amazon Titan Multimodal G1、Google Vertex AI multimodal 和 Cohere multimodal v3)都基于 OpenAI 的 CLIP,其通过独立网络处理不同模态的数据。换句话说,图像必须通过视觉塔(vision tower)进行矢量化,而文本必须通过文本塔(text tower)进行矢量化,无法处理交错数据。

相反,voyage-multimodal-3 在同一个 transformer 编码器中直接对两种模态的数据进行矢量化,确保文本和视觉特征都被视为统一表征的一部分,而不是截然不同的组件。这模仿了最新视觉语言模型的架构,只是用于矢量化而非生成。因此,交错文本和图像、文档截图、具有复杂布局的 PDF 文件、带注释的图像等都能以保留视觉信息和文本信息之间上下文关系的方式进行矢量化。

利用截图进行混合模态搜索

由于模态差距(modality gap)这一现象,所有类似 CLIP 的模型在混合模态搜索方面都表现不佳。如下图所示,与“第七十七届国会成员,我向你们致辞......”片段最接近的向量不是其截图,而是其他文本。这导致搜索结果偏向于相同模态的条目;换句话说,在嵌入空间中,文本向量将更接近无关文本,而不是相关图片。

为了从数量上说明这个问题,他们进行了一项涉及混合模态数据的实验。他们创建了两套内容相同的 PyTorch 文档:一套是纯文本(字符串),另一套是屏幕截图。通过将基于文本的文档子集与剩余子集的屏幕截图相结合,他们创建了一系列混合模态数据集。每个数据集代表不同比例的文本和屏幕截图,屏幕截图的比例从 0% 到 100% 不等。然后,他们在这些数据集上评估了各种多模态模型的检索准确性,报告了每个模型在不同截图比例下的归一化折算累积增益(NDCG@10)。

如上图所示,当屏幕截图的比例增加到 90% 时,基于 CLIP 的模型的检索质量就会下降,这凸显了受模态影响的检索偏差。

相比之下,voyage-multimodal-3 不仅在所有比例下都表现更好,而且在所有情况下几乎没有性能下降,这表明矢量真正捕捉到了截图中包含的语义内容。

有了 voyage-multimodal-3,我们就不再需要屏幕解析模型、布局分析或任何其他复杂的文本提取管道;我们可以轻松地将包含纯文本文档和非结构化数据(如 PDF/幻灯片/网页等)的知识库矢量化。屏幕截图就是你所需要的一切

详细评估结果

数据集。他们在 20 个多模态数据集上对 voyage-multimodal-3 进行了评估,这些数据集涵盖三个不同的任务:表格/图表检索、文档截图检索和文本到图片检索。他们还在一个标准文本检索任务中对 voyage-multimodal-3 进行了评估,该任务涵盖 6 个领域(法律、金融、对话、代码、网络和技术)的 34 个数据集。

在所有数据集中,查询都是文本,而文档可以是图、照片、文本、文档截图或这些内容的组合。对于每项任务,他们都使用之前表现最好的模型作为基准。除了任务名称,他们还在下表中提供了每个任务的相应说明和使用的数据集:

请注意,标准文本检索任务包括用于评估 voyage-3 和 voyage-3-lite 的所有数据集,长上下文和多语言数据集除外。

模型。对于三个多模态任务,他们将 voyage-multimodal-3 与四个可供选择的多模态嵌入模型进行了评估:OpenAI CLIP large(clip-vit-large-patch14-336)、Amazon Titan Multimodal Embeddings G1(amazon.titan-embed-image-v1)、Cohere multimodal v3(embed-multimodal-v3.0)和 SigLIP So400M(siglip-so400m-patch14-384)。他们还评估了 ColQwen2 v0.1(colqwen-v0.1),这是一种后期交互模型,可为每篇文档输出多个嵌入。

对于标准文本检索任务,他们评估了 voyage-multimodal-3 以及 OpenAI v3 large (text-embeddings-3-large)、Cohere multimodal/English1 v3 和 voyage-3。

指标。给定一个查询,他们按余弦相似度检索前 10 个结果,并报告 NDCG@10。

结果

多模态检索。如下图所示,voyage-multimodal-3 的性能分别比 OpenAI CLIP large、Amazon Titan Multimodal G1、Cohere multimodal v3、SigLIP So400M 和 ColQwen2 v0.1 高出:

  • 在表格/图表检索上:41.44%、45.00%、43.37%、20.66% 和 6.14%;

  • 在文档截图检索上:26.54%、37.68%、25.84%、35.62% 和 0.98%;

  • 在标准文本检索上:6.55%、5.16%、5.86%、3.42% 和 10.34%。

如下图所示,voyage-multimodal-3 的性能分别比 OpenAI v3 large 和 Cohere multimodal/English1 v3 高出 5.13% 和 13.70%。voyage-multimodal-3 的性能比 voyage-3 高出 0.05%,因此两者在纯文本文档的检索准确率方面不相上下。

更多资料:

blog:

https://blog.voyageai.com/2024/11/12/voyage-multimodal-3/

sample notebook:

https://docs.voyageai.com/docs/multimodal-embeddings

docs:

https://docs.voyageai.com/docs/multimodal-embeddings

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
平顶山15岁女孩被鞋扇砖砸事件后续,女孩伤重未醒,全网求严惩

平顶山15岁女孩被鞋扇砖砸事件后续,女孩伤重未醒,全网求严惩

观察鉴娱
2026-02-22 15:19:39
美数百架战机集结,中俄舰艇都到了,还打不打伊朗?特朗普摊牌

美数百架战机集结,中俄舰艇都到了,还打不打伊朗?特朗普摊牌

知鉴明史
2026-02-21 21:09:12
谷爱凌终获金牌!但她说:人们之所以对我有意见,是因为讨厌中国

谷爱凌终获金牌!但她说:人们之所以对我有意见,是因为讨厌中国

行者殷涛
2026-02-22 19:27:42
自由式滑雪GOAT!谷爱凌两届冬奥3金3银,已成历史第一人

自由式滑雪GOAT!谷爱凌两届冬奥3金3银,已成历史第一人

奥拜尔
2026-02-22 20:01:51
特朗普:关税从10%升至15%!但不针对中国

特朗普:关税从10%升至15%!但不针对中国

魏家东
2026-02-22 08:29:23
从感冒到离世仅5天!唐山“钓帝”安大爷去世,儿子:太快了没来得及留遗言,父亲本打算开春去钓鱼

从感冒到离世仅5天!唐山“钓帝”安大爷去世,儿子:太快了没来得及留遗言,父亲本打算开春去钓鱼

芒果都市
2026-02-22 12:31:26
张艺谋:第一次见她,我对她说,你等着我们来找你,不要乱演电影

张艺谋:第一次见她,我对她说,你等着我们来找你,不要乱演电影

秀语千寻
2026-02-22 19:28:42
5金收官,谷爱凌、李方慧包揽U型池前2名,奖牌榜排名猝不及防

5金收官,谷爱凌、李方慧包揽U型池前2名,奖牌榜排名猝不及防

真理是我亲戚
2026-02-22 19:07:44
美国空军交付全球首台5兆瓦微型核反应堆

美国空军交付全球首台5兆瓦微型核反应堆

cnBeta.COM
2026-02-22 07:34:18
悲催!网传广东今年卖年桔的亏大,一盆进货八九十,30元都卖不出

悲催!网传广东今年卖年桔的亏大,一盆进货八九十,30元都卖不出

火山詩话
2026-02-22 09:48:11
伊朗要死!

伊朗要死!

求实处
2026-02-22 17:53:28
90位外嫁女集体回村过年,当事人:这是娘家最珍贵的礼物,见到了多年未见的小伙伴

90位外嫁女集体回村过年,当事人:这是娘家最珍贵的礼物,见到了多年未见的小伙伴

极目新闻
2026-02-22 18:58:23
男子参加“王婆说媒”,自称“在政府机关上班”、有豪车及多套房,官方回应

男子参加“王婆说媒”,自称“在政府机关上班”、有豪车及多套房,官方回应

上观新闻
2026-02-22 14:29:06
看完破防了!真是“满载而归”,在G4京港澳高速粤L本田登上热搜

看完破防了!真是“满载而归”,在G4京港澳高速粤L本田登上热搜

火山詩话
2026-02-22 08:29:48
马年春节里,为什么没什么人争论,该买油车还是买电车了

马年春节里,为什么没什么人争论,该买油车还是买电车了

路咖汽车
2026-02-20 10:36:41
GPU要凉?前英伟达AMD大神将AI刻在芯片上!17000 tokens/秒屠榜

GPU要凉?前英伟达AMD大神将AI刻在芯片上!17000 tokens/秒屠榜

新智元
2026-02-22 17:05:04
河南矿山开工首日客户排队交钱,100万现金放桌上,每个订单都会给顾客400元红包!此前“最爱发钱老板”崔培军发1.8亿年终奖全网爆火

河南矿山开工首日客户排队交钱,100万现金放桌上,每个订单都会给顾客400元红包!此前“最爱发钱老板”崔培军发1.8亿年终奖全网爆火

大象新闻
2026-02-22 13:48:04
谷爱凌:我对自己非常自豪!真的不可思议,6次参赛6次获奖牌

谷爱凌:我对自己非常自豪!真的不可思议,6次参赛6次获奖牌

奥拜尔
2026-02-22 20:03:11
152万只能卖55万,19000一平跌到2900,房产信仰的破碎!

152万只能卖55万,19000一平跌到2900,房产信仰的破碎!

A活着
2026-02-21 18:38:13
2026年的保命策略:在这3个地方,主动选择装穷

2026年的保命策略:在这3个地方,主动选择装穷

舒山有鹿
2026-02-21 10:48:07
2026-02-22 22:35:00
人工智能研究 incentive-icons
人工智能研究
分享深度学习、CV、NLP
297文章数 134关注度
往期回顾 全部

科技要闻

马斯克:星舰每年将发射超过10000颗卫星

头条要闻

中国游客与贝加尔湖8死事故擦肩而过:曾踩过出事冰缝

头条要闻

中国游客与贝加尔湖8死事故擦肩而过:曾踩过出事冰缝

体育要闻

自由式滑雪U型池 谷爱凌成功卫冕

娱乐要闻

裴世矩养侄为刃 看懂两次放行裴行俨!

财经要闻

特朗普新加征关税税率从10%提升至15%

汽车要闻

续航1810km!smart精灵#6 EHD超级电混2026年上市

态度原创

亲子
教育
本地
房产
公开课

亲子要闻

萌娃竟想让爸爸被抓走?原因真是太逗了

教育要闻

本科生,就业去哪了?

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

房产要闻

窗前即地标!独占三亚湾C位 自贸港总裁行宫亮相

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版