网易首页 > 网易号 > 正文 申请入驻

NVIDIA 文本嵌入模型位列 MTEB 排行榜榜首

0
分享至

NVIDIA 的最新嵌入模型 NV-Embed —— 以 69.32 的分数创下了嵌入准确率的新纪录海量文本嵌入基准测试(MTEB)涵盖 56 项嵌入任务。

NV-Embed 等高度准确有效的模型是将大量数据转化为可操作见解的关键。NVIDIA 通过 NVIDIA API 目录提供性能一流的模型。

由 LLM 提供支持的“与您的数据对话”流程严重依赖 embedding model,例如 NV-Embed,它通过将英语单词转换为文本中信息的压缩数学表示形式来创建非结构化文本的语义表示。这种表示通常存储在 vector database 中,以便日后使用。

当用户提出问题时,系统会对问题的数学表征和所有基础数据块进行比较,以检索最有用的信息来回答用户的问题。

请注意,此特定模型只能用于非商业用途。

分解基准

在讨论模型的准确率数字之前,讨论基准测试很重要。本节简要介绍有关理解基准测试的详细信息。我们的深入探讨评估适用于企业级 RAG 的 Retriever 是获取更多信息的绝佳资源。

了解嵌入模型的指标

从我们将讨论的基准测试指标开始,主要有两个注意事项:

  • Normalized Discounted Cumulative Gain(NDCG)是一个排名感知指标,用于衡量检索到的信息的相关性和顺序。简言之,如果我们有 1,000 个 chunks 并检索 10 (NDCG@10),那么当最相关的 chunk 排名第一、第二相关的 chunk 排名第二,以此类推,直到第十个最相关的 chunk 位于第 10 位时,才会给出理想的分数。

  • Recall 是一个与排名无关的指标,用于测量检索到的相关结果的百分比。在这种情况下,如果我们有 1,000 个数据块并检索 10 个数据块(Recall@10),则如果选择了前 10 个最相关的数据块,则无论这些数据块的排名顺序如何,都将获得完美分数。

大多数基准测试都报告 NDCG@10,但由于大多数企业级检索增强生成(RAG)流程,我们建议使用 Recall@5。

什么是 MTEB 和 Beir?

检索流程的核心功能是将问题的语义表示与各种数据点进行比较。这自然会引导开发者提出几个后续问题:

  • 相同的表示是否可以用于不同的任务?
  • 如果我们缩小一项任务的范围,该模型是否擅长表示不同类型的问题或理解不同领域?

为了回答这些问题,我们研究了有关检索的文献中最常见的两个基准测试。

  • MTEB:此基准测试涵盖 56 项不同的任务,包括检索、分类、重新排名、聚类、总结等。根据您的目标,您可以查看代表您用例的精确任务子集。

  • BEIR:该基准测试专注于检索任务,并以不同类型和领域的问题(例如 fact-checking、biomedical questions 或检测重复性问题)的形式增加了复杂性。MTEB 在很大程度上是 BEIR 基准测试的超集,因此我们在大多数讨论中将专注于 MTEB。

NV-Embed 模型精度基准

现在我们已经讨论了基础基准测试和指标,我们来看看新模型 NV-Embed 的执行情况。

图 1. MTEB 基准测试中排名前 5 的模型

平均而言,NV-Embed 模型在 56 个任务中的跟踪准确度最佳,NDCG@10 分为 69.32(参见图 1)。

虽然 NV-Embed 涵盖了大多数模型架构和训练细节,准确率达到 69.32,以下总结了主要改进。

  • 新的 latent attention layer。我们引入了 latent attention layer,该层能够简化模型将一系列词(tokens sequence)的数学表示(embeddings)的过程。通常情况下,对于基于 BERT 的模型,这是通过求平均值来完成的,对于仅解码器的模型,则是通过关注 End-of-Sequence-Token()来完成的。

  • 两阶段学习过程。在第一阶段,使用 in-batch 负例对和 hard 负例对进行 contrastive 学习。简而言之,使用证据对和问题对。证据似乎回答了这些对中的问题,但如果您仔细观察,您会发现缺少基本信息。在第二阶段,来自非检索任务的数据混合在一起以进行 contrastive 学习,并且禁用 in-batch 负例训练。

现在自然而然的问题是,“这对我的企业检索工作负载的转换效果有多好。”

答案是,它取决于数据的性质和领域。对于每个基准测试,您必须评估单个数据集的相关性一般检索用例。

我们的关键要点是,虽然 19 个数据集构成了 BEIR 基准测试,但数据集 Quora 其中包含超出常规检索任务的问题。因此,我们建议查看更能代表工作负载的数据集子集,例如 Natural Questions 和 HotPotQA 数据集。有关上下文,请参阅以下代码段。

Quora 示例数据集的数据对专注于检索 Quora 上提出的其他类似问题。

Input: Which question should I ask on Quora?
Target: What are good questions to ask on Quora?

HotpotQA 示例问题通道对

Input-Question: Were Scott Derrickson and Ed Wood of the same nationality?

Target-Chunk: Scott Derrickson (born July 16, 1966) is an American director, screenwriter and producer. He lives in Los Angeles, California. He is best known for directing horror films such as “Sinister”, “The Exorcism of Emily Rose”, and “Deliver Us From Evil”, as well as the 2016 Marvel Cinematic Universe installment, “Doctor Strange.”

NQ 示例常规问题通道对

Input-Question: What is non-controlling interest on the balance sheet?


Target-Chunk: In accounting, minority interest (or non-controlling interest) is the portion of a subsidiary corporation’s stock that is not owned by the parent corporation. The magnitude of the minority interest in the subsidiary company is generally less than 50% of outstanding shares, or the corporation would generally cease to be a subsidiary of the parent.[1]

图 2. HotPotQA 和 NQ 上来自 MTEB 的前三个嵌入模型,它们很好地代表了通用检索用例

在图 2 中,NV-Embed 模型最适合用于表示这些用例的数据集。我们鼓励您对自己的数据重复此评估。如果您没有要测试的干净数据,我们建议找到表示您用例的子集。

立即开始原型设计

通过 API 目录体验 NV-Embed 模型。(https://build.nvidia.com/nvidia/nv-embed-v1)。

此外,使用 NVIDIA NeMo Retriever 微服务集合,该集合旨在使组织能够将自定义模型无缝连接到各种业务数据,并提供高度准确的响应。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
航天员黎家盈年收入多少?回来后享受什么待遇?

航天员黎家盈年收入多少?回来后享受什么待遇?

墨印斋
2026-05-26 09:56:09
山西矿难背后:通洲煤老板任铁柱的发家史

山西矿难背后:通洲煤老板任铁柱的发家史

舜口说
2026-05-26 10:04:19
美国副总统万斯或放弃2028年的美国总统竞选,接近特朗普的消息人士:“万斯在白宫中毫无存在感,鲁比奥比他更有魔力”

美国副总统万斯或放弃2028年的美国总统竞选,接近特朗普的消息人士:“万斯在白宫中毫无存在感,鲁比奥比他更有魔力”

极目新闻
2026-05-26 13:06:23
行车视频55公里/小时,监控抓拍却是121公里/小时;两张抓拍照间隔0.081秒,记者现场测算发现疑点

行车视频55公里/小时,监控抓拍却是121公里/小时;两张抓拍照间隔0.081秒,记者现场测算发现疑点

大风新闻
2026-05-25 22:28:10
央视曝光4种“致癌日用品”,家里千万别囤!很多人还被蒙在鼓里

央视曝光4种“致癌日用品”,家里千万别囤!很多人还被蒙在鼓里

奇妙的本草
2026-05-26 12:01:37
热!广东高“炎”值闷热天还要多久?

热!广东高“炎”值闷热天还要多久?

广东天气
2026-05-26 14:31:22
闹大了!庾澄庆不满自己被淘汰,公开内涵《歌手》节目组

闹大了!庾澄庆不满自己被淘汰,公开内涵《歌手》节目组

八卦南风
2026-05-26 12:02:25
国宴上桌,高层调研:一家民企密集被“看见”,什么信号?

国宴上桌,高层调研:一家民企密集被“看见”,什么信号?

智谷趋势
2026-05-20 17:04:05
张召忠曾预测:如果中国不用核武器,4小时就能拿下日本!

张召忠曾预测:如果中国不用核武器,4小时就能拿下日本!

贱议你读史
2026-05-24 00:17:43
中方通告全球,对菲律宾发布66号公告:马科斯明白,中国动真格了

中方通告全球,对菲律宾发布66号公告:马科斯明白,中国动真格了

影孖看世界
2026-05-26 12:53:24
朝鲜宣布停用中国卫星,改用俄罗斯卫星,无形中帮了中国一个忙

朝鲜宣布停用中国卫星,改用俄罗斯卫星,无形中帮了中国一个忙

怪味历史连连看
2026-05-26 05:55:10
俄罗斯大规模袭击基辅,效果等于零

俄罗斯大规模袭击基辅,效果等于零

刘耘博士
2026-05-26 10:26:06
俄罗斯最大的弊病就是舍不得放下远东!一旦放下,甚至能满血复活

俄罗斯最大的弊病就是舍不得放下远东!一旦放下,甚至能满血复活

抽象派大师
2026-05-25 16:41:16
尼克斯重返总决赛!布伦森1999年总决赛萌照曝光,冥冥自有天意

尼克斯重返总决赛!布伦森1999年总决赛萌照曝光,冥冥自有天意

仰卧撑FTUer
2026-05-26 14:34:08
窦唯女儿命运天壤之别:星二代与打工妹的差距

窦唯女儿命运天壤之别:星二代与打工妹的差距

蹲坑看世界
2026-05-25 20:53:59
双汇子公司猪肉抗生素超标37.5倍 长期摄入或致心血管副作用

双汇子公司猪肉抗生素超标37.5倍 长期摄入或致心血管副作用

闪电新闻
2026-05-25 21:26:10
华为最狠的还击:“我不跟着你玩了!”

华为最狠的还击:“我不跟着你玩了!”

丁刚看世界
2026-05-26 08:58:48
毒性堪比砒霜!正大量上市,一旦发苦赶紧吐掉!医生:煮熟也有毒

毒性堪比砒霜!正大量上市,一旦发苦赶紧吐掉!医生:煮熟也有毒

中吴网
2026-05-25 22:42:39
博主硬刚稻城亚丁后续:省道划分内部路,员工遭处罚,多方回应

博主硬刚稻城亚丁后续:省道划分内部路,员工遭处罚,多方回应

千言娱乐记
2026-05-26 11:37:21
伊朗宣布:击落

伊朗宣布:击落

环球时报国际
2026-05-25 23:33:26
2026-05-26 15:43:00
NVIDIA英伟达中国 incentive-icons
NVIDIA英伟达中国
英伟达(中国)官方账号
3529文章数 1453关注度
往期回顾 全部

科技要闻

今年秋季,麒麟芯片将首次落地"逻辑折叠"

头条要闻

外媒:中美身处两个"陷阱"之间 两国力求全都规避

头条要闻

外媒:中美身处两个"陷阱"之间 两国力求全都规避

体育要闻

上赛季差点降入英甲,下赛季要踢英超了

娱乐要闻

台媒贴脸!S妈被问大S嗑药当场沉默

财经要闻

中国铝行业爆单 下一个“煤炭”大周期?

汽车要闻

涉水加强 福特烈马亚马逊限量版上市 售价39.98万

态度原创

数码
旅游
教育
房产
本地

数码要闻

微星预告STRIKE ALLOY TMR & STRIKE NEXUS:智控中心键盘套装

旅游要闻

曹娥江不缺古今交融的流光溢彩,但我更喜欢江畔的乡村和田园野趣

教育要闻

5月24日河南平顶山高二男孩年级第一,数学稳定在140-150分

房产要闻

招商地产接盘碧桂园!海口这个烂尾豪宅,要彻底改命?

本地新闻

用云锦的方式,打开江苏南京

无障碍浏览 进入关怀版