网易首页 > 网易号 > 正文 申请入驻

开源嵌入模型对比:让你的RAG检索又快又准

0
分享至

嵌入(Embedding)是RAG流程里非常关键的一个步骤。它处理的是数据提取和分块之后的内容,嵌入的好坏直接影响系统能不能准确地表示和检索信息。这篇文章会讲清楚嵌入是什么、怎么工作的,还有怎么挑选合适的模型。

经典的RAG工作流

典型的RAG流程包含这几步:

首先是数据提取,从文档、网站、数据库等数据来源收集文本。然后分块,把文本切成更小但有意义的单元,并且要保持上下文完整。接着就需要嵌入处理,把每个分块转成固定长度的数值向量。然后向量存储这步把嵌入放进向量数据库,常用的有FAISS、Weaviate、Pinecone这些。

最后是检索和生成。用户查询进来后,先把查询嵌入,找到语义相似的向量,再用这些向量生成回答。



嵌入步骤保证了语义相似的文本在向量空间里位置相近,这样检索就不是简单的关键词匹配,而是基于实际含义。

向量空间表示的基本原理

嵌入模型做的事情是把输入文本变成向量——一串代表语义含义的浮点数。这个向量存在于高维空间,距离远近反映相似程度。

相似句子的向量靠得近,不相似的就隔得远。

举个例子:

"AI helps companies innovate"

"Artificial intelligence supports business automation"

用词完全不一样,但表达的意思接近,生成的向量也就相近。这种几何表示让检索系统可以用余弦相似度或点积来衡量语义距离。

嵌入模型的关键参数

选模型时几个技术指标很重要:输入序列长度、输出维度、归一化方式、批处理能力。

Hugging Face的MTEB(Massive Text Embedding Benchmark)基准测试把这些参数都列得很清楚,方便对比不同模型在各类任务上的表现,也能看出它们怎么处理语义相似性、检索和多语言场景。



输入序列长度

这个参数决定模型一次能处理多少token。分块超过这个限制就得截断或者再切小,所以它也暗示了最优分块大小。分块太长被截断了,上下文丢失会影响检索质量。

输出维度

就是每个嵌入向量里数值的个数。常见的有384、768、1024、1536、2048这些,取决于模型架构。

高维嵌入能捕捉更丰富细腻的语义关系,检索准确率会提升,代价是存储成本高、向量搜索变慢。低维嵌入在大规模检索时更快更省资源,但语义深度和精度会打折扣。



归一化和相似性度量

有些模型输出的向量已经归一化了(长度为1),直接算余弦相似度很方便。但也有模型输出未归一化的向量,索引前得手动归一化。不归一化的话,向量数据库可能把向量大小差异当成语义距离,导致相似度分数不准。

批处理能力

支持批量推理的模型能同时处理多个分块,对大规模RAG流程的吞吐量提升明显。

常用的开源嵌入模型

搞清楚向量是什么、嵌入怎么工作之后,可以看看具体有哪些开源模型可用。这些模型架构、维度、多语言支持各不相同,但目的都一样:把文本变成有意义的数值表示,驱动语义搜索和知识检索。

几个下载量和benchmark表现都不错的开源模型:

all-MiniLM-L6-v2



维度:384
性能:处理短到中等长度文本速度快,效率高
用例:低延迟生产系统,成本敏感的检索任务
评价:体积小但语义关系捕捉能力够用

使用方式(Sentence-Transformers):

pip install -U sentence-transformers
from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence", "Each sentence is converted"]
model = SentenceTransformer('sentence-transformers/all-MiniLM-L6-v2')
embeddings = model.encode(sentences)
print(embeddings)

all-mpnet-base-v2



维度:768
性能:上下文理解能力强,嵌入质量高
用例:通用语义搜索和聚类
评价:准确性和速度平衡得不错

使用方式(Sentence-Transformers):

pip install -U sentence-transformers
from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence", "Each sentence is converted"]
model = SentenceTransformer('sentence-transformers/all-mpnet-base-v2')
embeddings = model.encode(sentences)
print(embeddings)

Jina Embeddings v3



支持100多种语言,上下文窗口大。短文档和长文档都能保持稳定表现。

维度:可配置(512–1024)
性能:最长支持8000 token,多语言覆盖广
用例:大规模语义搜索、RAG、混合检索系统
评价:可扩展性和质量平衡做得好

使用方式(Sentence-Transformers):

!pip install -U sentence-transformers
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("jinaai/jina-embeddings-v3", trust_remote_code=True)
task = "retrieval.query"
embeddings = model.encode(
["What is the weather like in Berlin today?"],
task=task,
prompt_name=task,
)

multilingual E5 (e5-base-v2)

跨语言的准确性和效率比较均衡,适合多语言语义检索和问答系统。



使用方式(Sentence-Transformers):

pip install sentence_transformers~=2.2.2
from sentence_transformers import SentenceTransformer
model = SentenceTransformer('intfloat/multilingual-e5-base')
input_texts = [
'query: how much protein should a female eat',
'query: 南瓜的家常做法',
"passage: As a general guideline, the CDC's average requirement of protein for women ages 19 to 70 is 46 grams per day. But, as you can see from this chart, you'll need to increase that if you're expecting or training for a marathon. Check out the chart below to see how much protein you should be eating each day.",
"passage: 1.清炒南瓜丝 原料:嫩南瓜半个 调料:葱、盐、白糖、鸡精 做法: 1、南瓜用刀薄薄的削去表面一层皮,用勺子刮去瓤 2、擦成细丝(没有擦菜板就用刀慢慢切成细丝) 3、锅烧热放油,入葱花煸出香味 4、入南瓜丝快速翻炒一分钟左右,放盐、一点白糖和鸡精调味出锅 2.香葱炒南瓜 原料:南瓜1只 调料:香葱、蒜末、橄榄油、盐 做法: 1、将南瓜去皮,切成片 2、油锅8成热后,将蒜末放入爆香 3、爆香后,将南瓜片放入,翻炒 4、在翻炒的同时,可以不时地往锅里加水,但不要太多 5、放入盐,炒匀 6、南瓜差不多软和绵了之后,就可以关火 7、撒入香葱,即可出锅"
]
embeddings = model.encode(input_texts, normalize_embeddings=True)

模型选择

选哪个嵌入模型得看分块大小、内存限制和具体用例。

分块大小和输入长度大分块需要token限制高的模型,避免截断导致上下文丢失。

内存和维度高维嵌入(1024–2048)语义更丰富但占内存、搜索慢;低维(384–768)更快更轻但语义深度有损失。

语言支持英语数据用MiniLM或MPNet就够了;多语言任务Jina v3、EmbeddingGemma、E5这些更合适

可扩展性批处理和动态维度嵌入(Matryoshka)能帮助高效处理大数据集。

好的模型要在准确性、效率和系统约束之间找到平衡,契合RAG流程的实际需求。说白了,RAG系统的智能程度取决于嵌入的质量。

总结

嵌入这一步把非结构化文本转成结构化的、有语义含义的向量,这是RAG系统智能检索的基础。

英语数据集用MiniLM和MPNet还是靠谱的。多语言或阿拉伯语数据就得用Jina Embeddings或E5这种跨语言理解能力强的模型。

嵌入让文本变成可处理的数据,让含义变得可测量。
RAG系统的强弱取决于它依赖的嵌入质量。

https://avoid.overfit.cn/post/8224fc3532aa44e588d9882d16e2b6b2

作者:Ahmed Boulahia

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
俄罗斯在库页岛发现汉字石碑,我国专家赶到后,碑上内容让人尴尬

俄罗斯在库页岛发现汉字石碑,我国专家赶到后,碑上内容让人尴尬

疯狂的小历史
2026-01-16 11:35:56
600亿抄底!美财长的学生竟然收购了中国万达,难怪王健林会输!

600亿抄底!美财长的学生竟然收购了中国万达,难怪王健林会输!

蜉蝣说
2026-01-11 17:51:23
上甘岭战役,美军为何不用喷火器?志愿军的办法,让美军头疼不已

上甘岭战役,美军为何不用喷火器?志愿军的办法,让美军头疼不已

墨说古今
2026-01-05 16:37:54
45岁仍拍三级片,败光两任亿万家产,62岁坦言后悔嫁给钟镇涛

45岁仍拍三级片,败光两任亿万家产,62岁坦言后悔嫁给钟镇涛

无人倾听无人倾听
2026-01-17 15:17:25
最小红军向轩:7岁投身革命9岁长征路,1955年授衔他获封什么军衔

最小红军向轩:7岁投身革命9岁长征路,1955年授衔他获封什么军衔

磊子讲史
2026-01-14 11:16:27
女子连续五天向出轨丈夫公开“道歉” 律师:声明内容须经法院审核

女子连续五天向出轨丈夫公开“道歉” 律师:声明内容须经法院审核

封面新闻
2026-01-17 13:33:30
王者回归!全红婵重返国家队,陈若琳押对了,能冲洛杉矶奥运吗

王者回归!全红婵重返国家队,陈若琳押对了,能冲洛杉矶奥运吗

卿子书
2026-01-17 11:22:03
吴彦祖稍微倒腾一下,还是一骑绝尘。如果他再植发,还要年轻20岁

吴彦祖稍微倒腾一下,还是一骑绝尘。如果他再植发,还要年轻20岁

付老师种植技术团队
2026-01-04 15:30:22
恭喜!中国美女高尔夫球手官宣订婚,未婚夫为泰国著名F1车手

恭喜!中国美女高尔夫球手官宣订婚,未婚夫为泰国著名F1车手

全景体育V
2026-01-17 07:48:47
26+6!威少暴揍老东家,舒服~

26+6!威少暴揍老东家,舒服~

柚子说球
2026-01-17 19:13:30
破防了!原来只要失业,所有人都一样!网友:人都快抑郁了

破防了!原来只要失业,所有人都一样!网友:人都快抑郁了

另子维爱读史
2026-01-16 21:03:12
“油耗子”越南付出代价,盗挖中国石油数十年,最终付出惨痛代价

“油耗子”越南付出代价,盗挖中国石油数十年,最终付出惨痛代价

壹知眠羊
2026-01-17 16:29:52
成都警方通报一起金店被盗案:已抓获5名嫌疑人,赃物全部追回

成都警方通报一起金店被盗案:已抓获5名嫌疑人,赃物全部追回

澎湃新闻
2026-01-16 22:15:03
深圳一公交广告惹争议,网友:为了孩子怎样都值

深圳一公交广告惹争议,网友:为了孩子怎样都值

映射生活的身影
2026-01-15 13:50:18
楼上大爷偷我快递不认,我换地址把寄去公司,几天后物业打来电话

楼上大爷偷我快递不认,我换地址把寄去公司,几天后物业打来电话

秋风专栏
2025-10-06 11:43:21
医生问“自费还是医保”,千万记住这3句话,能省好几千!

医生问“自费还是医保”,千万记住这3句话,能省好几千!

据说说娱乐
2026-01-16 12:20:31
三次婚姻两度丧子!59岁无子女的张卫健,王晶为何称毫无悲惨

三次婚姻两度丧子!59岁无子女的张卫健,王晶为何称毫无悲惨

胡一舸南游y
2026-01-17 13:40:05
分手14年,释小龙何洁境遇天差地别,一个身家过亿,一个养不起娃

分手14年,释小龙何洁境遇天差地别,一个身家过亿,一个养不起娃

查尔菲的笔记
2026-01-09 22:17:44
嫁法国老头真相大白5个月,41岁李宇春近况曝光,一点也不意外

嫁法国老头真相大白5个月,41岁李宇春近况曝光,一点也不意外

小熊侃史
2026-01-17 07:50:11
敢赢陈毅元帅三步棋的聂卫平,为何从不利用他的顶级人脉?

敢赢陈毅元帅三步棋的聂卫平,为何从不利用他的顶级人脉?

刘哥谈体育
2026-01-17 10:41:47
2026-01-17 19:47:00
deephub incentive-icons
deephub
CV NLP和数据挖掘知识
1892文章数 1443关注度
往期回顾 全部

科技要闻

8亿周活扛不住烧钱 ChatGPT终向广告"低头"

头条要闻

美交通部长:进口4.9万辆中国电动汽车 加拿大要后悔

头条要闻

美交通部长:进口4.9万辆中国电动汽车 加拿大要后悔

体育要闻

三巨头走了俩,联盟笑柄却起飞了

娱乐要闻

徐家还是爱孩子的,在马筱梅生产前选择和解

财经要闻

保不准,人民币会闪击6.8!

汽车要闻

林肯贾鸣镝:稳中求进,将精细化运营进行到底

态度原创

教育
时尚
房产
健康
艺术

教育要闻

听说很多人被这道小学题难倒了?

岁月不败美人,50岁她们比20岁更好看

房产要闻

真四代来了!这次,海口楼市将彻底颠覆!

血常规3项异常,是身体警报!

艺术要闻

张旭偷传颜真卿的“书法秘诀”!把这12条看懂,保你少走10年弯路

无障碍浏览 进入关怀版