网易首页 > 网易号 > 正文 申请入驻

为什么大部分 RAG 应用都死在了规模化这道坎上?

0
分享至


“你的语义检索应用,正在被检索延迟拖垮。”

作者 | OpenSearch 团队

责编 | 唐小引

出品 | CSDN(ID:CSDNnews)

搜索巨头的战略转向

2025 年 10 月 9 日,搜索行业传来一个震撼性消息:。这不仅仅是一次商业并购,更是老牌搜索巨头对未来技术趋势的战略性押注。

对于后端工程师来说,Elasticsearch(简称 ES)几乎是必备工具——无论是公司内部的日志分析、用户行为追踪,还是商品信息检索,只要涉及“搜索”功能,基本都离不开它。可以说,ES 就是全球无数公司后台数据的“超级图书管理员”。而 Jina AI 则是一家专注于搜索基础模型的创业公司,以其 Jina Embeddings 系列模型在业界闻名。

这次收购背后的深层逻辑很明确:搜索技术正在经历从“关键词匹配”向“语义理解”的根本性转变。传统搜索只能进行字面匹配,而语义检索能够理解概念之间的关联——当用户询问“如何提升销售业绩”时,系统能够智能地匹配包含“营收增长策略”的相关文档。

每个 AI 开发者都在经历的痛苦

但即使有了最好的语义理解能力,当你开始构建真正的 RAG 应用时,现实依然残酷。

如果你正在开发 RAG 应用,或者负责企业级 AI 搜索系统,那你肯定遇到过这个场景:产品 Demo 跑得很顺,小规模测试效果不错,老板也很满意。但当你开始处理真实业务数据时,问题来了。

检索延迟高得让人崩溃。

百万级文档时,查询还算流畅,50-100ms 的响应时间用户还能接受。但当数据规模到了千万级,延迟开始飙升到 200-500ms,用户开始感觉到明显的卡顿。等到了亿级文档,延迟直接飙到 1-2 秒,用户开始抱怨。而当你真正面对十亿级文档时,5 秒以上的响应时间让系统完全不可用。

更要命的是,这还只是单用户查询。一旦并发上来,系统直接崩溃。用户等不了,老板等不了,业务等不了。这就是现实:大部分 RAG 应用,都死在了规模化这道坎上。

为什么传统方案扛不住大规模?

你可能试过各种优化方案。稠密向量检索的语义理解能力很强,但计算量巨大。每次查询都要计算 768 维、1024 维的向量相似度,数据量一大,延迟直接爆炸。即使采用了 HNSW 这类近似搜索算法,当数据集量级上来后,查询延时依然居高不下,同时还需要消耗大量内存资源。

传统关键词搜索像 BM25 虽然速度很快,但语义理解能力有限。“汽车”和“车辆”这样的同义词都匹配不上,用户体验极差。

你也试过混合检索,采用两阶段的方式,先用关键词粗排再用向量精排。但这样做复杂度翻倍,延迟依然很高,问题并没有得到根本解决。

你陷入了一个经典的两难困境:要么快但不准,要么准但不快。

神经稀疏检索:鱼与熊掌兼得

其实,学术界早就有答案了:神经稀疏检索。这项技术巧妙地融合了传统关键词搜索和现代语义理解的优势,真正实现了“鱼与熊掌兼得”。

长期以来,搜索领域面临着一个经典的两难选择:要么选择语义理解能力强但成本高昂的稠密向量检索,要么选择高效但“不够聪明”的传统关键词检索。这就像是在“鱼”和“熊掌”之间做选择——开发者们很难同时拥有两者的优势。

稠密向量检索(Dense Retrieval)——语义理解的“熊掌”:

  • 将文本编码为高维向量(如 768 维、1024 维);

  • 语义理解能力强,能处理同义词、多语言查询;

  • 但需要大量硬件资源,存储和计算成本高昂。

稀疏关键词检索(如 BM25)——高效计算的“鱼”:

  • 基于词频统计,存储和计算效率极高;

  • 但缺乏语义理解,面对“汽车”和“车辆”这样的同义词就束手无策。

神经稀疏检索的革命性创新在于,它打破了这个传统的二选一困境。通过将文本转换为“Token-权重”的稀疏向量表示,它巧妙地将神经网络的语义理解能力与稀疏表示的计算效率完美结合。比如“人工智能改变世界”可能被编码为:

}

这种表示方式的妙处在于真正实现了“鱼与熊掌兼得”:

1. 语义理解:神经网络能够学习到“人工智能”和“AI”的关联,甚至跨语言的语义映射;

2. 兼容传统索引:可以直接使用 Lucene 等成熟的倒排索引技术,无需重新造轮子;

3. 存储高效:绝大部分 token 的权重为 0,只需存储非零项,存储成本远低于稠密向量;

4. 计算友好:无需复杂的向量相似度计算,可以利用传统的倒排索引快速检索。

更重要的是,这种“兼得”不是简单的妥协,而是在保持语义理解能力的同时,实现了比传统方法更高的效率。这就为后续 Seismic 算法的突破奠定了坚实的技术基础。

十亿级规模仍是挑战

早在 2023 年,开源搜索引擎 OpenSearch 就已支持神经稀疏检索,很多用户也在用。但当数据规模到了十亿级时,新的挑战出现了。

查询延迟依然偏高,达到 125ms 以上。在这种规模下,即使是稀疏向量检索,也需要处理海量的候选文档,计算开销依然不容小觑。

这时候你开始思考:在十亿级数据面前,是不是还需要更进一步的优化策略?

就在此时,OpenSearch 研发团队带来了突破性的解决方案 ——Seismic 算法,专为十亿级神经稀疏检索设计的性能引擎,重新定义大规模检索。

在最新发布的 OpenSearch 3.3 版本中,全新的 Seismic 算法将神经稀疏检索的性能推向了新的高度。这不是又一个“理论上很美好”的学术成果,而是经过十亿级真实数据验证的工程突破:

  • 查询延迟仅 11.77ms —— 比传统神经稀疏检索快 10 倍以上;

  • 保持 90%召回率 —— 检索质量几乎无损失;

  • 吞吐量提升 100% —— 相同硬件配置下处理能力翻倍。

这不是渐进式的优化,而是颠覆性的性能突破。

这是什么概念?你的 RAG 应用终于可以在十亿级文档中实现毫秒级响应,同时保持接近完美的语义理解能力。

Seismic 如何做到的?

Seismic 的核心思路是做减法,而不是加法。不是让计算更快,而是让无效计算消失。

第一个突破是双重索引结构。传统方案只有倒排索引,Seismic 创新性地引入了正向索引,两者配合实现智能剪枝,大幅减少需要计算的候选文档数量。

第二个突破是聚类优化。Seismic 对相似文档进行聚类,每个聚类只维护一个精简摘要,这样在查询时可以快速跳过整个聚类,避免逐一计算每个文档的相似度。

第三个突破是动态剪枝策略。根据查询特征动态调整剪枝阈值,对于简单查询使用更激进的剪枝,对于复杂查询保持更高的精度,最终跳过 99%的无效计算。


为了验证 Seismic 算法的实际效果,OpenSearch 团队在 12.9 亿文档的 C4 Dolma 数据集上进行了全面的性能测试。这个数据集包含了来自互联网的大规模文本数据,是检验大规模检索算法的理想测试平台。


从数据可以看出,Seismic 不仅在延迟方面实现了数量级的提升,在吞吐量方面也有了显著的改善,同时还保持了接近完美的召回率。这意味着开发者可以在不牺牲检索质量的前提下,获得前所未有的性能体验。

5 分钟上手:让你的 RAG 应用飞起来

别光看数据,自己试试才知道效果。OpenSearch 3.3 已经集成了 Seismic,5 分钟就能体验 Seismic 算法。

第 1 步:设置集群配置

首先,设置集群配置,使模型能够在本地集群上运行。

}

第 2 步:部署稀疏编码模型

目前,Opensearch 已经开源了 10 个稀疏向量编码模型,相关注册信息都可以在官方文档[1]中获取。我们以

amazon/neural-sparse/opensearch-neural-sparse-encoding-doc-v3-gte
为例,首先使用 register API 来注册:

}

在集群的返回中,可以看到 task_id:

}

用 task_id 来得到详细的注册信息:

GET /_plugins/_ml/tasks/

在 API 返回中,我们可以拿到具体的 model_id:

}

第 3 步:创建 Seismic 索引

}

第 4 步:设置预处理器

在导入文档之前,每个文档中需要编码的文本字段都要转换成稀疏向量。在 OpenSearch 中,这一过程是通过预处理器来自动实现的。你可以使用以下 API 来创建离线索引时的处理器管线:

}

第 5 步:使用预处理器导入文档并搜索

在设置索引之后,用户可以导入文档。用户提供文本字段,预处理器会自动将文本内容转换为稀疏向量,并根据预处理器中的字段映射 field_map 将其放入 sparse_vector 字段:

}

在索引中进行稀疏语义搜索的接口如下,将 替换为第二步中注册的 model_id:

}

当你导入百万量级以上的数据后,你就能感受到毫秒级的延迟,这种性能提升是立竿见影的。

这意味着什么?RAG 应用的新时代

Seismic 不只是性能优化,它重新定义了 RAG 应用的可能性。

对于企业级应用来说,你终于可以在全量历史数据上做实时问答,不用再为了性能牺牲数据完整性。用户可以在包含十年业务数据的知识库中秒级找到答案,这种体验提升是质的飞跃。

对于 AI 产品开发者来说,你可以支持更大规模的知识库,实时性要求不再是瓶颈。你有更多精力 focus 在业务逻辑和用户体验上,而不是被底层的性能问题困扰。

对于技术团队来说,你不用再在“快”和“准”之间纠结,可以在更大规模数据上验证想法,有机会构建真正的十亿级 AI 应用。

展望未来:智能检索的下一个十年

从 BM25 到稠密向量,再到今天的 Seismic 稀疏向量检索,我们见证了搜索技术的每一次跃进。但这只是开始。

当十亿级实时检索成为标配,当语义理解变得如此高效,我们有理由相信更多激动人心的应用将成为现实。多模态检索将不再是梦想,文本、图像、音频可以统一检索。个性化语义理解将普及,每个用户都可以拥有专属的语义模型。实时知识更新将实现,新信息可以秒级同步到检索系统。

下一代的 AI 应用,将建立在这样的技术基础之上。而 Seismic,正是通往这个未来的第一步。

技术的进步从来不会停止,AI 领域更是日新月异。Seismic 算法的出现,让我们看到了大规模智能检索的新可能。它不是终点,而是一个新的起点。

OpenSearch 3.3 已经发布,Seismic 算法等待着你的探索。也许,下一个改变行业的 RAG 应用,就诞生在你的键盘下。

未来已来,只是尚未流行。

相关资源:

[1] OpenSearch 官方文档:https://docs.opensearch.org/latest/ml-commons-plugin/pretrained-models/

[2] Seismic 算法论文:https://dl.acm.org/doi/10.1145/3626772.3657769

[3] GitHub 项目地址:https://github.com/opensearch-project/neural-search

作者简介:


OpenSearch 是亚马逊云科技(AWS)旗下的搜索引擎。本文作者朱煜烨、秀丽蕴、宋梓睿、杨扬来自上海 OpenSearch 团队,这是 AWS 在中国唯一的核心研发团队,致力于将机器学习与现代搜索应用深度融合,专注于大模型应用、神经稀疏搜索、检索增强生成(RAG)及搜索性能优化等前沿技术。


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
03年湖南一女教师莫名离世,6次尸检后得出结论:特殊性方式导致

03年湖南一女教师莫名离世,6次尸检后得出结论:特殊性方式导致

历来都很现实
2024-11-23 16:03:32
工地男子扛蛇皮袋坐软卧被乘客举报,乘警检查后,全车人集体起立

工地男子扛蛇皮袋坐软卧被乘客举报,乘警检查后,全车人集体起立

悬案解密档案
2025-07-14 16:42:58
万科创始人王石回应离婚传闻

万科创始人王石回应离婚传闻

地产微资讯
2026-01-06 13:49:02
大反转!特朗普宣布,普京住所附近有事,但与乌克兰无人机无关

大反转!特朗普宣布,普京住所附近有事,但与乌克兰无人机无关

奇思妙想生活家
2026-01-06 15:30:37
分析:老鹰队准备放人,特雷·杨最有可能的六大交易目的地

分析:老鹰队准备放人,特雷·杨最有可能的六大交易目的地

好火子
2026-01-07 06:07:14
“中国宜家”崩了,创始人套现200亿离场,美的太子接盘血亏?

“中国宜家”崩了,创始人套现200亿离场,美的太子接盘血亏?

蜉蝣说
2025-12-23 20:00:55
比人参还稀罕!03年被送上太空,培育后产量爆发,帮全县赚超18亿

比人参还稀罕!03年被送上太空,培育后产量爆发,帮全县赚超18亿

万象硬核本尊
2026-01-05 17:10:35
45岁董洁街头被抓拍!苹果肌下垂褶子多,一脸凶相让人有些怕

45岁董洁街头被抓拍!苹果肌下垂褶子多,一脸凶相让人有些怕

小徐讲八卦
2026-01-07 07:13:54
童锦程孩子妈晒照,有颜值有身材,难怪孩子好看,舆论风向变了

童锦程孩子妈晒照,有颜值有身材,难怪孩子好看,舆论风向变了

非常先生看娱乐
2026-01-06 18:00:27
战争让俄本地男性“消失”,炼油厂都是外国男人在排队进厂上班

战争让俄本地男性“消失”,炼油厂都是外国男人在排队进厂上班

桂系007
2025-12-08 23:55:19
核心 | 【AI医疗+脑机接口】概念最核心的 10 家上市公司

核心 | 【AI医疗+脑机接口】概念最核心的 10 家上市公司

飞跑的鹿
2026-01-06 20:47:20
美媒:参与对委军事行动的十余架F-22“猛禽”战斗机离开波多黎各

美媒:参与对委军事行动的十余架F-22“猛禽”战斗机离开波多黎各

环球网资讯
2026-01-06 17:21:37
一个都跑不掉!华为600万年薪高管,带13人偷芯片,如今下场解气

一个都跑不掉!华为600万年薪高管,带13人偷芯片,如今下场解气

涵豆说娱
2025-11-07 17:47:01
商场的B1、B2层,“B”是什么意思?一个字母测试你的英文水平!

商场的B1、B2层,“B”是什么意思?一个字母测试你的英文水平!

镇江风情
2026-01-04 14:45:14
中国总人口再下降,二胎三胎没人生,专家给出多条建议,却遭吐槽

中国总人口再下降,二胎三胎没人生,专家给出多条建议,却遭吐槽

春秋论娱
2026-01-04 17:48:25
意甲最新积分战报 争4惨烈!尤文力压罗马守住第4 黑马3连胜紧追

意甲最新积分战报 争4惨烈!尤文力压罗马守住第4 黑马3连胜紧追

狂言体育
2026-01-07 07:05:39
比马杜罗遭遇更离奇:美国抓捕“中美亲善大使”,结局出乎意料!

比马杜罗遭遇更离奇:美国抓捕“中美亲善大使”,结局出乎意料!

华人星光
2026-01-06 12:18:23
1976年,河南一墓葬出土,证明她不是神话人物,而是真实存在的

1976年,河南一墓葬出土,证明她不是神话人物,而是真实存在的

浩渺青史
2026-01-07 02:39:42
纽卡官方分享复古训练服套装:回到90年代感觉不错

纽卡官方分享复古训练服套装:回到90年代感觉不错

懂球帝
2026-01-06 20:09:06
比恒大还惨!中国第二大民企倒了,负债7500亿,创始人被带走

比恒大还惨!中国第二大民企倒了,负债7500亿,创始人被带走

芳芳历史烩
2025-12-25 20:32:52
2026-01-07 08:35:00
CSDN incentive-icons
CSDN
成就一亿技术人
26237文章数 242211关注度
往期回顾 全部

科技要闻

米粉终于赢了一次

头条要闻

河北农村居民:"煤改气"后 160平空间燃气费最少8千元

头条要闻

河北农村居民:"煤改气"后 160平空间燃气费最少8千元

体育要闻

从NBA最菜首发控卫,到NBA最强乔治

娱乐要闻

2026年央视春晚彩排照曝光!

财经要闻

50万亿存款"洪流"将至 四大去向引关注

汽车要闻

摩登出街潮品 实拍奇瑞QQ冰淇淋女王版

态度原创

健康
旅游
艺术
公开课
军事航空

这些新疗法,让化疗不再那么痛苦

旅游要闻

传统与现代交融,释放消费更大潜力(新年谈“新”·五位文旅从业人士谈文旅深度融合)

艺术要闻

行书正道:探讨《圣教序》与《兰亭序》的发展历程

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美称对“占领”委内瑞拉保留选择权

无障碍浏览 进入关怀版