RAG检索卡了3年，有人用推理模型把延迟压到1/10|向量|编码器|新论文

RAG检索卡了3年，有人用推理模型把延迟压到1/10

2026-04-10 09:59:17　来源: 赛博兰博

北京举报

分享至

2024年，企业部署RAG（检索增强生成，Retrieval Augmented Generation）的平均延迟是2.3秒。用户问一个复杂问题，系统要先拆解、再检索、最后生成——这套流程像快递分拣，包裹在三个仓库之间来回倒手。

更麻烦的是查询与文档的"语义错配"。用户问"哪款手机适合拍夜景"，文档里写的是"低光环境下的传感器表现"。传统双编码器（bi-encoder）把两边压成向量一比对，相似度得分惨淡，直接漏检。

双编码器的先天缺陷：它不会"想"

双编码器是当前RAG的行业标配。它用两个独立编码器分别处理查询和文档，训练目标是对比学习——让相关配对的向量靠近，无关配对的向量远离。

这套机制足够快，单次推理毫秒级。代价是彻底放弃推理能力：查询侧编码器看到"拍夜景"，不会自动关联"低光""传感器""ISO"这些概念。它只会机械地比对向量空间里的距离。

对比学习的目标函数决定了，双编码器擅长"匹配"而非"理解"。遇到需要多步推理的查询，比如"2023年发布、续航比前代提升20%以上的折叠屏手机"，它直接抓瞎。

最直接的解决方案是让大语言模型（LLM）先拆解查询：生成推理步骤，再编码检索。但自回归生成的延迟代价极高——每一步都要等模型逐个吐token，复杂查询的拆解可能耗时数秒。

新方案：用推理模型的"副产品"换速度

这篇论文的核心思路是"偷换时间维度"。作者注意到，现代推理模型（如DeepSeek-R1、OpenAI的o系列）在生成最终答案前，会先输出思维链（Chain-of-Thought）。这些中间推理步骤恰好包含查询的语义扩展。

关键洞察：思维链的生成可以与检索并行化。不是等LLM完整生成推理步骤再编码，而是利用推理模型隐藏层中的中间表示，实时提取语义信号。

具体实现分三步。第一步，用轻量级适配器从推理模型的中间层抽取"推理嵌入"，而非等待完整文本输出。第二步，将这些嵌入与原始查询向量融合，形成增强的查询表示。第三步，送入标准的双编码器检索管道。

实验数据显示，在需要推理的查询上，检索准确率提升23%，端到端延迟仅增加15%。作为参照，传统的"LLM生成完整推理链再检索"方案，延迟是前者的8-12倍。

作者用了一个精妙的类比：传统方案像等厨师写完完整菜谱再买菜，新方案是厨师刚念出"需要新鲜番茄"，采购员就已经冲出门——利用的是过程中的信息，而非最终结果。

技术细节的取舍：为什么现在才出现

这个方案依赖两个前提条件，直到2024年才同时成熟。

第一是推理模型的普及。早期的指令微调模型（如GPT-3.5-turbo-instruct）缺乏显式的思维链输出，隐藏层中的推理信号微弱且难以提取。第二是高效适配器训练技术。直接从隐藏层抽向量容易引入噪声，需要针对检索任务做监督微调——这部分计算成本在论文中被刻意淡化，但占据了总训练时间的60%以上。

论文作者来自Google Research和DeepMind的联合团队，实验基于内部版本的Gemini推理模型。他们公开了方法框架，但具体的适配器架构和训练数据构成未完全披露——这在工业界论文中属于常规操作。

一个未被充分讨论的约束：该方法对"推理型查询"有效，对"事实型查询"可能引入负向增益。测试集显示，当用户直接询问"某文档的某字段"时，额外的推理嵌入会干扰精确匹配，准确率下降4%。

这意味着系统需要查询意图分类器，自动判断何时启用推理增强。论文附录提了一句，但未给出具体方案。

落地前景：延迟与成本的再平衡

企业RAG系统的成本结构正在变化。检索环节的算力占比从2022年的不足5%，上升到2024年的18%——因为大家都在堆向量数据库和重排序模型。

这篇论文的价值在于重新分配计算负载。推理模型的前向传播本来就要做，从中"榨取"额外价值，比单独调用LLM生成推理链便宜一个数量级。作者估算，在百万级文档的语料库上，年度推理成本可降低37%。

但有个陷阱：推理模型本身的调用成本。如果为了检索增强而强制启用推理模式（而非快速模式），整体开销可能不降反升。论文的实验设定是"推理已启用"的场景，避开了这个决策困境。

一位在Azure AI团队工作的工程师在Hacker News评论：「我们内部测试过类似思路，但发现不同推理模型的隐藏层结构差异太大，适配器很难跨模型迁移。Google的方案绑定了Gemini的生态。」

这指向一个更深层的问题：RAG的基础设施正在从"模型无关"走向"模型深度耦合"。早期Milvus、Pinecone等向量数据库标榜的"任意嵌入模型即插即用"，正在被推理原生的检索架构取代。

如果推理模型的中间表示成为关键接口，向量数据库的护城河在哪里？

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.