网易首页 > 网易号 > 正文 申请入驻

RAG检索卡了3年,有人用推理模型把延迟压到1/10

0
分享至

2024年,企业部署RAG(检索增强生成,Retrieval Augmented Generation)的平均延迟是2.3秒。用户问一个复杂问题,系统要先拆解、再检索、最后生成——这套流程像快递分拣,包裹在三个仓库之间来回倒手。

更麻烦的是查询与文档的"语义错配"。用户问"哪款手机适合拍夜景",文档里写的是"低光环境下的传感器表现"。传统双编码器(bi-encoder)把两边压成向量一比对,相似度得分惨淡,直接漏检。

双编码器的先天缺陷:它不会"想"

双编码器是当前RAG的行业标配。它用两个独立编码器分别处理查询和文档,训练目标是对比学习——让相关配对的向量靠近,无关配对的向量远离。

这套机制足够快,单次推理毫秒级。代价是彻底放弃推理能力:查询侧编码器看到"拍夜景",不会自动关联"低光""传感器""ISO"这些概念。它只会机械地比对向量空间里的距离。

对比学习的目标函数决定了,双编码器擅长"匹配"而非"理解"。遇到需要多步推理的查询,比如"2023年发布、续航比前代提升20%以上的折叠屏手机",它直接抓瞎。

最直接的解决方案是让大语言模型(LLM)先拆解查询:生成推理步骤,再编码检索。但自回归生成的延迟代价极高——每一步都要等模型逐个吐token,复杂查询的拆解可能耗时数秒。

新方案:用推理模型的"副产品"换速度

这篇论文的核心思路是"偷换时间维度"。作者注意到,现代推理模型(如DeepSeek-R1、OpenAI的o系列)在生成最终答案前,会先输出思维链(Chain-of-Thought)。这些中间推理步骤恰好包含查询的语义扩展。

关键洞察:思维链的生成可以与检索并行化。不是等LLM完整生成推理步骤再编码,而是利用推理模型隐藏层中的中间表示,实时提取语义信号。

具体实现分三步。第一步,用轻量级适配器从推理模型的中间层抽取"推理嵌入",而非等待完整文本输出。第二步,将这些嵌入与原始查询向量融合,形成增强的查询表示。第三步,送入标准的双编码器检索管道。

实验数据显示,在需要推理的查询上,检索准确率提升23%,端到端延迟仅增加15%。作为参照,传统的"LLM生成完整推理链再检索"方案,延迟是前者的8-12倍。

作者用了一个精妙的类比:传统方案像等厨师写完完整菜谱再买菜,新方案是厨师刚念出"需要新鲜番茄",采购员就已经冲出门——利用的是过程中的信息,而非最终结果。

技术细节的取舍:为什么现在才出现

这个方案依赖两个前提条件,直到2024年才同时成熟。

第一是推理模型的普及。早期的指令微调模型(如GPT-3.5-turbo-instruct)缺乏显式的思维链输出,隐藏层中的推理信号微弱且难以提取。第二是高效适配器训练技术。直接从隐藏层抽向量容易引入噪声,需要针对检索任务做监督微调——这部分计算成本在论文中被刻意淡化,但占据了总训练时间的60%以上。

论文作者来自Google Research和DeepMind的联合团队,实验基于内部版本的Gemini推理模型。他们公开了方法框架,但具体的适配器架构和训练数据构成未完全披露——这在工业界论文中属于常规操作。

一个未被充分讨论的约束:该方法对"推理型查询"有效,对"事实型查询"可能引入负向增益。测试集显示,当用户直接询问"某文档的某字段"时,额外的推理嵌入会干扰精确匹配,准确率下降4%。

这意味着系统需要查询意图分类器,自动判断何时启用推理增强。论文附录提了一句,但未给出具体方案。

落地前景:延迟与成本的再平衡

企业RAG系统的成本结构正在变化。检索环节的算力占比从2022年的不足5%,上升到2024年的18%——因为大家都在堆向量数据库和重排序模型。

这篇论文的价值在于重新分配计算负载。推理模型的前向传播本来就要做,从中"榨取"额外价值,比单独调用LLM生成推理链便宜一个数量级。作者估算,在百万级文档的语料库上,年度推理成本可降低37%。

但有个陷阱:推理模型本身的调用成本。如果为了检索增强而强制启用推理模式(而非快速模式),整体开销可能不降反升。论文的实验设定是"推理已启用"的场景,避开了这个决策困境。

一位在Azure AI团队工作的工程师在Hacker News评论:「我们内部测试过类似思路,但发现不同推理模型的隐藏层结构差异太大,适配器很难跨模型迁移。Google的方案绑定了Gemini的生态。」

这指向一个更深层的问题:RAG的基础设施正在从"模型无关"走向"模型深度耦合"。早期Milvus、Pinecone等向量数据库标榜的"任意嵌入模型即插即用",正在被推理原生的检索架构取代。

如果推理模型的中间表示成为关键接口,向量数据库的护城河在哪里?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
全红婵瘦了一圈后首露面!距亚运选拔仅剩36天,抉择引全网牵挂

全红婵瘦了一圈后首露面!距亚运选拔仅剩36天,抉择引全网牵挂

日落于西
2026-04-30 17:37:51
四库翻袋引爆全场!43岁墨菲提前庆祝+表情疑挑衅 赵心童面无表情

四库翻袋引爆全场!43岁墨菲提前庆祝+表情疑挑衅 赵心童面无表情

风过乡
2026-04-30 08:08:26
985高校,成立2个新学院!

985高校,成立2个新学院!

EOL教育在线
2026-04-30 11:39:01
CBA3球队爆冷,杜锋被揪出3个问题,朱芳雨需召回2人才行了

CBA3球队爆冷,杜锋被揪出3个问题,朱芳雨需召回2人才行了

阿信点评
2026-05-01 00:18:06
互联网是有记忆的,她的黑历史一大堆啊!

互联网是有记忆的,她的黑历史一大堆啊!

BenSir本色说
2026-04-15 22:38:07
上海人喜欢的车型又变了:特斯拉Model Y排第6,途观L高居第2

上海人喜欢的车型又变了:特斯拉Model Y排第6,途观L高居第2

柳先说
2026-03-24 21:52:18
普拉多车主沉默了!新H9只卖17.49万,机械素质几乎一样

普拉多车主沉默了!新H9只卖17.49万,机械素质几乎一样

念寒车评
2026-04-29 10:44:37
土豪大姐交往年轻非洲小哥拍视频秀恩爱,看完两人脸色对比评论区太缺德哈哈

土豪大姐交往年轻非洲小哥拍视频秀恩爱,看完两人脸色对比评论区太缺德哈哈

斗图
2026-04-29 22:56:10
世上最失败4大工程:损失惨重,中国占俩!却说有意料之外效果?

世上最失败4大工程:损失惨重,中国占俩!却说有意料之外效果?

三毛看世界
2026-04-17 16:43:17
正式确认!勇士重启交易,1.49亿前锋或加盟,库里的冠军梦全靠他

正式确认!勇士重启交易,1.49亿前锋或加盟,库里的冠军梦全靠他

宝哥精彩赛事
2026-04-30 18:09:24
爸爸梦到已故儿子说脚被刺扎了,立马驱车来到孩子墓前,眼前的一幕让人惊呆了!

爸爸梦到已故儿子说脚被刺扎了,立马驱车来到孩子墓前,眼前的一幕让人惊呆了!

张晓磊
2026-04-10 11:24:23
最接地气走私?男子走私51公斤盒饭偷渡澳门,只为赚取 30 元差价

最接地气走私?男子走私51公斤盒饭偷渡澳门,只为赚取 30 元差价

川渝视觉
2026-04-28 23:29:45
彻底失败了!卡米拉王后国宴造型太拉胯,顶配身份珠宝尽显廉价感

彻底失败了!卡米拉王后国宴造型太拉胯,顶配身份珠宝尽显廉价感

夸大其词的说
2026-04-29 14:25:15
魏重光任陕西省公安厅常务副厅长,陕西最新人事任免

魏重光任陕西省公安厅常务副厅长,陕西最新人事任免

大风新闻
2026-04-30 18:27:06
广州一校园现“炸弹果”:巨大吊瓜从七米左右高树上掉落,坠落时声响巨大,提醒:切勿在树下停留!

广州一校园现“炸弹果”:巨大吊瓜从七米左右高树上掉落,坠落时声响巨大,提醒:切勿在树下停留!

环球网资讯
2026-04-30 19:56:07
“奶葵”归来!“社恐”顶流诠释反差美学,十年归来仍是白月光!

“奶葵”归来!“社恐”顶流诠释反差美学,十年归来仍是白月光!

管鲍老四级
2026-04-28 15:55:44
方媛这身材,50岁的郭富城怎么顶的住,从每月20万到黑卡随便刷!

方媛这身材,50岁的郭富城怎么顶的住,从每月20万到黑卡随便刷!

一盅情怀
2026-03-12 18:10:03
剑指千球!41岁C罗再现无解滞空:回头望月破门 2比0战胜亚冠冠军

剑指千球!41岁C罗再现无解滞空:回头望月破门 2比0战胜亚冠冠军

新英体育
2026-04-30 10:36:22
香港的现代版姨太:签下保密条约住在珠海别墅,年纪过30就被赶走

香港的现代版姨太:签下保密条约住在珠海别墅,年纪过30就被赶走

白云故事
2025-09-05 21:55:03
油多到放不下,伊朗想拼一把,用铁路往中国运石油,特朗普拦不住

油多到放不下,伊朗想拼一把,用铁路往中国运石油,特朗普拦不住

共工之锚
2026-05-01 00:13:42
2026-05-01 01:43:00
赛博兰博
赛博兰博
专注捣鼓AI效率工具,试图在这个时代留下数字分身的探索者。
2010文章数 25关注度
往期回顾 全部

科技要闻

9000亿美元估值,Anthropic即将反超OpenAI

头条要闻

英国国王给特朗普送了口钟 还贴脸开大"有需要尽管敲"

头条要闻

英国国王给特朗普送了口钟 还贴脸开大"有需要尽管敲"

体育要闻

季后赛场均5.4分,他凭啥在骑士打首发?

娱乐要闻

孙杨博士学历有问题?官方含糊其辞

财经要闻

易会满被“双开”!

汽车要闻

专访捷途汪如生:捷途双线作战 全球化全面落地

态度原创

健康
亲子
游戏
公开课
军事航空

干细胞治烧烫伤面临这些“瓶颈”

亲子要闻

接不到活的月嫂越来越多

《007 初露锋芒》制作成员采访:潜龙腾渊"/> 主站 商城 论坛 自运营 登录 注册 《007 初露锋芒》制作成员采访:潜龙腾渊 神堡薛师傅 2026...

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

意大利议会批准:捐赠航母给印度尼西亚

无障碍浏览 进入关怀版