网易首页 > 网易号 > 正文 申请入驻

LLM Embedding Model算力瓶颈从Query侧移走,LightRetriever来了

0
分享至



近年来,大模型文本检索(LLM-based Text Retrieval)技术发展迅猛,SOTA 的 LLM Embedding Model 参数量普遍在 7B 以上,相关性搜索性能提升的同时,部署成本也大幅增长

众所周知,LLM Embedding Model 是一种对称式双塔结构,Query 和 Doc 侧常共享同一个完整的 LLM。但一个长期被忽视的问题是:线上推理中,查询端(Query)真的需要和文档端(Document)一样 “重” 的大模型吗?在我们最新的研究论文 LightRetriever 中,文章给出了一个明确、激进、但被大量实验证实可行的答案:不需要

LightRetriever 设计了一种极致非对称式结构的 LLM Embedding Model—— Doc 侧使用完整 LLM 建模,但Query 侧最多仅用一层 Embedding Lookup。极致化降低了 Query 侧推理负担,也能做好大模型文本搜索。对比 Query-Doc 均用完整 LLM 的标准设计,LightRetriever 让 Query 侧的推理速度提升了千倍以上、端到端 QPS 提升 10 倍,同时 BeIR、CMTEB Retreival 等测试集上的中英文检索性能也能维持 95% 左右

文章由中科院信工所 & 澜舟科技共同完成,已接收于国际计算机顶级会议 ICLR 2026。ICLR(International Conference on Learning Representations)是机器学习与表示学习领域的国际顶级会议之一,与 NeurIPS、ICML 并列为人工智能方向最具影响力的学术会议。本次 ICLR 2026 共有接近 19000 篇有效投稿,接收率约为 28%。



  • 论文标题:LightRetriever: A LLM-based Text Retrieval Architecture with Extremely Faster Query Inference
  • 论文链接:https://arxiv.org/abs/2505.12260

LightRetriever:极致非对称的 LLM Embedding Model

LightRetriever 的核心思想非常明确:将深度建模的主要计算负担彻底转移到 Doc 侧,Query 侧只保留必要、可缓存的表征能力。LightRetriever 为稠密稀疏检索两大检索范式,分别设计了极致非对称的建模方法。



图。在稠密 / 稀疏检索中,对称式 LLM Embedding Model 使用了 1) 标准的 Full-sized Query Inference,查询侧推理负担很重;2) LightRetriever 大幅降低了查询推理成本,查询侧负载降低至不超过一层 Embedding Layer Lookup。

稠密检索(Dense Retreival)训练中,Doc 侧保持建模方式不变,LightRetriever 词袋化了 Query 侧建模:完整的 LLM 接收 “指令 + 单个 Query Token” 作为输入,先建模 Token Embedding,再求平均获取 Query 句向量,并通过对比学习获得 Prompted Token Embedding。



不同之处在于,这些 Token Embedding 在训练完成后,可以被整体缓存为一个词表级 Embedding 矩阵。在线推理时,Query 句向量的推理仅需一次简单的 Token Embedding 查表 + 求均值,不再涉及任何 LLM 推理。由于 Query 侧在训练阶段仍需要完整 LLM 建模,稠密向量训练遵循 “训练全量 + 推理轻量” 的思想。后面的消融实验证明,“训练全量” 这种配置不可忽略。



图. LightRetriever 的稠密检索设计遵守 “训练全量 + 推理轻量” 的思想,通过词袋化 Query 侧建模,打破上下文依赖,使得 Query 侧向量推理具备可缓存(Cacheable)的特性。仅需一次缓存,就可以无 LLM 部署 Query 推理服务。

稀疏检索(Sparse Retrieval)中,LightRetriever 将 Query 侧进一步被简化为词表空间 T 的 “Token ID -> 个数” 的词频映射,完全移除了可学习的模型参数。



同样通过端到端对比学习,通过 Doc 侧的 LLM,学习类 SPLADE 方法的 TF-based (Term Frequency-based)稀疏向量。



图. LightRetriever 的稀疏检索设计更加极致,Query 侧仅依靠词袋化的统计方法建模词频特征,来实现无 LLM 高效化线上推理。

极端轻量化的查询,并没有带来灾难性的性能代价

直觉上,移除 Query 侧的深度上下文建模会显著损害检索效果。然而,大规模实验结果给出了一个出乎意料的结论:

在 BeIR(英文)与 CMTEB-Retrieval(中文)等多任务文本检索基准上,相对完整的对称式 LLM Embedding,LightRetriever 的 nDCG@10 排序指标只下降1–5 pp,平均性能保持率约为95%。更重要的是,该方法的性能水平大幅超过传统稀疏方法(BM25、SPLADE)以及多种轻量化或蒸馏检索模型,并逼近了类似开源训练语料的配置下,LLM2Vec、E5-Mistral 等经典的 LLM Embedding 方法。

这表明:在绝大多数相关性导向的检索任务中,Query 侧并不需要完整的深度 Token 交互,也能够匹配 Doc 侧所学习到的语义结构。



表. BeIR / CMTEB-Retrieval 主实验结果,包含经典 Embedding Model Baseline、对称式 Full LLM Retriever 与 LightRetriever 的检索效果。

文章对比了 LightRetriever 在不同任务中的细粒度性能表现。以 BeIR 为例,LightRetriever 在大多数常规的相关性检索任务中性能表现十分优异,是全对称式结构的 93% 以上;在 Domain-specific QA、Entity Retrieval、Citation Prediction 等更具挑战性的 OOD 任务中,性能维持在全对称式结构的 87%~89%。虽然相对性能略有下降,这些任务性能的绝对数值仍然具备较强的竞争力。



表。在 BeIR 的不同任务中,LightRetriever 的性能表现及相对变化(Retention)。

查询服务速度大幅提升

LightRetriever 的 Query 轻量化设计,为查询推理效率带来了数量级的提升

在 MSMARCO 检索场景下对 64k 查询进行检索,完整的 Llama-8B 查询编码需要超过100 秒;而 LightRetriever 的查询编码时间仅为0.04 秒,对应超过 1000×的编码加速。即便考虑 Faiss 与 Lucene 的检索时间,端到端吞吐仍然获得了10× 以上的 QPS 提升。文章还尝试了一个经典的 Transformers Layer 裁剪 Baseline:在 Query 侧只用 Llama-8b 的第一层 Transformers Layer 用于训练和推理。然而,这个设置的检索性能和 QPS 均不如 LightRetriever,因为训练时 Query 侧没有完整的 LLM 建模。这证明了文章中 “训练全量 + 推理轻量” 的设计的合理性。



表。查询编码时间 / 端到端 QPS 对比

为什么这种 “训练全量 + 推理轻量” 是必要的,而不是偶然有效?

在 LightRetriever 的稠密检索中,Query 侧在训练时使用全量(Full)建模、推理时转化为 Embedding Layer(Emb)高效化推理。为了验证这种设计的合理性,文章进行了以下两组消融实验:

A1) Doc 侧在推理时也使用 Embedding Layer。

A2) Query 侧在训练时直接用 Embedding Layer。

两者均会引起性能的大幅下降。这说明:在大模型文本检索中,移除深度建模并非偶然设计。

消融实验一(A1)证明了:Doc 侧始终需要完整建模,而 Query 侧可通过词袋化方法做到近似建模。

消融实验二(A1)证明了:LightRetriever 的关键不在于 “减少建模”,而在于将建模负载卸载至不同阶段—— 在训练阶段与 Doc 侧充分建模,在推理阶段最大化复用可缓存的 Query 词向量,即 “训练全量 + 推理轻量”。

从这一角度看,LightRetriever 并不是一次针对模型结构的微调,而是对 LLM 双塔模型计算范式的重新审视。



表。对称性消融实验。A1) Doc 侧推理时也进行了词袋轻量化;A2) Query 侧训练时直接使用了 Embedding 词袋。两者效果均显著下降。

结语:当 Query 侧部署不再是负担,LLM 检索才真正具备可扩展性

LightRetriever 表明,高质量的 LLM Embedding Model 并不必然意味着高昂的在线推理成本。通过明确区分 Query 与 Doc 在检索流程中的角色,并有意识地打破对称建模这一长期默认的设计假设,检索系统可以在维持效果的前提下,获得数量级的效率提升。

对于面向真实应用场景的检索系统、RAG 框架与在线搜索服务而言,这种查询轻量化的建模思路,或许比单纯追求更大的模型规模更具应用价值。

作者简介

文章第一作者为中国科学院信息工程研究所博士研究生马广远,研究方向为大模型信息检索,导师是虎嵩林研究员。本文在微软亚研院前副院长、现澜舟科技 CEO 周明博士和虎嵩林研究员的共同指导下完成。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
轻伤二级,法律给不了“血债血偿”,但公道必须让施暴者“社死”

轻伤二级,法律给不了“血债血偿”,但公道必须让施暴者“社死”

刚哥说法365
2026-02-24 17:12:01
汕头旅游到底有多贵?

汕头旅游到底有多贵?

汽车通研社
2026-02-25 14:40:40
国足无缘对阵西班牙!已14年未交锋,西媒:西班牙将战伊拉克

国足无缘对阵西班牙!已14年未交锋,西媒:西班牙将战伊拉克

奥拜尔
2026-02-25 20:41:59
76%命中率轰20+11!请把球给哈登,阿伦发出请求,阿特金森也摊牌

76%命中率轰20+11!请把球给哈登,阿伦发出请求,阿特金森也摊牌

篮球看比赛
2026-02-25 19:39:12
长不长寿就看70岁,70岁还能轻松做这5件事,基本可以活到90岁

长不长寿就看70岁,70岁还能轻松做这5件事,基本可以活到90岁

顾一宸
2026-02-25 21:02:43
全新奥迪A8有望于2029年发布!车迷直呼:等不及

全新奥迪A8有望于2029年发布!车迷直呼:等不及

汽车网评
2026-02-25 21:26:42
美军想不通:10几架F16悄摸起飞,连韩国都没说,解放军咋会知道

美军想不通:10几架F16悄摸起飞,连韩国都没说,解放军咋会知道

壹知眠羊
2026-02-23 11:30:46
NBA夺冠概率更新!火箭队4%第八湖人3%勇士落选 榜首40%断档领先

NBA夺冠概率更新!火箭队4%第八湖人3%勇士落选 榜首40%断档领先

锅子篮球
2026-02-25 20:38:32
郭士强挂帅以来胡明轩首次无缘12人名单,此前曾任队长一职

郭士强挂帅以来胡明轩首次无缘12人名单,此前曾任队长一职

懂球帝
2026-02-25 19:57:05
中国财政供养人员达6846万?结构失衡才是财政压力的核心

中国财政供养人员达6846万?结构失衡才是财政压力的核心

流苏晚晴
2025-12-04 19:27:08
木头姐、段永平押注,这家AI医疗龙头业绩狂飙83%!

木头姐、段永平押注,这家AI医疗龙头业绩狂飙83%!

智药局
2026-02-25 18:33:30
17万粉丝博主奇葩言论!燃油车加油只能干等,电车充电可去上厕所

17万粉丝博主奇葩言论!燃油车加油只能干等,电车充电可去上厕所

火山詩话
2026-02-25 08:58:06
“土皇帝”禹作敏扬言:副总理随便当,部长以下不接待,结局如何

“土皇帝”禹作敏扬言:副总理随便当,部长以下不接待,结局如何

顾史
2026-02-23 12:28:26
西部排名又变了:湖人爆冷输球,快船坐收好礼,2队排名互换

西部排名又变了:湖人爆冷输球,快船坐收好礼,2队排名互换

篮球大视野
2026-02-25 16:11:19
特朗普发表国情咨文演讲 一民主党议员抗议被带离场 最新民调:特朗普的支持率为36%

特朗普发表国情咨文演讲 一民主党议员抗议被带离场 最新民调:特朗普的支持率为36%

每日经济新闻
2026-02-25 14:13:57
蒯曼陈熠女双淘汰头号种子,新加坡大满贯赛女双四强出炉

蒯曼陈熠女双淘汰头号种子,新加坡大满贯赛女双四强出炉

乒乓网
2026-02-25 17:27:54
双线对决日乒主将!中国女乒22岁第三巨头闪耀:邱贻可打造新王牌

双线对决日乒主将!中国女乒22岁第三巨头闪耀:邱贻可打造新王牌

李喜林篮球绝杀
2026-02-25 21:21:24
爱泼斯坦案又曝大瓜,炸翻了…

爱泼斯坦案又曝大瓜,炸翻了…

tuzhuxi
2026-02-25 18:10:50
医生忠告:跟癌症病人一起吃饭,一定要注意三件事,千万别忽视!

医生忠告:跟癌症病人一起吃饭,一定要注意三件事,千万别忽视!

医学科普汇
2026-02-25 22:15:03
打伊朗前,美国先找了中国,特朗普知道:他错一步中国就不战而胜

打伊朗前,美国先找了中国,特朗普知道:他错一步中国就不战而胜

通文知史
2026-02-24 23:40:03
2026-02-25 22:56:50
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12362文章数 142569关注度
往期回顾 全部

科技要闻

“机器人只跳舞,没什么用”

头条要闻

美官员称6个月内三国政府或被亲美政权取代 中方回应

头条要闻

美官员称6个月内三国政府或被亲美政权取代 中方回应

体育要闻

曝雄鹿计划今夏追小卡 字母哥渴望与其并肩作战

娱乐要闻

黄晓明新恋情!与小22岁美女同游新加坡

财经要闻

上海楼市放大招,地产预期别太大

汽车要闻

750km超长续航 2026款小鹏X9纯电版将于3月2日上市

态度原创

手机
游戏
数码
公开课
军事航空

手机要闻

vivo万级大电池测试中,多款新机待发布

玩家拿首份工资预购《生化9》!功勋制作人亲自回复

数码要闻

2026款联想YOGA Pro 15/16笔记本电脑预热

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

俄乌冲突四周年:和平谈判希望渺茫

无障碍浏览 进入关怀版