网易首页 > 网易号 > 正文 申请入驻

LightRetriever重塑LLM嵌入模型,攻克算力瓶颈!

0
分享至

近年来,大模型文本检索(LLM-based Text Retrieval)技术发展迅猛,SOTA 的 LLM Embedding Model 参数量普遍在 7B 以上,相关性搜索性能提升的同时,部署成本也大幅增长。

众所周知,LLM Embedding Model 是一种对称式双塔结构,Query 和 Doc 侧常共享同一个完整的 LLM。但一个长期被忽视的问题是:线上推理中,查询端(Query)真的需要和文档端(Document)一样 “重” 的大模型吗?在我们最新的研究论文 LightRetriever 中,文章给出了一个明确、激进、但被大量实验证实可行的答案:不需要。

LightRetriever 设计了一种极致非对称式结构的 LLM Embedding Model —— Doc 侧使用完整 LLM 建模,但 Query 侧最多仅用一层 Embedding Lookup。极致化降低了 Query 侧推理负担,也能做好大模型文本搜索。对比 Query-Doc 均用完整 LLM 的标准设计,LightRetriever 让 Query 侧的推理速度提升了千倍以上、端到端 QPS 提升 10 倍,同时 BeIR、CMTEB Retrieval 等测试集上的中英文检索性能也能维持 95% 左右。

文章由中科院信工所 & 澜舟科技共同完成,已接收于国际计算机顶级会议 ICLR 2026。ICLR(International Conference on Learning Representations)是机器学习与表示学习领域的国际顶级会议之一,与 NeurIPS、ICML 并列为人工智能方向最具影响力的学术会议。本次 ICLR 2026 共有接近 19000 篇有效投稿,接收率约为 28%。


  • 论文标题:LightRetriever: A LLM-based Text Retrieval Architecture with Extremely Faster Query Inference

  • 论文链接:https://arxiv.org/abs/2505.12260

LightRetriever:极致非对称的 LLM Embedding Model

LightRetriever 的核心思想非常明确:将深度建模的主要计算负担彻底转移到 Doc 侧,Query 侧只保留必要、可缓存的表征能力。LightRetriever 为稠密和稀疏检索两大检索范式,分别设计了极致非对称的建模方法。


图。在稠密 / 稀疏检索中,对称式 LLM Embedding Model 使用了 1) 标准的 Full-sized Query Inference,查询侧推理负担很重;2) LightRetriever 大幅降低了查询推理成本,查询侧负载降低至不超过一层 Embedding Layer Lookup。

稠密检索(Dense Retrieval)训练中,Doc 侧保持建模方式不变,LightRetriever 词袋化了 Query 侧建模:完整的 LLM 接收 “指令 + 单个 Query Token” 作为输入,先建模 Token Embedding,再求平均获取 Query 句向量,并通过对比学习获得 Prompted Token Embedding。


不同之处在于,这些 Token Embedding 在训练完成后,可以被整体缓存为一个词表级 Embedding 矩阵。在线推理时,Query 句向量的推理仅需一次简单的 Token Embedding 查表 + 求均值,不再涉及任何 LLM 推理。由于 Query 侧在训练阶段仍需要完整 LLM 建模,稠密向量训练遵循 “训练全量 + 推理轻量” 的思想。后面的消融实验证明,“训练全量” 这种配置不可忽略。


图. LightRetriever 的稠密检索设计遵守 “训练全量 + 推理轻量” 的思想,通过词袋化 Query 侧建模,打破上下文依赖,使得 Query 侧向量推理具备可缓存(Cacheable)的特性。仅需一次缓存,就可以无 LLM 部署 Query 推理服务。

稀疏检索(Sparse Retrieval)中,LightRetriever 将 Query 侧进一步被简化为词表空间 T 的 “Token ID -> 个数” 的词频映射,完全移除了可学习的模型参数。


同样通过端到端对比学习,通过 Doc 侧的 LLM,学习类 SPLADE 方法的 TF-based (Term Frequency-based)稀疏向量。


图. LightRetriever 的稀疏检索设计更加极致,Query 侧仅依靠词袋化的统计方法建模词频特征,来实现无 LLM 高效化线上推理。

极端轻量化的查询,并没有带来灾难性的性能代价

直觉上,移除 Query 侧的深度上下文建模会显著损害检索效果。然而,大规模实验结果给出了一个出乎意料的结论:

在 BeIR(英文)与 CMTEB-Retrieval(中文)等多任务文本检索基准上,相对完整的对称式 LLM Embedding,LightRetriever 的 nDCG@10 排序指标只下降 1–5 pp,平均性能保持率约为 95%。更重要的是,该方法的性能水平大幅超过传统稀疏方法(BM25、SPLADE)以及多种轻量化或蒸馏检索模型,并逼近了类似开源训练语料的配置下,LLM2Vec、E5-Mistral 等经典的 LLM Embedding 方法。

这表明:在绝大多数相关性导向的检索任务中,Query 侧并不需要完整的深度 Token 交互,也能够匹配 Doc 侧所学习到的语义结构。


表. BeIR / CMTEB-Retrieval 主实验结果,包含经典 Embedding Model Baseline、对称式 Full LLM Retriever 与 LightRetriever 的检索效果。

文章对比了 LightRetriever 在不同任务中的细粒度性能表现。以 BeIR 为例,LightRetriever 在大多数常规的相关性检索任务中性能表现十分优异,是全对称式结构的 93% 以上;在 Domain-specific QA、Entity Retrieval、Citation Prediction 等更具挑战性的 OOD 任务中,性能维持在全对称式结构的 87%~89%。虽然相对性能略有下降,这些任务性能的绝对数值仍然具备较强的竞争力。


表。在 BeIR 的不同任务中,LightRetriever 的性能表现及相对变化(Retention)。

查询服务速度大幅提升

LightRetriever 的 Query 轻量化设计,为查询推理效率带来了数量级的提升。

在 MSMARCO 检索场景下对 64k 查询进行检索,完整的 Llama-8B 查询编码需要超过 100 秒;而 LightRetriever 的查询编码时间仅为 0.04 秒,对应超过 1000× 的编码加速。即便考虑 Faiss 与 Lucene 的检索时间,端到端吞吐仍然获得了 10× 以上的 QPS 提升。文章还尝试了一个经典的 Transformers Layer 裁剪 Baseline:在 Query 侧只用 Llama-8b 的第一层 Transformers Layer 用于训练和推理。然而,这个设置的检索性能和 QPS 均不如 LightRetriever,因为训练时 Query 侧没有完整的 LLM 建模。这证明了文章中 “训练全量 + 推理轻量” 的设计的合理性。


表。查询编码时间 / 端到端 QPS 对比

为什么这种 “训练全量 + 推理轻量” 是必要的,而不是偶然有效?

在 LightRetriever 的稠密检索中,Query 侧在训练时使用全量(Full)建模、推理时转化为 Embedding Layer(Emb)高效化推理。为了验证这种设计的合理性,文章进行了以下两组消融实验:

A1) Doc 侧在推理时也使用 Embedding Layer。

A2) Query 侧在训练时直接用 Embedding Layer。

两者均会引起性能的大幅下降。这说明:在大模型文本检索中,移除深度建模并非偶然设计。

消融实验一(A1)证明了:Doc 侧始终需要完整建模,而 Query 侧可通过词袋化方法做到近似建模。

消融实验二(A1)证明了:LightRetriever 的关键不在于 “减少建模”,而在于将建模负载卸载至不同阶段 —— 在训练阶段与 Doc 侧充分建模,在推理阶段最大化复用可缓存的 Query 词向量,即 “训练全量 + 推理轻量”。

从这一角度看,LightRetriever 并不是一次针对模型结构的微调,而是对 LLM 双塔模型计算范式的重新审视。


表。对称性消融实验。A1) Doc 侧推理时也进行了词袋轻量化;A2) Query 侧训练时直接使用了 Embedding 词袋。两者效果均显著下降。

结语:当 Query 侧部署不再是负担,LLM 检索才真正具备可扩展性

LightRetriever 表明,高质量的 LLM Embedding Model 并不必然意味着高昂的在线推理成本。通过明确区分 Query 与 Doc 在检索流程中的角色,并有意识地打破对称建模这一长期默认的设计假设,检索系统可以在维持效果的前提下,获得数量级的效率提升。

对于面向真实应用场景的检索系统、RAG 框架与在线搜索服务而言,这种查询轻量化的建模思路,或许比单纯追求更大的模型规模更具应用价值。

作者简介

文章第一作者为中国科学院信息工程研究所博士研究生马广远,研究方向为大模型信息检索,导师是虎嵩林研究员。本文在微软亚研院前副院长、现澜舟科技 CEO 周明博士和虎嵩林研究员的共同指导下完成。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
BBA春节档掀史上最猛降价潮,宝马7系狂降27万,新能源车企却换了一种打法

BBA春节档掀史上最猛降价潮,宝马7系狂降27万,新能源车企却换了一种打法

金融界
2026-02-24 18:07:07
绿地建设集团破产审查

绿地建设集团破产审查

地产微资讯
2026-02-23 18:36:51
女子出轨丈夫兄弟:劲爆视频流出,3人对话曝光,一画面信息量大

女子出轨丈夫兄弟:劲爆视频流出,3人对话曝光,一画面信息量大

博士观察
2026-02-24 16:45:57
焦作温县中医院八级职员王永红接受纪律审查和监察调查

焦作温县中医院八级职员王永红接受纪律审查和监察调查

大象新闻
2026-02-24 19:04:02
一箱油可横跨北美 本田新型小飞机卖爆:购买意向达产能10倍

一箱油可横跨北美 本田新型小飞机卖爆:购买意向达产能10倍

快科技
2026-02-24 08:21:03
在国安局食堂吃饭时,无意发现打菜的师傅,竟是我追踪的千面间谍

在国安局食堂吃饭时,无意发现打菜的师傅,竟是我追踪的千面间谍

千秋文化
2026-02-19 10:43:29
威尔士赛:张安达险胜曼恩,中国军团两连胜世界冠军爆冷遭零封!

威尔士赛:张安达险胜曼恩,中国军团两连胜世界冠军爆冷遭零封!

世界体坛观察家
2026-02-25 02:09:07
江西女子用公驴器官泡酒,三个月后给丈夫喝,不料发生意外

江西女子用公驴器官泡酒,三个月后给丈夫喝,不料发生意外

古怪奇谈录
2025-06-28 13:49:02
马丽在人民日报撰文

马丽在人民日报撰文

南方都市报
2026-02-24 09:53:02
坚持慢充3年电池只剩82%!原来是车主你一直都充错了

坚持慢充3年电池只剩82%!原来是车主你一直都充错了

芭比衣橱
2026-02-23 18:58:49
1998年数万华人遭屠杀,中国为何没出兵?26年后答案让人沉默

1998年数万华人遭屠杀,中国为何没出兵?26年后答案让人沉默

哄动一时啊
2026-02-17 22:21:25
提前返校时间出炉!沪上学校发布开学温馨提示,新学期校历收藏

提前返校时间出炉!沪上学校发布开学温馨提示,新学期校历收藏

随申Hi
2026-02-24 13:45:28
为啥浙江人做生意那么厉害?网友:能赚钱的就不可能发出来

为啥浙江人做生意那么厉害?网友:能赚钱的就不可能发出来

解读热点事件
2026-02-23 12:38:39
朝鲜劳动党九大,崔龙海的退出

朝鲜劳动党九大,崔龙海的退出

周边问题研究所
2026-02-24 14:14:10
比特币,绝望了!

比特币,绝望了!

澳洲财经见闻
2026-02-25 04:06:00
7场6球!曼联混子实现蜕变!体力充沛,态度好,纯属被阿莫林坑了

7场6球!曼联混子实现蜕变!体力充沛,态度好,纯属被阿莫林坑了

阿泰希特
2026-02-24 14:11:54
中美俄意见一致,宁可让日本从地球上消失,也坚决不允许它拥核!

中美俄意见一致,宁可让日本从地球上消失,也坚决不允许它拥核!

老范谈史
2026-02-23 20:33:48
权志龙再三挑衅中国春节,女星邓家佳跟风,被网友骂后删博了事

权志龙再三挑衅中国春节,女星邓家佳跟风,被网友骂后删博了事

钱小刀娱乐
2026-02-22 21:54:09
遮羞布被撕碎!美国偏袒以色列遭反噬,14国联合声明释放强烈信号

遮羞布被撕碎!美国偏袒以色列遭反噬,14国联合声明释放强烈信号

荷兰豆爱健康
2026-02-24 22:03:37
中国崛起,必须要打赢三场对美军的战争,如今已进入最关键的阶段

中国崛起,必须要打赢三场对美军的战争,如今已进入最关键的阶段

闻香阁
2026-02-25 03:15:01
2026-02-25 06:12:49
呼呼历史论
呼呼历史论
分享有趣的历史
389文章数 16448关注度
往期回顾 全部

科技要闻

宇树科技发布四足机器人Unitree As2

头条要闻

男子搂住继女强吻动作亲密 当地妇联介入

头条要闻

男子搂住继女强吻动作亲密 当地妇联介入

体育要闻

苏翊鸣总结米兰征程:我仍是那个热爱单板滑雪的少年

娱乐要闻

汪小菲官宣三胎出生:承诺会照顾好3个孩子

财经要闻

县城消费「限时繁荣」了十天

汽车要闻

入门即满配 威兰达AIR版上市 13.78万元起

态度原创

家居
教育
时尚
本地
健康

家居要闻

本真栖居 爱暖伴流年

教育要闻

高考地理中的涵养水源

阔腿裤失宠了?这4条裤子承包你整个春天的时髦!

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

转头就晕的耳石症,能开车上班吗?

无障碍浏览 进入关怀版