网易首页 > 网易号 > 正文 申请入驻

ICLR 2026 Oral | Revela:用语言建模重新定义稠密检索器训练

0
分享至



在检索增强生成(RAG)系统中,稠密检索器(Dense Retriever)负责从海量文档库中快速找出与查询语义最相关的段落,是整个系统的核心基础组件。

然而,训练一个高质量的稠密检索器并不容易。对比学习(Contrastive Learning)长期以来是这一领域的主流范式,但存在几个根本性局限:

  • 严重依赖人工标注数据:需要精心构造查询 - 文档正负样本对,在代码、法律等专业领域标注成本极高;
  • 难负样本的困境:随机负样本信号太弱,难负样本挖掘又引入额外复杂性;
  • 与语言模型预训练目标割裂:对比损失与主流大模型的预训练范式(下一词预测)天然不兼容,难以充分复用预训练知识。

这些问题在专业领域和推理密集型检索场景下尤为突出。能否找到一条更自然、更统一的检索器训练路径?来自德国达姆施塔特工业大学(TU Darmstadt)的蔡丰宇及其来自华盛顿大学、卡内基梅隆大学、微软和腾讯 AI 实验室的合作者给出了一个优雅的答案 -Revela:Dense Retriever Learning via Language Modeling,并凭借这一回答斩获ICLR 2026 Oral(约 1.1% 录取率) 和FrontierIR @ AAAI 2026 最佳论文奖



  • 论文链接:https://openreview.net/forum?id=e7pAjJZJWb
  • 代码链接:https://github.com/TRUMANCFY/Revela
  • 模型链接:https://huggingface.co/trumancai/Revela-3b

核心思路:让检索「像语言模型一样学习」

Revela 的核心洞察在于:将稠密检索器的训练目标统一到语言建模框架之下。

语言模型(LM)通过 "预测下一个 token" 来建模 token 之间的依赖关系。Revela 将这一思路类比到检索:如果说 LM 建模的是 token 之间的依赖,那么检索器建模的就是文本块(chunk)之间的依赖

具体而言,Revela 引入了一种批内注意力机制(In-batch Attention):在语言建模时,一个序列的下一词预测不仅条件于自身上文,还通过检索器计算的相似度权重,动态地参考批次中其他相关文档。如图 1 中,红色文本块在预测下一词时 "参考" 了语义相近的紫色文本块,这一过程反过来驱动检索器提高两者之间的相似度分数。检索器的相似度分数就此直接嵌入语言建模的优化目标,实现检索器与语言模型的联合端到端训练,无需任何人工标注的查询 - 文档对



图 1:Revela 训练框架。检索器相似度分数作为批内注意力权重,与语言模型联合端到端训练。红、紫序列中高亮片段展示了检索器如何学会关联语义相近的文本块。

这一设计带来了三个关键优势:

  • 训练目标与预训练高度一致:语言建模正是大模型预训练所采用的目标,Revela 与之天然对齐,能充分激活预训练模型中已有的语义理解能力。
  • 完全自监督,无需标注:原始文本自身的上下文关系即构成训练信号,大幅降低对人工标注的依赖,使方法在数据稀缺的专业领域具备天然优势。
  • 可扩展性强:实验表明,随着检索器规模(从 135M 到 3B)、语言模型规模和批大小的增大,性能持续稳定提升,展现出良好的 Scaling 特性。

方法架构

Revela 的整体架构由两部分组成:负责编码文本,计算相似度的检索器,以及提供语言建模训练信号的语言模型,二者在训练过程中联合优化。



图 2:Revela 的 Transformer Block 架构。

核心创新集中在 LM 的 Transformer Block 内部(图 2)。每一层同时运行两条并行的注意力路径:标准自注意力处理单条序列内部的上下文依赖,输出 ei;批内注意力则在此基础上引入跨文档维度:先对序列自身做自注意力得到 si,再以检索器输出的相似度分数为权重,对批次内其他文档的自注意力输出 ej做交叉注意力并加权聚合得到 bi,最终输出 hi= si+ bi。其中,检索器将批次内所有文档编码为向量,通过两两余弦相似度并经 softmax 归一化,得到文档间的相似度权重矩阵,直接作为批内注意力的聚合权重。

值得注意的是,跨文档注意力的 Key 和 Value 均来自其他文档的 ej,而非 hj,这一设计使批内注意力能够使用只含有序列内部信息的自注意力。两路路径对应图 2 注意力图中左上与右下两个区域,最终输出相加后送入前馈层,共同驱动下一词预测目标。这一设计使检索器的相似度分数直接参与 LM 的反向传播,检索器由此得以被端到端优化。

在训练数据构建上,Revela 将文档切分为 chunk 并分批,确保每个 batch 内包含语义相关的片段,使语言建模信号天然对应有意义的跨文本依赖。训练数据方面,通用检索使用约 34 万篇维基百科文档,代码检索使用 StackOverflow 帖子、技术教程和库文档,均无需任何人工标注的查询-文档对。

实验效果:无标注数据,超越商业 API

Revela 在三大权威基准上进行了系统评估,分别覆盖代码检索(CoIR)推理密集型检索(BRIGHT)通用信息检索(BEIR)三个维度。



表 1:CoIR 代码检索基准上各模型的检索性能(nDCG@10,%)。

代码检索(CoIR): Revela-3B 在 10 项任务平均 nDCG@10 达到 60.1,在无需任何查询 - 文档标注对的前提下,超越了使用海量标注数据训练的 7B 参数有监督模型 E5-Mistral-7b-Instruct(57.3)以及 OpenAI Ada-002(45.6)、Voyage-Code-002(56.3)两个商业 API。在 0.5B 参数规模下,Revela 即超越了同样覆盖代码语料、用 2.7 亿标注对训练的 E5-PT,领先约 10 个百分点。



图 3:BRIGHT(左)与 BEIR(右)基准上的检索性能对比(nDCG@10,%)。

推理密集检索(BRIGHT): Revela-3B 平均 nDCG@10 达到 20.1,仅凭维基百科文本训练,便超越了 E5-Mistral-7b-Instruct(17.9)以及 text-embedding-3-large(OpenAI,17.9)、voyage-large-2-instruct(Voyage,17.9)、cohere-embed-english-v3.0(Cohere,16.6)等主流商业 API,充分体现了语言建模目标对深层语义推理能力的激活效果。

通用检索(BEIR): Revela-3B 与弱监督基线 E5-PT 持平(均为 45.6),但所用训练数据约为其 1/1000,使用计算资源仅为其 1/10,极大降低了训练成本。

意义与展望

Revela 将稠密检索器的训练与语言建模范式统一,打开了多个值得探索的方向:

动态索引构建:Revela 目前通过文档分块来保证 batch 内的语义相关性,更理想的做法是用模型的实时表示对 chunk 动态分组,但这意味着需要在训练过程中持续更新索引,计算成本是亟待解决的挑战。模型与数据的进一步扩展:实验已验证 Revela 在模型规模和 batch 大小上具备良好的 Scaling 特性,扩大训练语料覆盖范围、引入更高效的注意力机制,有望带来进一步的性能提升。反哺语言模型训练:Revela 目前将 LM 视为辅助的训练信号来源,但检索器所学到的文本间语义关联,同样可以反过来用于指导 LM 的 batch 构建,探索对语言模型本身的改善潜力。

该成果已以 Oral 形式发表于顶级 AI 会议 ICLR 2026。本届 ICLR 共收到近两万篇投稿,Oral 仅 两百余篇,录取率约 1.1%,是对 Revela 在自监督检索学习领域创新价值的高度认可。

作者介绍

蔡丰宇,德国达姆施塔特工业大学(TU Darmstadt)四年级博士,师从 ACL fellow,前 ACL 主席 Iryna Gurevych 教授及 Heinz Koeppl 教授。他研究方向涵盖稠密检索、RAG 及 AI for science,在 ICLR,ACL, EMNLP,CVPR 等会议上发表论文十余篇。本硕分别毕业于香港科技大学(HKUST)与洛桑联邦理工学院(EPFL)。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
15个副省级市已明确,浙江2个,江苏仅有1个,湖南、河北1个都无

15个副省级市已明确,浙江2个,江苏仅有1个,湖南、河北1个都无

混沌录
2026-06-01 21:47:13
别阻止娃玩手机!马斯克:刷视频是如何让大脑变笨,得让孩子知晓

别阻止娃玩手机!马斯克:刷视频是如何让大脑变笨,得让孩子知晓

西红柿妈妈
2026-05-27 09:00:18
清华女博士幼子被分居丈夫当街抢走后:远赴南昌 仍未能给3岁儿子过上儿童节

清华女博士幼子被分居丈夫当街抢走后:远赴南昌 仍未能给3岁儿子过上儿童节

红星新闻
2026-06-01 17:43:26
如果中国继续在俄乌冲突中中立,俄罗斯可能要 “重新考虑方向”

如果中国继续在俄乌冲突中中立,俄罗斯可能要 “重新考虑方向”

回京历史梦
2026-05-29 18:32:40
西方巨头做梦都没想到,明明中企已被踢出局,自己却成待宰羔羊?

西方巨头做梦都没想到,明明中企已被踢出局,自己却成待宰羔羊?

混沌录
2026-06-01 23:24:11
不能二次加热的6种食物!医生提醒:吃不完或倒掉,别乱节俭

不能二次加热的6种食物!医生提醒:吃不完或倒掉,别乱节俭

冷眼看世界728
2026-05-12 20:46:26
你知道哪些闷声发大财的职业?网友:感觉他们都是灰色了

你知道哪些闷声发大财的职业?网友:感觉他们都是灰色了

解读热点事件
2026-06-01 00:05:07
洛夫顿又回上海了!球迷偶遇独自一人吃外卖,估计是治疗去的?

洛夫顿又回上海了!球迷偶遇独自一人吃外卖,估计是治疗去的?

篮球资讯达人
2026-06-01 20:27:06
再次交火后,美军发现伊朗18座地下导弹基地,已被推土机修复

再次交火后,美军发现伊朗18座地下导弹基地,已被推土机修复

兵国大事
2026-06-01 22:02:55
突发!广州白云机场一航班落地滑行58分钟,最新细节曝光

突发!广州白云机场一航班落地滑行58分钟,最新细节曝光

西昆仑Bruce
2026-06-01 20:07:24
身价1550亿!凭一己之力让洛阳国企转危为安,如今是上海顶级富豪

身价1550亿!凭一己之力让洛阳国企转危为安,如今是上海顶级富豪

混沌录
2026-06-01 23:24:08
中方严肃定性,16国加入联合军团,共同围剿俄罗斯,日本已经介入

中方严肃定性,16国加入联合军团,共同围剿俄罗斯,日本已经介入

影孖看世界
2026-06-01 23:22:26
属猴人:后半生最大的靠山,不是子女,不是财运,而是这2个人

属猴人:后半生最大的靠山,不是子女,不是财运,而是这2个人

阿龙美食记
2026-05-29 22:02:25
官宣!印度拿下世界杯版权 两届打包价3500万美元 央视花了5亿

官宣!印度拿下世界杯版权 两届打包价3500万美元 央视花了5亿

念洲
2026-06-01 19:22:03
以色列占领十字军建造的黎巴嫩战略堡垒,意味着什么?

以色列占领十字军建造的黎巴嫩战略堡垒,意味着什么?

澎湃新闻
2026-06-01 12:58:33
港独、骂中国人,如今却还想来内地捞金,这3位香港明星令人作呕

港独、骂中国人,如今却还想来内地捞金,这3位香港明星令人作呕

傲傲讲历史
2026-04-19 01:20:08
前线3天损失4400人,如果威胁有用,俄罗斯应该早赢了

前线3天损失4400人,如果威胁有用,俄罗斯应该早赢了

山河路口
2026-06-01 21:16:32
黄仁勋宣布:和宇树科技合作

黄仁勋宣布:和宇树科技合作

浙江之声
2026-06-01 22:22:40
上海千亿AI大模型企业,启动A股IPO辅导

上海千亿AI大模型企业,启动A股IPO辅导

大碗科技
2026-06-01 22:56:27
给近五年最好的10部年代剧排个名:《主角》第6,《人世间》第3

给近五年最好的10部年代剧排个名:《主角》第6,《人世间》第3

草莓解说体育
2026-06-02 01:17:30
2026-06-02 04:59:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13139文章数 142658关注度
往期回顾 全部

科技要闻

黄仁勋演讲实录|40年来PC首次重设计!

头条要闻

伊朗计划彻底封锁霍尔木兹海峡 特朗普回应

头条要闻

伊朗计划彻底封锁霍尔木兹海峡 特朗普回应

体育要闻

杰威:如果我没受伤,我们能击败马刺

娱乐要闻

奚梦瑶婚礼现场图!一双儿女当花童

财经要闻

宇树过会,杭州赢麻了

汽车要闻

奇瑞集团5月销量24.8万辆 同比增长20.5% 出口18.2万辆再创新高

态度原创

艺术
时尚
本地
数码
教育

艺术要闻

吴镇写竹,清清爽爽

夏天裤子不用多买,阔腿裤一整个夏天都能穿,日常出行好打理

本地新闻

用剪纸的方式,打开江苏扬州

数码要闻

惠普推OmniDesk迷你主机:配英特尔新U支持AI加速

教育要闻

我给她钱 换来的不是感激 而是她的谩骂

无障碍浏览 进入关怀版