网易首页 > 网易号 > 正文 申请入驻

ICLR 2026 Oral | Revela:用语言建模重新定义稠密检索器训练

0
分享至



在检索增强生成(RAG)系统中,稠密检索器(Dense Retriever)负责从海量文档库中快速找出与查询语义最相关的段落,是整个系统的核心基础组件。

然而,训练一个高质量的稠密检索器并不容易。对比学习(Contrastive Learning)长期以来是这一领域的主流范式,但存在几个根本性局限:

  • 严重依赖人工标注数据:需要精心构造查询 - 文档正负样本对,在代码、法律等专业领域标注成本极高;
  • 难负样本的困境:随机负样本信号太弱,难负样本挖掘又引入额外复杂性;
  • 与语言模型预训练目标割裂:对比损失与主流大模型的预训练范式(下一词预测)天然不兼容,难以充分复用预训练知识。

这些问题在专业领域和推理密集型检索场景下尤为突出。能否找到一条更自然、更统一的检索器训练路径?来自德国达姆施塔特工业大学(TU Darmstadt)的蔡丰宇及其来自华盛顿大学、卡内基梅隆大学、微软和腾讯 AI 实验室的合作者给出了一个优雅的答案 -Revela:Dense Retriever Learning via Language Modeling,并凭借这一回答斩获ICLR 2026 Oral(约 1.1% 录取率) 和FrontierIR @ AAAI 2026 最佳论文奖



  • 论文链接:https://openreview.net/forum?id=e7pAjJZJWb
  • 代码链接:https://github.com/TRUMANCFY/Revela
  • 模型链接:https://huggingface.co/trumancai/Revela-3b

核心思路:让检索「像语言模型一样学习」

Revela 的核心洞察在于:将稠密检索器的训练目标统一到语言建模框架之下。

语言模型(LM)通过 "预测下一个 token" 来建模 token 之间的依赖关系。Revela 将这一思路类比到检索:如果说 LM 建模的是 token 之间的依赖,那么检索器建模的就是文本块(chunk)之间的依赖

具体而言,Revela 引入了一种批内注意力机制(In-batch Attention):在语言建模时,一个序列的下一词预测不仅条件于自身上文,还通过检索器计算的相似度权重,动态地参考批次中其他相关文档。如图 1 中,红色文本块在预测下一词时 "参考" 了语义相近的紫色文本块,这一过程反过来驱动检索器提高两者之间的相似度分数。检索器的相似度分数就此直接嵌入语言建模的优化目标,实现检索器与语言模型的联合端到端训练,无需任何人工标注的查询 - 文档对



图 1:Revela 训练框架。检索器相似度分数作为批内注意力权重,与语言模型联合端到端训练。红、紫序列中高亮片段展示了检索器如何学会关联语义相近的文本块。

这一设计带来了三个关键优势:

  • 训练目标与预训练高度一致:语言建模正是大模型预训练所采用的目标,Revela 与之天然对齐,能充分激活预训练模型中已有的语义理解能力。
  • 完全自监督,无需标注:原始文本自身的上下文关系即构成训练信号,大幅降低对人工标注的依赖,使方法在数据稀缺的专业领域具备天然优势。
  • 可扩展性强:实验表明,随着检索器规模(从 135M 到 3B)、语言模型规模和批大小的增大,性能持续稳定提升,展现出良好的 Scaling 特性。

方法架构

Revela 的整体架构由两部分组成:负责编码文本,计算相似度的检索器,以及提供语言建模训练信号的语言模型,二者在训练过程中联合优化。



图 2:Revela 的 Transformer Block 架构。

核心创新集中在 LM 的 Transformer Block 内部(图 2)。每一层同时运行两条并行的注意力路径:标准自注意力处理单条序列内部的上下文依赖,输出 ei;批内注意力则在此基础上引入跨文档维度:先对序列自身做自注意力得到 si,再以检索器输出的相似度分数为权重,对批次内其他文档的自注意力输出 ej做交叉注意力并加权聚合得到 bi,最终输出 hi= si+ bi。其中,检索器将批次内所有文档编码为向量,通过两两余弦相似度并经 softmax 归一化,得到文档间的相似度权重矩阵,直接作为批内注意力的聚合权重。

值得注意的是,跨文档注意力的 Key 和 Value 均来自其他文档的 ej,而非 hj,这一设计使批内注意力能够使用只含有序列内部信息的自注意力。两路路径对应图 2 注意力图中左上与右下两个区域,最终输出相加后送入前馈层,共同驱动下一词预测目标。这一设计使检索器的相似度分数直接参与 LM 的反向传播,检索器由此得以被端到端优化。

在训练数据构建上,Revela 将文档切分为 chunk 并分批,确保每个 batch 内包含语义相关的片段,使语言建模信号天然对应有意义的跨文本依赖。训练数据方面,通用检索使用约 34 万篇维基百科文档,代码检索使用 StackOverflow 帖子、技术教程和库文档,均无需任何人工标注的查询-文档对。

实验效果:无标注数据,超越商业 API

Revela 在三大权威基准上进行了系统评估,分别覆盖代码检索(CoIR)推理密集型检索(BRIGHT)通用信息检索(BEIR)三个维度。



表 1:CoIR 代码检索基准上各模型的检索性能(nDCG@10,%)。

代码检索(CoIR): Revela-3B 在 10 项任务平均 nDCG@10 达到 60.1,在无需任何查询 - 文档标注对的前提下,超越了使用海量标注数据训练的 7B 参数有监督模型 E5-Mistral-7b-Instruct(57.3)以及 OpenAI Ada-002(45.6)、Voyage-Code-002(56.3)两个商业 API。在 0.5B 参数规模下,Revela 即超越了同样覆盖代码语料、用 2.7 亿标注对训练的 E5-PT,领先约 10 个百分点。



图 3:BRIGHT(左)与 BEIR(右)基准上的检索性能对比(nDCG@10,%)。

推理密集检索(BRIGHT): Revela-3B 平均 nDCG@10 达到 20.1,仅凭维基百科文本训练,便超越了 E5-Mistral-7b-Instruct(17.9)以及 text-embedding-3-large(OpenAI,17.9)、voyage-large-2-instruct(Voyage,17.9)、cohere-embed-english-v3.0(Cohere,16.6)等主流商业 API,充分体现了语言建模目标对深层语义推理能力的激活效果。

通用检索(BEIR): Revela-3B 与弱监督基线 E5-PT 持平(均为 45.6),但所用训练数据约为其 1/1000,使用计算资源仅为其 1/10,极大降低了训练成本。

意义与展望

Revela 将稠密检索器的训练与语言建模范式统一,打开了多个值得探索的方向:

动态索引构建:Revela 目前通过文档分块来保证 batch 内的语义相关性,更理想的做法是用模型的实时表示对 chunk 动态分组,但这意味着需要在训练过程中持续更新索引,计算成本是亟待解决的挑战。模型与数据的进一步扩展:实验已验证 Revela 在模型规模和 batch 大小上具备良好的 Scaling 特性,扩大训练语料覆盖范围、引入更高效的注意力机制,有望带来进一步的性能提升。反哺语言模型训练:Revela 目前将 LM 视为辅助的训练信号来源,但检索器所学到的文本间语义关联,同样可以反过来用于指导 LM 的 batch 构建,探索对语言模型本身的改善潜力。

该成果已以 Oral 形式发表于顶级 AI 会议 ICLR 2026。本届 ICLR 共收到近两万篇投稿,Oral 仅 两百余篇,录取率约 1.1%,是对 Revela 在自监督检索学习领域创新价值的高度认可。

作者介绍

蔡丰宇,德国达姆施塔特工业大学(TU Darmstadt)四年级博士,师从 ACL fellow,前 ACL 主席 Iryna Gurevych 教授及 Heinz Koeppl 教授。他研究方向涵盖稠密检索、RAG 及 AI for science,在 ICLR,ACL, EMNLP,CVPR 等会议上发表论文十余篇。本硕分别毕业于香港科技大学(HKUST)与洛桑联邦理工学院(EPFL)。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张雪峰公司员工曝现状:办公室锦旗被打包,家长担心卷钱跑路

张雪峰公司员工曝现状:办公室锦旗被打包,家长担心卷钱跑路

一盅情怀
2026-03-27 16:19:26
阿根廷官宣3500万红星无缘世界杯!哭着退出训练,23岁已2次重伤

阿根廷官宣3500万红星无缘世界杯!哭着退出训练,23岁已2次重伤

我爱英超
2026-03-27 22:55:11
赵樱子自爆相亲翻车!6亿豪宅香港富商摘了眼镜帽子后:下不去嘴

赵樱子自爆相亲翻车!6亿豪宅香港富商摘了眼镜帽子后:下不去嘴

观鱼听雨
2026-03-27 17:30:53
此刻苏州堵了!张雪峰追悼会现场一公里的人,通道布满上万束鲜花

此刻苏州堵了!张雪峰追悼会现场一公里的人,通道布满上万束鲜花

火山詩话
2026-03-28 07:57:56
暴跌95%,裁员5万人,全球第二大车企爆大雷

暴跌95%,裁员5万人,全球第二大车企爆大雷

蒋东文
2026-03-27 21:09:47
是战是和信息混乱,伊朗分析美方意图,美国再延“最后通牒”期限

是战是和信息混乱,伊朗分析美方意图,美国再延“最后通牒”期限

环球网资讯
2026-03-28 07:00:38
刚从伊朗回来,说点不中听的:伊朗的真实面目,可能让你很意外

刚从伊朗回来,说点不中听的:伊朗的真实面目,可能让你很意外

复转这些年
2026-03-27 11:24:59
万斯批评内塔尼亚胡!伊朗议长:美军士兵只能藏在酒店和公园,何谈对伊地面战!德国、加拿大、英国、法国、意大利、日本集体呼吁

万斯批评内塔尼亚胡!伊朗议长:美军士兵只能藏在酒店和公园,何谈对伊地面战!德国、加拿大、英国、法国、意大利、日本集体呼吁

每日经济新闻
2026-03-27 23:57:25
巴萨暴怒!拉菲尼亚重伤:休战5周+无缘6场恶战 弗里克批他太鲁莽

巴萨暴怒!拉菲尼亚重伤:休战5周+无缘6场恶战 弗里克批他太鲁莽

风过乡
2026-03-28 06:12:10
苹果新品突然上架,3月27日,全面开售

苹果新品突然上架,3月27日,全面开售

科技堡垒
2026-03-27 13:34:57
国企严查令下发!6类历史遗留问题专项倒查,人人有责,绝不姑息

国企严查令下发!6类历史遗留问题专项倒查,人人有责,绝不姑息

普陀动物世界
2026-03-28 00:17:08
张雪峰女儿发声悼念惹泪目,员工回应其二婚爆料,灵堂遗照已曝光

张雪峰女儿发声悼念惹泪目,员工回应其二婚爆料,灵堂遗照已曝光

小徐讲八卦
2026-03-28 06:21:26
她找到了亲生父亲,并嫁给了他:两年后,他杀了她和他们的孩子

她找到了亲生父亲,并嫁给了他:两年后,他杀了她和他们的孩子

三目观史
2026-03-26 22:05:39
炸! 20岁华人开车在美军基地放炸弹后逃回中国! 姐姐毁灭证据被抓

炸! 20岁华人开车在美军基地放炸弹后逃回中国! 姐姐毁灭证据被抓

北国向锡安
2026-03-27 09:00:38
广东传1好3坏消息!关辛谈焦泊乔离队,比输球更可怕的麻烦出现了

广东传1好3坏消息!关辛谈焦泊乔离队,比输球更可怕的麻烦出现了

后仰大风车
2026-03-28 07:10:11
新华鲜报|在博鳌,世界感受中国“稳定锚”作用

新华鲜报|在博鳌,世界感受中国“稳定锚”作用

新华社
2026-03-27 22:47:13
金融圈巨震!巴曙松涉嫌经济类犯罪,金额巨大,妻子也一起失联,还和广发银行失联独董有关

金融圈巨震!巴曙松涉嫌经济类犯罪,金额巨大,妻子也一起失联,还和广发银行失联独董有关

南财社V
2026-03-27 22:08:42
刚刚,伊朗导弹再袭美军基地,“数架加油机被摧毁或重创”!伊朗已动员超过100万名作战人员,警告打击以色列及多国钢铁厂

刚刚,伊朗导弹再袭美军基地,“数架加油机被摧毁或重创”!伊朗已动员超过100万名作战人员,警告打击以色列及多国钢铁厂

每日经济新闻
2026-03-28 01:21:05
深夜利空,美联储加息20基点,黄金跌11%,白银暴跌13%,逻辑逆转

深夜利空,美联储加息20基点,黄金跌11%,白银暴跌13%,逻辑逆转

鹏哥投研
2026-03-27 10:40:49
网红“留几手”评论张雪峰去世言论引众怒:“死者又不是我爹,凭什么为大...”

网红“留几手”评论张雪峰去世言论引众怒:“死者又不是我爹,凭什么为大...”

品牌新
2026-03-27 14:06:12
2026-03-28 09:23:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12619文章数 142596关注度
往期回顾 全部

科技要闻

遭中国学界"拉黑"后,这家AI顶会低头道歉

头条要闻

伊朗称美以袭击"黄饼"生产厂 伊朗疑摧毁美数架加油机

头条要闻

伊朗称美以袭击"黄饼"生产厂 伊朗疑摧毁美数架加油机

体育要闻

邵佳一:足球就像一场马拉松

娱乐要闻

范玮琪加盟,官宣《浪姐7》遭全网抵制

财经要闻

我在小吃培训机构学习“科技与狠活”

汽车要闻

与众08,金标大众不能输的一战

态度原创

教育
本地
艺术
游戏
家居

教育要闻

中科大少年班男生课堂上扔水杯,厅长教授机智应对

本地新闻

在潍坊待了三天,没遇到一个“潍坊人”

艺术要闻

华国锋与耿飚的草书书信,你见过吗?气势恢宏引发热议!

PS5 Pro变天价?外媒:Xbox的低价吸引力超乎想象!

家居要闻

曲线华尔兹 现代简约

无障碍浏览 进入关怀版