网易首页 > 网易号 > 正文 申请入驻

打破瓶颈,让RAG学会思考:中科大、智源等发布推理检索框架

0
分享至


机器之心发布

机器之心编辑部

人工智能的浪潮正将我们推向一个由 RAG 和 AI Agent 定义的新时代。然而,要让这些智能体真正「智能」,而非仅仅是信息的搬运工,就必须攻克一个横亘在所有顶尖团队面前的核心难题。这个难题,就是推理密集型信息检索(Reasoning-Intensive IR)

它不仅是当前 RAG 和 AI Agent 技术发展的关键瓶颈,更对大模型智能体和深度研究(DeepResearch)等应用场景的成败具有决定性意义。

正当全球研究者都在为此寻求突破之际,我们看到了一项来自中国的贡献:BGE-Reasoner

BGE-Reasoner 由来自中国科学技术大学、智源研究院、北京邮电大学与香港理工大学等机构的联合团队研发,是一套用于推理密集型信息检索任务的创新的端到端解决方案。通过系统性的查询理解、向量检索与重排序,该方案可显著提升搜索引擎在推理密集型信息检索任务中的表现。

在权威评测基准 BRIGHT 上,BGE-Reasoner 取得45.2的测试得分,以显著优势刷新了该基准的最佳纪录。

作为 BGE 系列模型的又一重要里程碑,BGE-Reasoner 不仅实现了性能上的突破,更为解决推理密集型检索这一行业难题提供了一套行之有效的新范式。从技术洞察来看,本次成果的核心创新主要体现在以下三个方面:

  1. 一个可复制的框架: 提出了一个由 Rewriter、Embedder 和 Reranker 组成的三阶段模块化框架,为处理复杂查询提供了清晰、高效的工程范式。
  2. 数据驱动创新: 探索并证明了利用大模型合成高质量、多领域推理训练数据的可行性,巧妙地解决了该领域训练数据稀缺的核心瓶颈。
  3. 强化学习赋能: 成功将强化学习应用于 Reranker 训练,让模型在面对困难样本时具备了更强的推理和泛化能力。

相关模型权重、训练代码及训练数据即将面向社区开放,进一步推动该领域的研究与应用发展。

项目主页:https://github.com/FlagOpen/FlagEmbedding/tree/master/research/BGE_Reasoner

简介

推理密集型信息检索(Reasoning-Intensive IR)是近年来兴起的一类新型信息检索任务。与传统检索不同,它不仅依赖语义匹配,还需要综合运用深层逻辑推理、多步语义链以及相关背景知识,才能在查询与目标文档之间建立起正确的语义关联。

为推动该领域研究,香港大学、普林斯顿大学和斯坦福大学联合提出了首个面向推理密集型检索的权威评测基准BRIGHT。该基准汇集了来自StackExchangeLeetCode数学竞赛等领域的真实查询,并将其与需要多步推理才能识别的相关文档进行配对,用于评估检索系统在复杂推理场景下的能力。

在 BRIGHT 基准下,传统依赖关键词匹配或简单语义相似度的方法往往难以定位真正相关的目标文档,暴露出当前检索系统在复杂推理场景中的不足。因此,如何在推理密集型检索中提升系统性能,成为推动检索增强生成(RAG)在复杂推理任务中发展的关键问题。

图 1. 不同于基于关键词和直接语义匹配的检索任务,BRIGHT 评测基准关注于推理密集型场景下的检索任务

在这一背景下,BGE-Reasoner在推理密集型检索任务中展现出卓越性能。在BRIGHT榜单中,它超越了此前由蚂蚁、百度、字节跳动、人民大学、滑铁卢大学等机构提交的成果,并以领先第二名 3.6 分的优势刷新纪录。与此同时,其内置向量模型BGE-Reasoner-Embed也大幅超越了 Seed1.5-Embedding、Qwen3-Embedding、GTE 等当前最强基线模型,展现了显著的性能提升。

图 2. 在 BRIGHT 榜单上,BGE-Reasoner 取得 SOTA 表现于 8 月 21 日荣登第一名,BGE-Reasoner-Embed 使用原生查询即表现出色,在向量模型中取得 SOTA 结果,榜单链接:https://brightbenchmark.github.io

图 3. BGE-Reasoner 及 BGE-Reasoner-Embed 与基线模型在 BRIGHT 上的检索表现对比图

技术分析

BGE-Reasoner采用信息检索中的经典三模块体系:

  • 查询理解—— BGE-Reasoner-Rewriter:对初始查询进行理解与改写,生成更适合检索的优化查询;
  • 向量模型—— BGE-Reasoner-Embed:与BM25协同利用改写后的查询进行检索,获取候选文档集合;
  • 排序模型—— BGE-Reasoner-Reranker:对候选文档进行重排序,得到更为准确的排序结果。

在实际工作流程中,用户的原始查询首先经过BGE-Reasoner-Rewriter改写,然后由BGE-Reasoner-EmbedBM25并行检索得到候选文档,最后交由BGE-Reasoner-Reranker进行精排。系统通过集成多路结果,输出最终排序,完成端到端的推理式检索流程。完整框架如下图所示:

图 4. BGE-Reasoner 的端到端检索流程示意图

数据合成。不同于传统的开放式问答场景,推理密集型信息检索场景下的训练数据十分稀缺。为了解决这一问题,智源及合作机构的研究团队诉诸于基于大语言模型的数据合成策略。具体来说,基于现实场景中存在的知识密集型语料库,合成出针对特定场景的高质量推理密集型查询,然后借助于大语言模型强大的理解能力为每个查询构造出高质量的正例和负例。最终构造出一份覆盖数学、代码等多个领域的高质量推理密集型检索训练数据,为后续各个模块的训练提供支撑。

查询理解。在查询理解模块中,研究人员基于前述合成数据,借助推理能力较强的教师模型生成多条推理路径,并通过拒绝采样策略筛选高质量结果以构建训练样本。随后,利用这些训练数据对 Qwen2.5-7B-Instruct 模型进行微调,从而显著提升其在查询理解与改写方面的能力,最终得到 BGE-Reasoner-Rewriter。

向量模型。内嵌的向量模型 BGE-Reasoner-Embed 基于 Qwen3-8B 基座模型进行微调。依托高质量的合成训练数据,模型在推理密集型检索任务中的能力得到了显著增强。在 BRIGHT 基准下,无论是基于原始查询还是 GPT-4 推理查询,BGE-Reasoner-Embed 均取得了当前向量模型中的最佳检索表现,充分验证了所构建合成数据的有效性。

排序模型。内嵌的排序模型 BGE-Reasoner-Reranker 基于 Qwen3 系列基座模型进行微调。结合任务场景下的相关性定义,模型能够在查询与候选文档之间展开细粒度推理,识别关键信息片段并准确评估相关性。在训练过程中,引入强化学习以提升模型在困难样本上的推理能力;在推理阶段,模型通过测试时扩展(test-time augmentation)获取更加稳健的相关性评分,从而进一步增强排序性能。

图 5. BGE-Reasoner-Reranker 的推理过程示意图

总结

BGE-Reasoner 的卓越表现充分验证了强化学习与合成数据在推理密集型信息检索中的重要作用,为未来 Agent Search 的发展提供了关键支撑。

智源研究院将持续深耕向量模型与检索增强技术,不断提升 BGE 系列模型的能力与通用性。未来期待与更多科研机构及产业伙伴合作,共同推动检索与人工智能的发展,欢迎研究者与开发者关注并使用 BGE 系列模型,共建开放繁荣的开源生态。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
拿了奥斯卡,她本可以躺着赚钱,却偏要折腾自己

拿了奥斯卡,她本可以躺着赚钱,却偏要折腾自己

桃桃淘电影
2026-05-02 12:00:29
春晚三请不动他,却没人敢骂一句耍大牌!这个“隐形天王”凭什么

春晚三请不动他,却没人敢骂一句耍大牌!这个“隐形天王”凭什么

小兰聊历史
2026-05-03 12:19:45
美媒:特朗普下台了也没用,他的出现不是意外,而是美国命该如此

美媒:特朗普下台了也没用,他的出现不是意外,而是美国命该如此

史行途
2026-05-05 01:01:21
没想到她现实中也这么好看,难怪那么多人喜欢她,这换谁谁不爱啊

没想到她现实中也这么好看,难怪那么多人喜欢她,这换谁谁不爱啊

老吴教育课堂
2026-05-02 18:42:43
江苏,正在严查!

江苏,正在严查!

童童聊娱乐啊
2026-05-04 19:34:26
71.5%!历史性暴跌,以贷养贷的泡沫崩了

71.5%!历史性暴跌,以贷养贷的泡沫崩了

月满大江流
2026-04-16 13:54:38
男子中奖9000万按母亲建议先请病假,没想部门人反应让他懵了

男子中奖9000万按母亲建议先请病假,没想部门人反应让他懵了

晓艾故事汇
2026-04-25 09:18:26
俄罗斯为啥罕见卖油给日本?欧佩克+宣布增产……

俄罗斯为啥罕见卖油给日本?欧佩克+宣布增产……

新民周刊
2026-05-04 13:05:22
比导弹便宜万倍!中国 LW30 一出场,无人机当场变废铁

比导弹便宜万倍!中国 LW30 一出场,无人机当场变废铁

小兰聊历史
2026-04-18 14:25:14
李小璐写真生图高清

李小璐写真生图高清

翩翩明星
2025-11-14 09:39:36
金靖晒多张美图展示S型身材,手臂纤细腹肌明显,网友评论区集体夸爆,此前晒出减重秘诀:保暖和睡眠很重要

金靖晒多张美图展示S型身材,手臂纤细腹肌明显,网友评论区集体夸爆,此前晒出减重秘诀:保暖和睡眠很重要

台州交通广播
2026-05-04 21:17:53
多尔衮死后,顺治询问大臣如何处置他的儿女,大臣:嫁给蒙古王公

多尔衮死后,顺治询问大臣如何处置他的儿女,大臣:嫁给蒙古王公

史笔似尘钩
2024-08-28 21:33:06
辽宁男篮大调整!外援一个不留,11人合同到期,乌戈或留任

辽宁男篮大调整!外援一个不留,11人合同到期,乌戈或留任

体坛瞎白话
2026-05-04 07:00:26
中国向联合国发出警告:东京具有提取武器级钚能力,足以制造约5500枚核弹头,任由其右翼势力推动发展强力进攻性武器,将再次为祸国际社会

中国向联合国发出警告:东京具有提取武器级钚能力,足以制造约5500枚核弹头,任由其右翼势力推动发展强力进攻性武器,将再次为祸国际社会

鲁中晨报
2026-05-04 07:53:05
小刀前夫有新孩子了?张凌赫有大佬撑腰?吴磊带新人?陈昊宇插足?姨太问答

小刀前夫有新孩子了?张凌赫有大佬撑腰?吴磊带新人?陈昊宇插足?姨太问答

毒舌扒姨太
2026-05-04 22:50:51
特朗普回绝伊朗新方案,美军今起大规模护航霍尔木兹

特朗普回绝伊朗新方案,美军今起大规模护航霍尔木兹

界面新闻
2026-05-04 08:22:44
英超35轮结束:切尔西曼城双双爆冷,积分榜出炉

英超35轮结束:切尔西曼城双双爆冷,积分榜出炉

阿嚼影视评论
2026-05-05 05:58:34
这才是抗战时期毛主席的真实相貌,美国人拍摄,衣服破旧令人动容

这才是抗战时期毛主席的真实相貌,美国人拍摄,衣服破旧令人动容

兴趣知识
2026-05-01 00:57:05
蛇吞象?生产歼-20的中国军工巨头174亿就被收购了,用意耐人寻味

蛇吞象?生产歼-20的中国军工巨头174亿就被收购了,用意耐人寻味

趣文说娱
2026-04-23 19:52:36
开赛12分钟才到西班牙 姆巴佩引众怒 有他皇马7战1胜没他则7战6胜

开赛12分钟才到西班牙 姆巴佩引众怒 有他皇马7战1胜没他则7战6胜

风过乡
2026-05-04 07:19:50
2026-05-05 06:39:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12905文章数 142640关注度
往期回顾 全部

科技要闻

在中国市场搞「付费订阅」,豆包咋想的?

头条要闻

视频:特朗普出席活动前传枪声 特勤局出动封锁白宫

头条要闻

视频:特朗普出席活动前传枪声 特勤局出动封锁白宫

体育要闻

骑士破猛龙:加雷特·阿伦的活力

娱乐要闻

张敬轩还是站上了英皇25周年舞台

财经要闻

魔幻的韩国股市,父母给婴儿开户买股票

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

亲子
房产
健康
旅游
军事航空

亲子要闻

外国妈妈生下我们姐弟仨,身份证上是什么民族?

房产要闻

五一楼市彻底明牌!塔尖人群都在重仓凯旋新世界

干细胞治烧烫伤面临这些“瓶颈”

旅游要闻

假期沪郊露营地人气旺,林下经济激活乡村休闲新场景

军事要闻

特朗普回绝伊朗新方案

无障碍浏览 进入关怀版