超越RAG！R1-Searcher融合搜推，借强化学习破LLMs推理局限！|算法|调用

超越RAG！R1-Searcher融合搜推，借强化学习破LLMs推理局限！

分享至

始智AI wisemodel.cn开源社区

始智AI wisemodel.cn社区是源自中国的中立开放的AI开源社区。正在，欢迎加入共同成长。wisemodel社区上线，最新上线4090资源不限量，价格实惠，灵活方便，支持在线微调训练模型，及和，并。

现有的大型推理模型（LRMs）已经展示了强化学习（RL）在增强大型语言模型（LLMs）复杂推理能力方面的潜力。虽然它们在数学和编程等具有挑战性的任务上表现出色，但它们通常依赖于内部知识来解决问题，这在处理时效性强或知识密集型问题时可能显得不足，从而导致不准确性和幻觉现象。

为了解决这一问题，研究团队提出了R1-Searcher，这是一种新颖的基于结果的两阶段强化学习方法，旨在增强LLMs的搜索能力。该方法允许LLMs在推理过程中自主调用外部搜索系统以获取额外知识。它的框架完全依赖于强化学习，无需过程奖励或冷启动时的蒸馏。现已上线始智AI-wisemodel开源社区，欢迎体验。

模型地址

https://wisemodel.cn/models/CuteXxSong/Llama-3.1-8B-instruct-RAG-RL

https://wisemodel.cn/models/CuteXxSong/Qwen-2.5-7B-base-RAG-RL

01.

模型概述

大型推理模型（LRMs），例如OpenAI-o1、DeepSeek-R1和Kimi-k1.5，已经展示了强化学习（RL）在增强大型语言模型（LLMs）推理能力方面的显著影响。

然而，由于这些模型主要依赖内部知识，它们在处理开放式任务时可能会遇到困难，尤其是在涉及知识密集型问题、本地数据库中的私有信息以及时效性问题时。

这种依赖可能导致不准确性和幻觉现象。因此，使LLMs在推理过程中能够访问外部信息以实现更审慎的推理是至关重要的。

文章介绍了R1-Searcher，这是一种新颖的框架，旨在通过强化学习（RL）增强LLMs的RAG能力。核心动机是通过模型探索外部检索环境，激励LLMs的检索能力。

为此，研究团队设计了一种基于结果奖励的两阶段RL方法，使模型能够通过定制的奖励设计，在推理过程中自由探索如何调用外部检索系统以获取相关知识。

研究团队的方法完全依赖于基于结果奖励的RL，允许模型通过探索和学习自主学习，无需任何蒸馏或通过SFT进行冷启动。为了支持LLMs与外部检索环境在训练过程中的探索，研究团队进一步提出了一种基于Reinforce++的改进RL训练方法，该方法结合了 RAG-based Rollout 和 Retrieval Mask-Based Loss Calculation两种改进以适应检索增强生成的场景。

02.

方法简介

团队使用两阶段结果监督强化学习，整体基于Reinforce++算法。在第一阶段，模型被训练以有效利用外部检索系统，在第二阶段，模型被训练在推理过程中整合检索，以准确解答问题。研究团队通过奖励设计实现两阶段训练：

第一阶段，reward由retrieval-reward和format-reward组成，如果模型在推理过程中进行了检索，就会得到retrieval-reward，旨在让模型学会调用工具的格式；

第二阶段，retrieval-reward被替换为answer-reward，让模型更自由地进行探索，answer-reward是标准答案和预测答案的F1-Score，旨在让模型学会正确调用工具解决问题。

另外，研究团队对Reinforce++算法进行了修改以适应检索增强生成场景。研究团队的目标是让模型在面对不确定性时能够自主获取外部知识，从而有效整合推理和检索。

为了无缝整合检索到的文档并确保模型优化的合理性，研究团队对原始算法进行了两项改进：RAG-based Rollout和Retrieval Mask-based Loss Calculation。

RAG-based Rollout：研究团队使用标签...来引导模型在生成过程中调用外部检索系统。捕捉到模型需要进行检索时，推理暂停并进行检索。检索到的文档被封装在...标签中，并整合到模型的推理过程中。这种方法确保检索无缝融入推理过程，使模型能够基于检索到的文档继续推理，而不被打断。

Retrieval Mask-based Loss Calculation：当模型执行检索时，检索到的文档作为环境观察的一部分被整合到推理过程中。然而，模型并不需要自主生成这些文档。为了减少环境的影响，研究团队将...指定为特殊标记，并在训练中对其进行掩码处理。这可以防止这些外部标记影响损失计算，确保检索到的文档不会干扰模型的内在推理和生成过程。

03.

实验结果

团队独特的R1-Searcher方法，在多跳问答任务领域展现出非凡实力，具有多方面突出特点。

多跳问答性能飞跃：相比于最好的基线ReARTeR，R1-Searcher使用相同的LLaMA-3.1-8B-Instruct作为backbone，实现了显著的性能提升：在HotpotQA上提升了48.2%，在2WikiMultiHopQA上提升了21.7%，在Bamboogle上提升了4.0%（LLM-as-Judge）。这表明团队的方法可以有效地促进模型在推理过程中进行准确的检索调用。

RL学习全新路径：从基础LLM开始进行RL学习，无需冷启动，研究团队从头开始使用强大的基础模型（如Qwen-2.5-7B-Base）进行RL学习。

令人惊讶的是，团队能够取得更好的结果，并在大多数领域内和领域外的数据集上获得最佳性能，甚至超过了闭源的LLM，如GPT-4o-mini。这些结果展示了研究团队的两阶段RL方法在指导LLMs学习过程中的有效性。

泛化能力出色保持：研究团队仅使用HotpotQA和2WikiMultiHopQA训练集中的8148个样本进行RL训练。该模型不仅在这些领域内数据集上表现出色，还在领域外数据集（如Musique和Bamboogle）上展示了强大的泛化能力。

这表明模型通过在RL训练期间的探索，有效地学习了检索并将其与推理相结合，从而在需要检索的新测试数据集上实现稳健的性能。

另外，为了评估模型对于联网搜索泛化能力，研究团队在最新提出的Bamboogle任务上进行联网搜索的测试，这种设定在RL训练期间并未遇到。

如下图所示，研究团队的模型相较于使用相同Qwen-2.5-7B-Base作为backbone的本地检索系统，性能提升了18.2%。

此外，与使用相同在线搜索但骨干模型更大的32B的Search-o1相比，研究团队的模型性能提升了11.4%。这表明该模型能够适应在线搜索场景，并且R1-Searcher使模型能够在推理过程中检索信息，而不仅仅是记忆响应格式。

04.

更多讨论

针对以下问题进行了更详细的实验和分析，完整的分析请看原论文：

GRPO和Reinforce++算法的比较

结论：GRPO的生成solution更长和检索频率更高。GRPO在领域外测试数据集（如Bamboogle）上也展现出更好的性能；而Reinforce++在领域内测试集（如HotpotQA和2Wiki）上表现更优。

RL和SFT的比较

结论：RL在领域内和领域外的测试集上均优于SFT。SFT能够帮助模型生成检索查询，但这些查询的时机和相关性不如通过RL训练生成的查询。

Reward的设计对训练的影响

结论：基于F1的答案奖励能够产生更长的回答长度和更优的最终结果；基于EM的奖励在训练过程中导致回答长度较短，并且在测试时表现不如基于CEM或F1的奖励；基于CEM的奖励会生成带有不必要信息的偏长的answer。

数据难度分布和数据多样性对训练的影响

结论：使用混合数据集训练的模型在检索次数和生成回答长度上都有所增加，并且在测试集上取得了更高的分数；训练数据中混入较高难度的数据可以在领域内和领域外的测试集上均取得更好的效果。

05.

案例展示

编辑丨赵雅鑫

----- END -----

wisemodel相关：

系统升级：

大赛报名：

系列模型：

关于wisemodel更多

欢迎持续关注和支持

开源社区建设需要长期坚持和投入，更需要广大用户的积极参与、贡献和维护，欢迎大家加入wisemodel开源社区的志愿者计划和开源共创计划。期待更多开发者将开源成果，包括模型、数据集和代码等发布到 wisemodel.cn 社区，共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信，申请加入wisemodel社群，持续关注wisemodel.cn开源社区动态。

欢迎加盟wisemodel开源社区

始智AI wisemodel社区自2023年9月上线以来，逐渐成为影响力日益扩大的中立开放的AI开源社区，为了加快公司发展，我们长期需要技术、运营等人才加盟，技术侧重在AI infra、后端开发，熟悉K8S、模型训练和推理等技术，以及熟悉开发者生态运营的成员，欢迎感兴趣的朋友加盟，可以通过添加wisemodel微信，或者将简历投递到邮箱：liudaoquan@wisemodel.cn

欢迎投稿优质内容

欢迎投稿分享人工智能领域相关的优秀研究成果，鼓励高校实验室、大企业研究团队、个人等，在wisemodel平台上分享各类优质内容，可以是AI领域最新论文解读、最新开源成果介绍，也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到liudaoquan@wisemodel.cn，也可以扫码添加wisemodel微信。

关于wisemodel开源社区

始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立，旨在打造和建设中立开放的AI开源创新社区，将打造成“HuggingFace”之外最活跃的AI开源社区，汇聚主要AI开源模型、数据集和代码等，欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者，以及政府部门、学会协会、联盟、基金会等，还有投资机构、科技媒体等，共同参与建设AI开源创新生态。

向上滑动查看

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.