网易首页 > 网易号 > 正文 申请入驻

超越RAG!R1-Searcher融合搜推,借强化学习破LLMs推理局限!

0
分享至

始智AI wisemodel.cn开源社区

始智AI wisemodel.cn社区是源自中国的中立开放的AI开源社区。正在,欢迎加入共同成长。wisemodel社区上线,最新上线4090资源不限量,价格实惠,灵活方便,支持在线微调训练模型,及和,并。

现有的大型推理模型(LRMs)已经展示了强化学习(RL)在增强大型语言模型(LLMs)复杂推理能力方面的潜力。虽然它们在数学和编程等具有挑战性的任务上表现出色,但它们通常依赖于内部知识来解决问题,这在处理时效性强或知识密集型问题时可能显得不足,从而导致不准确性和幻觉现象。

为了解决这一问题,研究团队提出了R1-Searcher这是一种新颖的基于结果的两阶段强化学习方法,旨在增强LLMs的搜索能力。该方法允许LLMs在推理过程中自主调用外部搜索系统以获取额外知识。它的框架完全依赖于强化学习,无需过程奖励或冷启动时的蒸馏。现已上线始智AI-wisemodel开源社区,欢迎体验。

模型地址

https://wisemodel.cn/models/CuteXxSong/Llama-3.1-8B-instruct-RAG-RL

https://wisemodel.cn/models/CuteXxSong/Qwen-2.5-7B-base-RAG-RL

01.

模型概述

大型推理模型(LRMs),例如OpenAI-o1、DeepSeek-R1和Kimi-k1.5,已经展示了强化学习(RL)在增强大型语言模型(LLMs)推理能力方面的显著影响。

然而,由于这些模型主要依赖内部知识,它们在处理开放式任务时可能会遇到困难,尤其是在涉及知识密集型问题、本地数据库中的私有信息以及时效性问题时。

这种依赖可能导致不准确性和幻觉现象。因此,使LLMs在推理过程中能够访问外部信息以实现更审慎的推理是至关重要的。

文章介绍了R1-Searcher,这是一种新颖的框架,旨在通过强化学习(RL)增强LLMs的RAG能力。核心动机是通过模型探索外部检索环境,激励LLMs的检索能力。

为此,研究团队设计了一种基于结果奖励的两阶段RL方法,使模型能够通过定制的奖励设计,在推理过程中自由探索如何调用外部检索系统以获取相关知识。

研究团队的方法完全依赖于基于结果奖励的RL,允许模型通过探索和学习自主学习,无需任何蒸馏或通过SFT进行冷启动。为了支持LLMs与外部检索环境在训练过程中的探索,研究团队进一步提出了一种基于Reinforce++的改进RL训练方法,该方法结合了 RAG-based Rollout 和 Retrieval Mask-Based Loss Calculation两种改进以适应检索增强生成的场景。

02.

方法简介

团队使用两阶段结果监督强化学习,整体基于Reinforce++算法。在第一阶段,模型被训练以有效利用外部检索系统,在第二阶段,模型被训练在推理过程中整合检索,以准确解答问题。研究团队通过奖励设计实现两阶段训练:

第一阶段,reward由retrieval-reward和format-reward组成,如果模型在推理过程中进行了检索,就会得到retrieval-reward,旨在让模型学会调用工具的格式;

第二阶段,retrieval-reward被替换为answer-reward,让模型更自由地进行探索,answer-reward是标准答案和预测答案的F1-Score,旨在让模型学会正确调用工具解决问题。

另外,研究团队对Reinforce++算法进行了修改以适应检索增强生成场景。研究团队的目标是让模型在面对不确定性时能够自主获取外部知识,从而有效整合推理和检索。

为了无缝整合检索到的文档并确保模型优化的合理性,研究团队对原始算法进行了两项改进:RAG-based Rollout和Retrieval Mask-based Loss Calculation。

RAG-based Rollout:研究团队使用标签...来引导模型在生成过程中调用外部检索系统。捕捉到模型需要进行检索时,推理暂停并进行检索。检索到的文档被封装在...标签中,并整合到模型的推理过程中。这种方法确保检索无缝融入推理过程,使模型能够基于检索到的文档继续推理,而不被打断。

Retrieval Mask-based Loss Calculation:当模型执行检索时,检索到的文档作为环境观察的一部分被整合到推理过程中。然而,模型并不需要自主生成这些文档。为了减少环境的影响,研究团队将...指定为特殊标记,并在训练中对其进行掩码处理。这可以防止这些外部标记影响损失计算,确保检索到的文档不会干扰模型的内在推理和生成过程。

03.

实验结果

团队独特的R1-Searcher方法,在多跳问答任务领域展现出非凡实力,具有多方面突出特点。

多跳问答性能飞跃:相比于最好的基线ReARTeR,R1-Searcher使用相同的LLaMA-3.1-8B-Instruct作为backbone,实现了显著的性能提升:在HotpotQA上提升了48.2%,在2WikiMultiHopQA上提升了21.7%,在Bamboogle上提升了4.0%(LLM-as-Judge)。这表明团队的方法可以有效地促进模型在推理过程中进行准确的检索调用。

RL学习全新路径:从基础LLM开始进行RL学习,无需冷启动,研究团队从头开始使用强大的基础模型(如Qwen-2.5-7B-Base)进行RL学习。

令人惊讶的是,团队能够取得更好的结果,并在大多数领域内和领域外的数据集上获得最佳性能,甚至超过了闭源的LLM,如GPT-4o-mini。这些结果展示了研究团队的两阶段RL方法在指导LLMs学习过程中的有效性。

泛化能力出色保持:研究团队仅使用HotpotQA和2WikiMultiHopQA训练集中的8148个样本进行RL训练。该模型不仅在这些领域内数据集上表现出色,还在领域外数据集(如Musique和Bamboogle)上展示了强大的泛化能力。

这表明模型通过在RL训练期间的探索,有效地学习了检索并将其与推理相结合,从而在需要检索的新测试数据集上实现稳健的性能。

另外,为了评估模型对于联网搜索泛化能力,研究团队在最新提出的Bamboogle任务上进行联网搜索的测试,这种设定在RL训练期间并未遇到。

如下图所示,研究团队的模型相较于使用相同Qwen-2.5-7B-Base作为backbone的本地检索系统,性能提升了18.2%。

此外,与使用相同在线搜索但骨干模型更大的32B的Search-o1相比,研究团队的模型性能提升了11.4%。这表明该模型能够适应在线搜索场景,并且R1-Searcher使模型能够在推理过程中检索信息,而不仅仅是记忆响应格式。

04.

更多讨论

针对以下问题进行了更详细的实验和分析,完整的分析请看原论文:

GRPO和Reinforce++算法的比较

结论:GRPO的生成solution更长和检索频率更高。GRPO在领域外测试数据集(如Bamboogle)上也展现出更好的性能;而Reinforce++在领域内测试集(如HotpotQA和2Wiki)上表现更优。

RL和SFT的比较

结论:RL在领域内和领域外的测试集上均优于SFT。SFT能够帮助模型生成检索查询,但这些查询的时机和相关性不如通过RL训练生成的查询。

Reward的设计对训练的影响

结论:基于F1的答案奖励能够产生更长的回答长度和更优的最终结果;基于EM的奖励在训练过程中导致回答长度较短,并且在测试时表现不如基于CEM或F1的奖励;基于CEM的奖励会生成带有不必要信息的偏长的answer。

数据难度分布和数据多样性对训练的影响

结论:使用混合数据集训练的模型在检索次数和生成回答长度上都有所增加,并且在测试集上取得了更高的分数;训练数据中混入较高难度的数据可以在领域内和领域外的测试集上均取得更好的效果。

05.

案例展示

编辑丨赵雅鑫

----- END -----

wisemodel相关:

系统升级:

大赛报名:

系列模型:

关于wisemodel更多

1

欢迎持续关注和支持

开源社区建设需要长期坚持和投入,更需要广大用户的积极参与、贡献和维护,欢迎大家加入wisemodel开源社区的志愿者计划和开源共创计划。期待更多开发者将开源成果,包括模型、数据集和代码等发布到 wisemodel.cn 社区,共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信,申请加入wisemodel社群,持续关注wisemodel.cn开源社区动态。

2

欢迎加盟wisemodel开源社区

始智AI wisemodel社区自2023年9月上线以来,逐渐成为影响力日益扩大的中立开放的AI开源社区,为了加快公司发展,我们长期需要技术、运营等人才加盟,技术侧重在AI infra、后端开发,熟悉K8S、模型训练和推理等技术, 以及熟悉开发者生态运营的成员,欢迎感兴趣的朋友加盟,可以通过添加wisemodel微信,或者将简历投递到邮箱:liudaoquan@wisemodel.cn

3

欢迎投稿优质内容

欢迎投稿分享人工智能领域相关的优秀研究成果,鼓励高校实验室、大企业研究团队、个人等,在wisemodel平台上分享各类优质内容,可以是AI领域最新论文解读、最新开源成果介绍,也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到liudaoquan@wisemodel.cn,也可以扫码添加wisemodel微信。

4

关于wisemodel开源社区

始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立,旨在打造和建设中立开放的AI开源创新社区,将打造成“HuggingFace”之外最活跃的AI开源社区,汇聚主要AI开源模型、数据集和代码等,欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者,以及政府部门、学会协会、联盟、基金会等,还有投资机构、科技媒体等,共同参与建设AI开源创新生态。

向上滑动查看

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
韩国球迷抗议,让中国承担他们世界杯费用,是中国国足坑了他们

韩国球迷抗议,让中国承担他们世界杯费用,是中国国足坑了他们

安珈使者啊
2026-06-30 14:18:04
韩红“走个面”翻出旧账:《天路》《青藏高原》,她一直不是原唱

韩红“走个面”翻出旧账:《天路》《青藏高原》,她一直不是原唱

李晚书
2026-06-30 19:35:02
35岁男子收到岗位被 AI 取代通知,拒绝大幅降薪后被单位开除。

35岁男子收到岗位被 AI 取代通知,拒绝大幅降薪后被单位开除。

HR蔷薇
2026-06-30 16:03:56
伊藤洋辉:90分钟我们几乎一直被巴西压制;感受到了和对手的差距

伊藤洋辉:90分钟我们几乎一直被巴西压制;感受到了和对手的差距

懂球帝
2026-06-30 13:29:07
民警张义文,牺牲在女儿高考前一个月

民警张义文,牺牲在女儿高考前一个月

深圳晚报
2026-06-30 17:55:34
感谢德国队!巴拉圭全国放假一天,德国本届世界杯第2次送假期

感谢德国队!巴拉圭全国放假一天,德国本届世界杯第2次送假期

全景体育V
2026-06-30 09:17:23
保时捷女销冠再获2026年上半年销冠,本人回应:虽然累,但从未经历倦怠期,希望冲刺全球销量排名

保时捷女销冠再获2026年上半年销冠,本人回应:虽然累,但从未经历倦怠期,希望冲刺全球销量排名

极目新闻
2026-06-30 15:19:55
网红一栗小莎子最后一次化疗:最后一次治疗前,记一下普通的一天

网红一栗小莎子最后一次化疗:最后一次治疗前,记一下普通的一天

韩小娱
2026-06-30 16:43:17
飞机最后面仓位的空姐视角,难得一见

飞机最后面仓位的空姐视角,难得一见

微微热评
2026-06-30 12:40:16
突发!以色列宣布:打死伊斯梅尔·马斯里!以防长:明天就可能与伊朗进入战争状态,已选定针对伊朗境内的打击目标

突发!以色列宣布:打死伊斯梅尔·马斯里!以防长:明天就可能与伊朗进入战争状态,已选定针对伊朗境内的打击目标

每日经济新闻
2026-06-30 11:36:05
凌晨2时导弹雨倾泻!伊朗发动大规模报复,美方连夜空袭回击?

凌晨2时导弹雨倾泻!伊朗发动大规模报复,美方连夜空袭回击?

流史岁月
2026-06-30 10:12:33
今年高温时间大变!最热不在七月初,熬完20天就凉快

今年高温时间大变!最热不在七月初,熬完20天就凉快

宝哥精彩赛事
2026-06-29 19:08:40
近500万粉吃播宝宝米乐翻车!拿娃健康换流量太离谱

近500万粉吃播宝宝米乐翻车!拿娃健康换流量太离谱

一口娱乐
2026-06-30 09:15:46
81岁菜农被博主买下所有菜后回家路上遇车祸离世 家属发声:别寒了好人的心

81岁菜农被博主买下所有菜后回家路上遇车祸离世 家属发声:别寒了好人的心

封面新闻
2026-06-30 18:08:22
俄袭乌造成133名人伤亡,美媒爆大瓜:俄新兵战场存活时间30分钟

俄袭乌造成133名人伤亡,美媒爆大瓜:俄新兵战场存活时间30分钟

史政先锋
2026-06-30 18:18:03
比缅北更恐怖!曾经的旅游胜地,现在黄赌毒俱全,性交易随处可见

比缅北更恐怖!曾经的旅游胜地,现在黄赌毒俱全,性交易随处可见

晓帝爱八卦
2026-06-30 10:45:19
保送进决赛?荷德爆冷出局让法国成最大赢家,半区已无强力对手

保送进决赛?荷德爆冷出局让法国成最大赢家,半区已无强力对手

衣衫褴褛的文人
2026-06-30 14:46:33
赌王千金何超莲上海被偶遇,个子小小却比例超好,身材也太顶了吧

赌王千金何超莲上海被偶遇,个子小小却比例超好,身材也太顶了吧

木子爱娱乐大号
2026-06-29 17:26:11
无人机攻防正酣,乌克兰打算收手?

无人机攻防正酣,乌克兰打算收手?

新民晚报
2026-06-30 12:53:16
普京老同学公开喊话普京:俄罗斯“丢了魂”,跟着中国学才光明!

普京老同学公开喊话普京:俄罗斯“丢了魂”,跟着中国学才光明!

闻识
2026-06-30 11:40:40
2026-06-30 20:44:49
wisemodel开源社区 incentive-icons
wisemodel开源社区
始智AI wisemodel.cn开源社区,打造中国版“huggingface”
489文章数 16关注度
往期回顾 全部

科技要闻

iPhone18 Pro遭泄密!印度代工商惹祸

头条要闻

日本队世界杯出局后 韩媒来劲了

头条要闻

日本队世界杯出局后 韩媒来劲了

体育要闻

大热倒灶压力给到法国 王楚揭法国队隐患

娱乐要闻

韩红称要退出公益,多位名人挽留

财经要闻

万亿“寒王”,历史时刻

汽车要闻

奇瑞风云A9探店 五个理由一定来看看

态度原创

家居
旅游
健康
公开课
军事航空

家居要闻

传奇筑 日常诗

旅游要闻

“渝郴”携手拓客源 郴州旅游产品推介会在重庆举办

狂吃“糯叽叽”小心肠梗阻!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

以色列防长:穆杰塔巴已被列入死亡名单

无障碍浏览 进入关怀版