字节&MAP重塑大模型推理算法优化重点|轨迹|锚点|map|深度思考模型

字节&MAP重塑大模型推理算法优化重点

2025-08-11 09:54:42　来源: 量子位

北京举报

分享至

字节&MAP团队投稿发自凹非寺
量子位 | 公众号 QbitAI

强化学习（RL）范式虽然显著提升了大语言模型（LLM）在复杂任务中的表现，但其在实际应用中仍面临传统RL框架下固有的探索难题。

一个普遍存在的现象是：在训练过程中，模型的熵值迅速下降，推理路径趋于固化，导致“利用（exploitation）”远超“探索（exploration）”，严重失衡。

这种过早收敛不仅削弱了模型的多样性生成能力，也限制了其性能上限的进一步突破。

受OpenAI经典论文《First Return, Then Explore》中“先返回，再探索”思想的启发，来自字节跳动、MAP，曼彻斯特大学的联合团队提出了一种全新的结构化探索框架：First Return, Entropy-Eliciting Explore（FR3E）。

该方法通过识别推理轨迹中具有高不确定性的关键token，并以此为锚点引导后续的多样化展开，系统性地重建了LLM在强化学习中的探索机制，旨在实现利用与探索之间的动态平衡，从而释放RL训练的更高潜力。

值得一提的是，FR3E发布后，《First Return, Then Explore》的作者之一Jeff Clune还在X（原 Twitter）上转发了这篇文章。

算法框架

FR3E的算法框架分为两个阶段：

第一阶段：First Return

在该阶段，模型对每条prompt进行多次rollout，自由探索可能的解题路径，并收集相应的轨迹及其奖励信号。

随后，采用拒绝采样（rejection sampling）策略过滤掉全正确的样本（避免对已掌握知识的重复学习），并针对剩余样本构建基准路径：对于存在部分正确结果的prompt，选取其中一条正确轨迹作为基准；

对于全部错误的prompt，则随机选取一条作为参考路径。

在此基础上，计算基准路径中每个token的生成熵，筛选出top-n个高熵token作为关键决策点。

这些关键点将整条轨迹划分为n+1个partial rollout。通过将原始prompt与前n个partial rollout依次拼接（最后一个包含答案的部分被排除），形成n+1个中间状态（state），初始状态即为原始prompt本身。

第二阶段：Entropy-Eliciting Explore

基于构建的多状态prompt组，FR3E在GRPO++（融合了拒绝采样与Clip-Higher机制的GRPO变体）的基础上，进一步引入动态优势调制机制，以更精细地调控学习信号。具体而言，通过引入了一个优势调制因子，它基于从上一个状态到当前状态的价值边际改善来缩放学习信号。

优势调制因子定义为：

调控后的Advantage定义为：

表示当前state prompt中的partial rollout部分对最终答案有正向影响，此时需要适当降低它的advantage，防止模型过早锁定当前推理路径，保留探索空间。

反之，当

则意味着当前state prompt中的partial rollout部分对思考过程没有或有负向影响，需要放大其优势信号，激励模型在该节点进行更积极的探索，以突破推理瓶颈。

在数据构建方面，团队采用双难度混合策略：低难度数据来自DeepScaler，用于稳定训练初期的收敛过程；

高难度数据则取自SimpleRL中难度等级为3–5的样本，旨在激发模型的深层推理能力。这种组合既保障了训练稳定性，又提供了足够的挑战性以推动能力跃迁。

实验结果

为全面评估FR3E的有效性，团队在多个权威数学推理基准上进行了实验，包括GSM8K、Math500、Minerva Math、Gaokao2023en、OlympiadBench、College Math以及AIME24。并在Qwen2.5-7B、Qwen2.5-Math-7B和Qwen2.5-32B三种模型上进行了评测。

实验结果表明，FR3E在多个基准上均显著优于强基线GRPO++，展现出更强的泛化与推理能力。

尤其值得注意的是，在训练动态分析中，FR3E展现出更持久的探索行为：其熵值衰减更缓慢，响应长度更长，特别是在Qwen2.5-Math-7B这类已微调模型上，成功突破了传统方法中熵值长期处于低位的“僵化”困境，实现了探索能力的再激活。

此外，通过对多次rollout结果的统计监控，团队发现FR3E显著提升了“全正确”轨迹的数量，同时大幅降低了“全错误”轨迹的比例。

这表明，原本仅能部分解出或完全失败的问题，在FR3E的训练机制下，逐步演化为稳定、完整的正确解答路径，真正实现了从“部分成功”到“全面突破”的跃迁。

综上所述，FR3E提出了一种新颖且高效的结构化探索范式，直面LLM在强化学习中“探索不足”的核心瓶颈。

通过“先返回、再探索”的两阶段设计，结合高熵锚点识别与动态优势调制机制，FR3E不仅有效延缓了模型的过早收敛，更显著提升了复杂推理任务中的性能上限。

实验充分验证了FR3E在多个数学推理基准上的优越性，尤其在提升探索多样性、增强长程推理稳定性方面表现突出。

更重要的是，该方法所体现的“结构化反馈 + 自适应调节”思想，具备良好的可扩展性。团队期待FR3E所倡导的探索机制，能够为未来大模型的强化学习训练提供新的范式参考。

论文地址：https://arxiv.org/pdf/2507.07017

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一时间获知前沿科技动态

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.