网易首页 > 网易号 > 正文 申请入驻

字节&MAP重塑大模型推理算法优化重点

0
分享至

字节&MAP团队投稿 发自 凹非寺
量子位 | 公众号 QbitAI

强化学习(RL)范式虽然显著提升了大语言模型(LLM)在复杂任务中的表现,但其在实际应用中仍面临传统RL框架下固有的探索难题。

一个普遍存在的现象是:在训练过程中,模型的熵值迅速下降,推理路径趋于固化,导致“利用(exploitation)”远超“探索(exploration)”,严重失衡。

这种过早收敛不仅削弱了模型的多样性生成能力,也限制了其性能上限的进一步突破。

受OpenAI经典论文《First Return, Then Explore》中“先返回,再探索”思想的启发,来自字节跳动、MAP,曼彻斯特大学的联合团队提出了一种全新的结构化探索框架:First Return, Entropy-Eliciting Explore(FR3E)。

该方法通过识别推理轨迹中具有高不确定性的关键token,并以此为锚点引导后续的多样化展开,系统性地重建了LLM在强化学习中的探索机制,旨在实现利用与探索之间的动态平衡,从而释放RL训练的更高潜力。

值得一提的是,FR3E发布后,《First Return, Then Explore》的作者之一Jeff Clune还在X(原 Twitter)上转发了这篇文章。

算法框架

FR3E的算法框架分为两个阶段:

第一阶段:First Return

在该阶段,模型对每条prompt进行多次rollout,自由探索可能的解题路径,并收集相应的轨迹及其奖励信号。

随后,采用拒绝采样(rejection sampling)策略过滤掉全正确的样本(避免对已掌握知识的重复学习),并针对剩余样本构建基准路径:对于存在部分正确结果的prompt,选取其中一条正确轨迹作为基准;

对于全部错误的prompt,则随机选取一条作为参考路径。

在此基础上,计算基准路径中每个token的生成熵,筛选出top-n个高熵token作为关键决策点。

这些关键点将整条轨迹划分为n+1个partial rollout。通过将原始prompt与前n个partial rollout依次拼接(最后一个包含答案的部分被排除),形成n+1个中间状态(state),初始状态即为原始prompt本身。

第二阶段:Entropy-Eliciting Explore

基于构建的多状态prompt组,FR3E在GRPO++(融合了拒绝采样与Clip-Higher机制的GRPO变体)的基础上,进一步引入动态优势调制机制,以更精细地调控学习信号。具体而言,通过引入了一个优势调制因子,它基于从上一个状态到当前状态的价值边际改善来缩放学习信号。

优势调制因子定义为:

调控后的Advantage定义为:

表示当前state prompt中的partial rollout部分对最终答案有正向影响,此时需要适当降低它的advantage,防止模型过早锁定当前推理路径,保留探索空间。

反之,当

则意味着当前state prompt中的partial rollout部分对思考过程没有或有负向影响,需要放大其优势信号,激励模型在该节点进行更积极的探索,以突破推理瓶颈。

在数据构建方面,团队采用双难度混合策略:低难度数据来自DeepScaler,用于稳定训练初期的收敛过程;

高难度数据则取自SimpleRL中难度等级为3–5的样本,旨在激发模型的深层推理能力。这种组合既保障了训练稳定性,又提供了足够的挑战性以推动能力跃迁。

实验结果

为全面评估FR3E的有效性,团队在多个权威数学推理基准上进行了实验,包括GSM8K、Math500、Minerva Math、Gaokao2023en、OlympiadBench、College Math以及AIME24。并在Qwen2.5-7B、Qwen2.5-Math-7B和Qwen2.5-32B三种模型上进行了评测。

实验结果表明,FR3E在多个基准上均显著优于强基线GRPO++,展现出更强的泛化与推理能力。

尤其值得注意的是,在训练动态分析中,FR3E展现出更持久的探索行为:其熵值衰减更缓慢,响应长度更长,特别是在Qwen2.5-Math-7B这类已微调模型上,成功突破了传统方法中熵值长期处于低位的“僵化”困境,实现了探索能力的再激活。

此外,通过对多次rollout结果的统计监控,团队发现FR3E显著提升了“全正确”轨迹的数量,同时大幅降低了“全错误”轨迹的比例。

这表明,原本仅能部分解出或完全失败的问题,在FR3E的训练机制下,逐步演化为稳定、完整的正确解答路径,真正实现了从“部分成功”到“全面突破”的跃迁。

综上所述,FR3E提出了一种新颖且高效的结构化探索范式,直面LLM在强化学习中“探索不足”的核心瓶颈。

通过“先返回、再探索”的两阶段设计,结合高熵锚点识别与动态优势调制机制,FR3E不仅有效延缓了模型的过早收敛,更显著提升了复杂推理任务中的性能上限。

实验充分验证了FR3E在多个数学推理基准上的优越性,尤其在提升探索多样性、增强长程推理稳定性方面表现突出。

更重要的是,该方法所体现的“结构化反馈 + 自适应调节”思想,具备良好的可扩展性。团队期待FR3E所倡导的探索机制,能够为未来大模型的强化学习训练提供新的范式参考。

论文地址:https://arxiv.org/pdf/2507.07017

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张雪峰二婚妻子颜值高,正面照片流出,遗产继承恐陷纷争

张雪峰二婚妻子颜值高,正面照片流出,遗产继承恐陷纷争

老猫观点
2026-03-26 07:35:34
200亿美元收益!NBA推进两大计划 每队老板至少分到6.5亿美元

200亿美元收益!NBA推进两大计划 每队老板至少分到6.5亿美元

罗说NBA
2026-03-26 06:21:27
卡塔尔向伊朗交60亿美元保护费? 伊朗打击升级: 瞄准以色列往死里打

卡塔尔向伊朗交60亿美元保护费? 伊朗打击升级: 瞄准以色列往死里打

起喜电影
2026-03-26 13:20:15
中年男人最大的悲哀是什么?网友:说到底就是自己能力差呗

中年男人最大的悲哀是什么?网友:说到底就是自己能力差呗

带你感受人间冷暖
2026-03-23 00:02:19
陈明仁起义开价:保留兵团司令,林彪看完只说了4个字

陈明仁起义开价:保留兵团司令,林彪看完只说了4个字

史海孤雁
2026-03-24 17:26:17
50岁何润东做梦也没想到,因张凌赫一个造型,让他的口碑一夜暴涨

50岁何润东做梦也没想到,因张凌赫一个造型,让他的口碑一夜暴涨

八卦南风
2026-03-24 15:15:25
“上海实体交通卡,为啥退不了?”73岁老伯来沪遭遇引发质疑,记者调查:确实难

“上海实体交通卡,为啥退不了?”73岁老伯来沪遭遇引发质疑,记者调查:确实难

新民晚报
2026-03-25 18:45:33
美军第82空降师3000人出兵,危急时刻,伊朗特种兵亮剑56冲和FPV

美军第82空降师3000人出兵,危急时刻,伊朗特种兵亮剑56冲和FPV

沧海旅行家
2026-03-26 13:11:41
估价32万!这4种年份的1元硬币,可要留好了!

估价32万!这4种年份的1元硬币,可要留好了!

富哥爱收藏
2026-03-26 13:51:45
爆料广东队教练组大调整,杜锋面临下课,替代者现身,球迷支持

爆料广东队教练组大调整,杜锋面临下课,替代者现身,球迷支持

宗介说体育
2026-03-25 10:31:37
稀土案告破:截获220吨,够造90架F-35核心材料

稀土案告破:截获220吨,够造90架F-35核心材料

策略述
2026-03-26 13:45:33
62年胡宗南病逝,死前高举左手惊叫数声,其子:他常恨自己没早死

62年胡宗南病逝,死前高举左手惊叫数声,其子:他常恨自己没早死

云霄纪史观
2026-03-26 11:47:26
女同主播出轨大哥 被"正宫"直播对质!真实长相曝光

女同主播出轨大哥 被"正宫"直播对质!真实长相曝光

游民星空
2026-03-25 20:08:13
如今三大战场同时开打,中国一个举动,却是让西方悟了一个道理

如今三大战场同时开打,中国一个举动,却是让西方悟了一个道理

近史谈
2026-03-25 20:26:28
海关总署署长孙梅君到广东调研

海关总署署长孙梅君到广东调研

证券时报
2026-03-26 13:26:01
49年上海解放第三天,李克农密电陈毅:不惜全部代价,找着李静安

49年上海解放第三天,李克农密电陈毅:不惜全部代价,找着李静安

让时间说真话
2024-03-26 15:23:22
张雪峰去世,“跑完步就不行了”:苏州独墅湖医院外的生死4小时

张雪峰去世,“跑完步就不行了”:苏州独墅湖医院外的生死4小时

哲学船
2026-03-25 00:44:19
个人公众号“千问”停更近10年,近期接连遭阿里投诉均被驳回,号主:规避风险不发AI文章,如果我不发声,账号就不保了

个人公众号“千问”停更近10年,近期接连遭阿里投诉均被驳回,号主:规避风险不发AI文章,如果我不发声,账号就不保了

中国能源网
2026-03-25 13:53:05
留意!局部暴雨+短时大风,3月27日起广东降水将趋于频密

留意!局部暴雨+短时大风,3月27日起广东降水将趋于频密

新浪财经
2026-03-26 03:04:38
五枚导弹,拦下四枚,就那漏网的一枚,不偏不倚,正好砸中…

五枚导弹,拦下四枚,就那漏网的一枚,不偏不倚,正好砸中…

福建平子
2026-03-25 10:14:49
2026-03-26 14:36:49
量子位 incentive-icons
量子位
追踪人工智能动态
12346文章数 176424关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

手机
本地
艺术
教育
家居

手机要闻

存储涨价苦了国产品牌、普通消费者,苹果却不受影响

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

艺术要闻

哪一座桥不是风景?

教育要闻

高考地理中的花海经济

家居要闻

傍海而居 静观蝴蝶海

无障碍浏览 进入关怀版