网易首页 > 网易号 > 正文 申请入驻

字节&MAP重塑大模型推理算法优化重点

0
分享至

字节&MAP团队投稿 发自 凹非寺
量子位 | 公众号 QbitAI

强化学习(RL)范式虽然显著提升了大语言模型(LLM)在复杂任务中的表现,但其在实际应用中仍面临传统RL框架下固有的探索难题。

一个普遍存在的现象是:在训练过程中,模型的熵值迅速下降,推理路径趋于固化,导致“利用(exploitation)”远超“探索(exploration)”,严重失衡。

这种过早收敛不仅削弱了模型的多样性生成能力,也限制了其性能上限的进一步突破。

受OpenAI经典论文《First Return, Then Explore》中“先返回,再探索”思想的启发,来自字节跳动、MAP,曼彻斯特大学的联合团队提出了一种全新的结构化探索框架:First Return, Entropy-Eliciting Explore(FR3E)。



该方法通过识别推理轨迹中具有高不确定性的关键token,并以此为锚点引导后续的多样化展开,系统性地重建了LLM在强化学习中的探索机制,旨在实现利用与探索之间的动态平衡,从而释放RL训练的更高潜力。

值得一提的是,FR3E发布后,《First Return, Then Explore》的作者之一Jeff Clune还在X(原 Twitter)上转发了这篇文章。



算法框架

FR3E的算法框架分为两个阶段:

第一阶段:First Return



在该阶段,模型对每条prompt进行多次rollout,自由探索可能的解题路径,并收集相应的轨迹及其奖励信号。

随后,采用拒绝采样(rejection sampling)策略过滤掉全正确的样本(避免对已掌握知识的重复学习),并针对剩余样本构建基准路径:对于存在部分正确结果的prompt,选取其中一条正确轨迹作为基准;

对于全部错误的prompt,则随机选取一条作为参考路径。

在此基础上,计算基准路径中每个token的生成熵,筛选出top-n个高熵token作为关键决策点。

这些关键点将整条轨迹划分为n+1个partial rollout。通过将原始prompt与前n个partial rollout依次拼接(最后一个包含答案的部分被排除),形成n+1个中间状态(state),初始状态即为原始prompt本身。

第二阶段:Entropy-Eliciting Explore



基于构建的多状态prompt组,FR3E在GRPO++(融合了拒绝采样与Clip-Higher机制的GRPO变体)的基础上,进一步引入动态优势调制机制,以更精细地调控学习信号。具体而言,通过引入了一个优势调制因子,它基于从上一个状态到当前状态的价值边际改善来缩放学习信号。

优势调制因子定义为:



调控后的Advantage定义为:





表示当前state prompt中的partial rollout部分对最终答案有正向影响,此时需要适当降低它的advantage,防止模型过早锁定当前推理路径,保留探索空间。

反之,当



则意味着当前state prompt中的partial rollout部分对思考过程没有或有负向影响,需要放大其优势信号,激励模型在该节点进行更积极的探索,以突破推理瓶颈。

在数据构建方面,团队采用双难度混合策略:低难度数据来自DeepScaler,用于稳定训练初期的收敛过程;

高难度数据则取自SimpleRL中难度等级为3–5的样本,旨在激发模型的深层推理能力。这种组合既保障了训练稳定性,又提供了足够的挑战性以推动能力跃迁。

实验结果

为全面评估FR3E的有效性,团队在多个权威数学推理基准上进行了实验,包括GSM8K、Math500、Minerva Math、Gaokao2023en、OlympiadBench、College Math以及AIME24。并在Qwen2.5-7B、Qwen2.5-Math-7B和Qwen2.5-32B三种模型上进行了评测。



实验结果表明,FR3E在多个基准上均显著优于强基线GRPO++,展现出更强的泛化与推理能力。



尤其值得注意的是,在训练动态分析中,FR3E展现出更持久的探索行为:其熵值衰减更缓慢,响应长度更长,特别是在Qwen2.5-Math-7B这类已微调模型上,成功突破了传统方法中熵值长期处于低位的“僵化”困境,实现了探索能力的再激活。



此外,通过对多次rollout结果的统计监控,团队发现FR3E显著提升了“全正确”轨迹的数量,同时大幅降低了“全错误”轨迹的比例。

这表明,原本仅能部分解出或完全失败的问题,在FR3E的训练机制下,逐步演化为稳定、完整的正确解答路径,真正实现了从“部分成功”到“全面突破”的跃迁。

综上所述,FR3E提出了一种新颖且高效的结构化探索范式,直面LLM在强化学习中“探索不足”的核心瓶颈。

通过“先返回、再探索”的两阶段设计,结合高熵锚点识别与动态优势调制机制,FR3E不仅有效延缓了模型的过早收敛,更显著提升了复杂推理任务中的性能上限。

实验充分验证了FR3E在多个数学推理基准上的优越性,尤其在提升探索多样性、增强长程推理稳定性方面表现突出。

更重要的是,该方法所体现的“结构化反馈 + 自适应调节”思想,具备良好的可扩展性。团队期待FR3E所倡导的探索机制,能够为未来大模型的强化学习训练提供新的范式参考。

论文地址:https://arxiv.org/pdf/2507.07017

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一支笔锁死中国14亿人命运:为何90年过去了,这条斜线谁也动不了

一支笔锁死中国14亿人命运:为何90年过去了,这条斜线谁也动不了

半解智士
2026-01-20 18:03:00
辽宁省刮起营商环境整治风暴,刀刃向内公开征集违法违规线索

辽宁省刮起营商环境整治风暴,刀刃向内公开征集违法违规线索

南方都市报
2026-01-23 10:31:08
比北极还冷的沈阳终于升温了!但下一波雪也来了

比北极还冷的沈阳终于升温了!但下一波雪也来了

沈阳生活圈i
2026-01-23 13:17:03
果然,中国拒绝后,土耳其立马变脸,比亚迪宣布,中国不再吃亏

果然,中国拒绝后,土耳其立马变脸,比亚迪宣布,中国不再吃亏

丁懰惊悚影视解说
2026-01-23 13:49:42
西红柿立大功!医生研究发现:老人吃西红柿,或能缓解4种症状

西红柿立大功!医生研究发现:老人吃西红柿,或能缓解4种症状

医学原创故事会
2026-01-21 21:50:30
拟聘用4人均毕业于国外高校,遭质疑“萝卜岗”,邯郸学院回应:只是凑巧,面试10人,拟聘4人

拟聘用4人均毕业于国外高校,遭质疑“萝卜岗”,邯郸学院回应:只是凑巧,面试10人,拟聘4人

扬子晚报
2026-01-21 19:15:36
哈萨克斯坦地位生变!中俄新通道绕开,托卡耶夫紧急应对

哈萨克斯坦地位生变!中俄新通道绕开,托卡耶夫紧急应对

顾史
2026-01-22 10:01:33
14年后,再看“京城四少”的现状,才明白娶一个好老婆有多重要

14年后,再看“京城四少”的现状,才明白娶一个好老婆有多重要

丰谭笔录
2026-01-13 07:20:11
这趟不带活人带死物?美俄都眼红,中国航天不再低调:必须拆了!

这趟不带活人带死物?美俄都眼红,中国航天不再低调:必须拆了!

荣亭小吏
2026-01-22 10:06:08
CCTV5直播,U23国足PKU23日本男足,洋帅要冲冠,范志毅鼓励彭啸

CCTV5直播,U23国足PKU23日本男足,洋帅要冲冠,范志毅鼓励彭啸

体坛小快灵
2026-01-23 13:16:10
湖北省农业事业中心副主任姜卫东接受审查调查

湖北省农业事业中心副主任姜卫东接受审查调查

界面新闻
2026-01-22 17:14:47
恒大歌舞团团长嫁人了

恒大歌舞团团长嫁人了

地产微资讯
2026-01-22 09:38:37
美军在朝鲜战争期间原本接近击败中国,却碰上了中国决死的师长

美军在朝鲜战争期间原本接近击败中国,却碰上了中国决死的师长

阿諬体育评论
2026-01-23 13:33:09
其实领导根本不在意你干了多少活,他只在乎这点

其实领导根本不在意你干了多少活,他只在乎这点

李舟
2026-01-22 14:03:55
普京还没答应,川普又邀4国入群,新组织落地厦门,中美互不相让

普京还没答应,川普又邀4国入群,新组织落地厦门,中美互不相让

万物知识圈
2026-01-23 11:06:37
向我开炮!谢波德末节三中三被弃用,乌度卡亲手导演加时崩盘!

向我开炮!谢波德末节三中三被弃用,乌度卡亲手导演加时崩盘!

体育闲话说
2026-01-23 13:27:20
输得好,火箭不敌76人,赛后还有6个坏消息,管理层赶紧找个后卫

输得好,火箭不敌76人,赛后还有6个坏消息,管理层赶紧找个后卫

邹维体育
2026-01-23 10:49:03
嫣然医院有救了?曝台湾省裕隆集团要全资资助,称对李亚鹏很敬佩

嫣然医院有救了?曝台湾省裕隆集团要全资资助,称对李亚鹏很敬佩

小徐讲八卦
2026-01-22 14:35:50
山东一家人给孩子囤结婚三金,投入约90万,收益已超200万

山东一家人给孩子囤结婚三金,投入约90万,收益已超200万

黄河新闻网吕梁频道
2026-01-23 09:34:17
浙大教授23岁的女儿被保送清华。旅游途中,她爱上35岁的酒厂工人

浙大教授23岁的女儿被保送清华。旅游途中,她爱上35岁的酒厂工人

南权先生
2026-01-23 15:45:33
2026-01-23 16:48:49
量子位 incentive-icons
量子位
追踪人工智能动态
12052文章数 176363关注度
往期回顾 全部

科技要闻

TikTok守住了算法"灵魂" 更握紧了"钱袋子"

头条要闻

涉发文侮辱记者 上市公司及实控人一审被判道歉并赔偿

头条要闻

涉发文侮辱记者 上市公司及实控人一审被判道歉并赔偿

体育要闻

跑个步而已,他们在燃什么?

娱乐要闻

刘大锤曝料 将王星越的“体面”撕粉碎

财经要闻

茂名首富,这次糟了

汽车要闻

主打家庭大六座 奕境首款SUV将北京车展亮相

态度原创

数码
教育
艺术
游戏
军事航空

数码要闻

汉王上架N10mini二代电纸书:主打“减屏层设计”,2399元

教育要闻

初中必须数形结合大招

艺术要闻

现在的春联太俗了,还是过去的“老对联”高雅!

不做性感角色!《神鬼寓言》将注重展现不同种族

军事要闻

美军首艘“高超导弹战舰”出海测试

无障碍浏览 进入关怀版