网易首页 > 网易号 > 正文 申请入驻

ReLaX从隐空间动力学出发重新解读大模型RL的探索-利用平衡

0
分享至



强化学习正逐渐成为大模型能力跃迁的核心驱动力。从 OpenAI o3、DeepSeek-R1 到 Gemini 3,一系列前沿模型通过强化微调不断突破复杂推理任务的性能上限。然而,在这些进展背后,一个隐性的问题正逐渐显现:随着训练推进,策略分布持续收缩,探索能力在模式坍塌中不断衰减,最终陷入优化的欠收敛与性能瓶颈。

这一现象本质上源于强化学习中的探索–利用(exploration-exploitation)失衡,而在 RLVR(可验证奖励强化学习)范式下,稀疏奖励进一步放大了这一问题。

过去一年,大量工作试图从表层 token 入手,通过提升输出分布的熵来维持多样性。但这一思路忽略了一个更根本的事实:Token 只是模型内部隐层状态在解码过程中的压缩表达,不可避免地丢失了部分计算信息,而非推理本身。当调控停留在输出层时,真正承载推理过程的这一 “计算空间” 几乎未被触及。与此同时,在当前主流多模态模型(如 Qwen-VL)中,尽管 CoT 以文本形式呈现,其跨模态推理过程却发生在隐空间之中,进一步放大了这种 “表达–计算” 的错位。

于是,一个更关键的问题浮现出来:仅通过提升 token 多样性,真的能够从本质上改善模型的探索能力吗?抑或,探索–利用的本质,其实蕴含在模型的内部计算过程之中?

港理工&上海 AI Lab 的研究人员进一步将问题 “向内推进”,把目光从输出层转向模型的内部计算。他们发现,大模型的推理过程并不是简单的序列生成,而可以从动力学的视角来理解:其本质是隐层状态在高维空间中的连续演化,这一过程承载了模型内部的计算逻辑。

基于这一洞察,研究团队提出了ReLaX(Reasoning with Latent eXploration)框架:不再直接干预 token 生成的多样性,而是在策略优化过程中显式调控模型的隐空间动力学结构,从而在更底层实现对探索与利用的平衡。



  • 论文链接:https://arxiv.org/abs/2512.07558
  • 开源权重:https://huggingface.co/collections/SteveZ25/relax-checkpoints
  • Github: https://github.com/ZhangShimin1/ReLaX

ReLaX 核心方法解读



1️⃣ 隐空间探索:从随机扰动到真实探索

大模型的推理,并不是单纯的 token 输出,而是隐层状态在高维空间里的连续演化。ReLaX 将这套隐层演化看作一个 “随机动力学系统”:模型内部状态会随着推理逐步变化,而采样温度、top-p、top-k 等随机扰动则像水流中掀起的涟漪,推动隐层状态偏离原轨迹。

仅仅在输出层制造、放大 token 生成的随机性,往往无法真正解锁模型内部探索潜力,关键是:只有当模型的内部动力学模式足够丰富,这些微小扰动才能被放大成多样的 latent 轨迹,从而产生有效探索。

2️⃣ 动态谱散度(DSD):量化隐空间动力学模式的多样性

然而,核心难题在于:如何捕捉大模型内部高维、复杂的非线性动力学?传统控制理论提供了一把利器 ——Koopman 算子(Koopman Operator),它允许我们在特定函数空间中,用线性的视角去观测和分析非线性系统的演化。

在这一框架下,ReLaX 引入前沿方法ResKoopNet,通过 MLP 学习出一个理想的Koopman dictionary,将大模型最后一层隐藏状态的复杂演化映射到一个可解析的线性空间中。换句话说,它将大模型隐层中如 “黑盒” 般混沌的推理轨迹,化繁为简,转化为可分析的谱特征。基于该谱空间,研究者提出了动态谱散度(DSD)指标。它通过计算单条轨迹内部动态谱模长的方差,精准量化了模型隐空间动力学结构的 “异质性”。这些模长深度揭示了增长(growth)、衰减(decay)与振荡(oscillation)等动力学模式的核心特质。DSD 越高,意味着大模型在推理过程中内部动力学模式越丰富,从而在 latent 空间中更有潜力探索多样化、创新性的解题路径。

简而言之,DSD 是对大模型内部 “思维多样性” 的量化:它不仅反映了内部计算的复杂性,也为探索-利用的策略优化提供了明确方向。

3️⃣ DSD 引导下的策略优化:让探索更有方向

有了 DSD,我们终于有了量化大模型隐空间探索能力的 “罗盘”。ReLaX 将基于这一指标设计的序列级正则化项融入经典算法GRPO,不仅告诉模型哪些轨迹值得关注,还指导它如何在探索与利用之间取得平衡。

具体来说,ReLaX 设计了两条关键机制:

  • 优势塑形(Advantage Shaping):正则项与正向优势值绑定,只在带来正向收益的轨迹上提升隐空间的灵活度。这意味着模型不会盲目探索无用路径,而是把计算能力集中在高潜力轨迹上,避免无意义的模式漂移(semantic drift)。
  • 自适应 KL 正则(Adaptive KL Regularization): 对 DSD 超阈值的轨迹施加惩罚,以约束过度发散的动态谱,保证训练稳定性;同时对有潜质的轨迹保留充足探索空间,让模型在安全范围内大胆尝试。

最终,ReLaX 不只是简单增加探索,它通过对隐空间动力学进行调控,形成一个动态平衡的优化目标:在保证训练稳定的前提下,让大模型的隐层计算自由伸展,持续发掘更丰富的内在推理路径。

实验结果:打破 RLVR 性能瓶颈,持续激发大模型推理潜能

告别多样性束缚下的 “次优收敛”

作者在纯文本大模型(LLM)和多模态视觉-语言大模型(VLM)上验证了 ReLaX 的效果,并与 GRPO 在 3B/7B 规模下的训练进行了对比。通过训练过程中模型性能与 token 熵的关系图,可以直观观察到模型是否陷入多样性不足导致的性能瓶颈。



ReLaX(红)对比 GRPO(灰):3B/7B 规模 (a) 纯文本大模型(LLMs)与 (b) 多模态视觉-语言大模型(VLMs)在训练过程中性能与 token 熵的关系,散点表示各训练步骤。

在 GRPO(灰色曲线)下,训练初期模型探索充分,性能稳步提升;但随着训练推进,策略熵迅速下降,模型很快陷入次优收敛 —— 就像学生过早认定唯一解题思路,从此不再尝试其他可能性。

相比之下,ReLaX(红色曲线)在整个训练过程中不仅保持性能持续上升,同时策略熵稳定在合理区间,避免模式坍塌。这意味着 ReLaX 能在促进探索的同时,也顺应 RL 对模型分布锐化以利用高价值信号的天然趋势。

刷新多模态推理基准新 SOTA

以 Qwen2.5-VL-Instruct 系列为基础模型,ReLaX 在多模态推理任务上展现出显著优势:其 7B 规模模型在 MathVista、MathVerse、MathVision、MMMU、MMStar、DynaMath 与 EMMA 七大基准上取得53.2% 的 mean@1 平均准确率,刷新同尺度模型性能上限。与此同时,3B 规模的 ReLaX-VL-3B 也展现出强劲竞争力,其性能已可比甚至超越部分已有的 7B 级推理模型。



从 Token 到 Latent:推理与泛化能力的双重提升

纯文本数学推理:作为 RLVR 的核心应用场景,数学推理一直是检验方法有效性的 “主战场”。作者以 Qwen2.5-base 与 Qwen2.5-Math 为基础模型,将 ReLax 与多种基于 token 多样性的方法进行了系统对比。



实验结果显示,在 Math500、Minerva、AMC22/23、AIME24/25 等六大数学推理基准上,ReLaX 在相同训练设置下的平均性能稳定超越基于 token 多样性的方法。这一结果表明,相比直接干预输出层多样性,从 latent 动力学出发调控模型探索与利用,能够更高效地提升模型的推理能力。



进一步地,作者将 ReLaX 扩展至 Llama3.2-Instruct 与 Qwen3-base 等不同模型架构上,依然取得一致性能提升,验证了该方法良好的可扩展性与跨模型泛化能力。

多模态推理泛化:研究团队进一步在多模态视觉-语言大模型上验证了 latent 层面探索相对 token 层面探索的优势。具体而言,以 Qwen2.5-VL-3B 为基础模型,在多个多模态推理基准上,将 ReLaX与两类代表性的 token-level 方法进行对比:一类是直接将提升熵引入策略优化目标的 Entropy-Reg,另一类是通过协方差约束间接调控 token 熵的 KL-Cov。



实验结果给出了一个清晰的结论:ReLaX 在多模态推理任务上稳定优于两类 token-level 方法。

具体来看,Entropy-Reg 并未带来多模态推理能力的提升。相反,由于其在 token 层面显式鼓励不确定性,这种 “无约束” 的探索容易引入语义漂移,在多个基准上甚至劣于原始 GRPO,表现出明显的副作用。

相比之下,KL-Cov虽然带来一定增益,但其效果具有明显局限性:在 MathVista 等偏数学、几何的任务上表现相对更好 —— 这些任务对视觉信息依赖较弱;而在更依赖视觉理解的任务(如 EMMA-Physics)中,ReLaX 的优势显著扩大(+7.7)。

这一现象揭示了关键问题:仅在输出层面促进探索,难以有效影响多模态模型内部的跨模态计算过程。 token-level 方法对 latent 空间的作用有限,因此在需要深度视觉-文本融合的任务中难以泛化。

相比之下,ReLaX 直接作用于隐空间动力学,通过调控模型内部计算的灵活性,更有效地激活跨模态信息交互,从而显著提升对多模态输入的理解能力。论文中的 qualitative case study 也进一步验证了这一点。

未来展望:走向大模型内在机制的 “深水区”

ReLaX 的意义并不止于性能提升,它更重要的价值在于提供了一种全新的视角去理解大模型推理过程中的计算本质。

  • 相比直接 “扰动” token 空间的概率,引导模型在隐空间中的动态演化,是解决 “探索–利用” 权衡的一种更具原则性的路径。未来,我们对模型探索能力的理解,将不再局限于输出层的不确定性。
  • 大模型的隐空间作为一片尚未被充分探索的 “蓝海”,正逐渐显现出其作为研究前沿的核心价值。其中高维状态所承载的丰富信息,刻画了隐藏在表层文本输出下的内在计算过程,为我们理解模型行为并提升其能力提供了新的切入点。

ReLaX 只是一个起点。随着我们不断深入这一 “隐空间”,大模型或许将不再只是概率预测的工具,而是能够在其丰富的内部表征中进行持续探索、自我修正,逐步演化出更接近 “认知过程” 的推理能力。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
4亿美元,灰飞烟灭

4亿美元,灰飞烟灭

中国新闻周刊
2026-04-05 18:06:30
伊朗最高领袖:将继续利用封锁霍尔木兹海峡这一战略杠杆

伊朗最高领袖:将继续利用封锁霍尔木兹海峡这一战略杠杆

国际在线
2026-04-06 06:53:08
韩媒:濒临崩盘的中国乒乓球“躲过”耻辱;日媒:团体赛击败中国不是梦

韩媒:濒临崩盘的中国乒乓球“躲过”耻辱;日媒:团体赛击败中国不是梦

去山野间追风
2026-04-06 10:40:48
教师大势已定:如无意外,2026年中国教师队伍将迎来3大变化

教师大势已定:如无意外,2026年中国教师队伍将迎来3大变化

王姐懒人家常菜
2026-04-06 09:17:44
医院就诊患者惊现“某某之女”被怒斥!网友:打拳打到新生儿科了

医院就诊患者惊现“某某之女”被怒斥!网友:打拳打到新生儿科了

火山詩话
2026-04-04 17:02:01
美“最大胆搜救”代价惨烈!损失飞机价值超4亿美元

美“最大胆搜救”代价惨烈!损失飞机价值超4亿美元

看看新闻Knews
2026-04-06 00:12:24
美军跳伞飞行员身背“小金库”,步枪金条电台一应俱全,非常难捉

美军跳伞飞行员身背“小金库”,步枪金条电台一应俱全,非常难捉

利刃号
2026-04-05 23:38:07
毕业生破1270万!2026下半年开始,大部分家庭将直面“4大难题”

毕业生破1270万!2026下半年开始,大部分家庭将直面“4大难题”

复转这些年
2026-04-05 18:00:42
毛新宇携家人到杨开慧烈士陵园祭扫

毛新宇携家人到杨开慧烈士陵园祭扫

政知新媒体
2026-04-05 08:48:13
和稀泥终于引起公愤了!

和稀泥终于引起公愤了!

胖胖说他不胖
2026-04-06 09:00:47
教育已死:你们把教师群体打趴下之后,自己正在成为受害者

教育已死:你们把教师群体打趴下之后,自己正在成为受害者

双旗镇客栈
2026-04-05 20:45:53
解放军唯一的一次乌龙,一野和二野打了一个晚上,各自伤亡多少人

解放军唯一的一次乌龙,一野和二野打了一个晚上,各自伤亡多少人

旧史新谭
2026-04-05 17:00:22
被打服?世界第1盛赞赵心童:能拿上百个冠军!高兴中国选手崛起

被打服?世界第1盛赞赵心童:能拿上百个冠军!高兴中国选手崛起

我爱英超
2026-04-06 07:51:33
NBA历史首次!41岁詹姆斯22分+19岁弗拉格26分 半场同砍20+

NBA历史首次!41岁詹姆斯22分+19岁弗拉格26分 半场同砍20+

醉卧浮生
2026-04-06 08:51:17
女子孕35周狂吃炸鸡汉堡,一周胖10斤,抽出“草莓牛奶”血,急送ICU;浙江医院:情况紧急,必须立即终止妊娠

女子孕35周狂吃炸鸡汉堡,一周胖10斤,抽出“草莓牛奶”血,急送ICU;浙江医院:情况紧急,必须立即终止妊娠

环球网资讯
2026-04-06 08:38:11
网传一高校英语专业班级22名毕业生无一找到工作,辅导员气到崩溃

网传一高校英语专业班级22名毕业生无一找到工作,辅导员气到崩溃

狐狸先森讲升学规划
2026-04-06 00:05:03
伊朗导弹击中以色列海法,致2人死亡

伊朗导弹击中以色列海法,致2人死亡

界面新闻
2026-04-06 11:48:05
连人民日报也怒批:别再讲正确的废话,群众要的是有用的真话!

连人民日报也怒批:别再讲正确的废话,群众要的是有用的真话!

细说职场
2026-04-05 15:02:32
拼命还清一亿四千万巨债,曾经的“亮剑女神”,现回浙江农家生活

拼命还清一亿四千万巨债,曾经的“亮剑女神”,现回浙江农家生活

荒野老五
2026-04-05 19:45:15
越南的恨,为何唯独留给了中国

越南的恨,为何唯独留给了中国

民间胡扯老哥
2026-04-05 21:51:40
2026-04-06 14:24:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12681文章数 142614关注度
往期回顾 全部

科技要闻

前同事被蒸馏成Token,AI能否偷走职场经验

头条要闻

牛弹琴:特朗普两个举动很反常 美国上下都很震惊

头条要闻

牛弹琴:特朗普两个举动很反常 美国上下都很震惊

体育要闻

球员系列赛大满贯!赵心童10-3世界第一 加冕赛季第4冠

娱乐要闻

乔任梁离世10年 父母曝舞台光鲜的背后

财经要闻

118吨!这家央行,大幅抛售黄金!

汽车要闻

家用SUV没驾驶乐趣?极氪8X第一个不同意

态度原创

艺术
游戏
房产
公开课
军事航空

艺术要闻

20位中国当代名家的25幅油画

博主称男人周日只需PS5!评论区瞬间吵翻

房产要闻

小阳春全面启动!现房,才是这波行情里最稳的上车票

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗称挫败美军营救行动:美军为遮羞轰炸被击落军机

无障碍浏览 进入关怀版