网易首页 > 网易号 > 正文 申请入驻

让大模型不再过度思考!上海AI Lab后训练新范式重塑CoT,推理又快又好

0
分享至

来源:量子位

RePro团队 投稿

量子位 | 公众号 QbitAI

近年来,随着o1、DeepSeek-R1等模型的爆发,Long Chain-of-Thought(Long CoT)已成为提升LLM复杂推理能力的标配。

然而,“长思考”并非总是完美的。我们常发现模型会陷入 “过度思考”(Overthinking)的陷阱:为了得出一个简单的结论,模型可能会生成数千个冗余Token,甚至在错误的路径上反复横跳(Backtracking)。这不仅浪费了宝贵的算力,还增加了推理延迟。

如何让模型在“深思熟虑”的同时,保持“思维敏捷”?

近日,上海人工智能实验室的研究团队提出了一种全新的后训练范式——RePro(Rectifying Process-level Reward)。

这篇论文将推理的过程视为模型内部状态的优化过程,从而对如何重塑大模型的CoT提供了一个全新视角:

核心观察:推理即优化

RePro基于这样一个核心思想:将模型的推理轨迹(Trajectory)看作是在损失曲面上寻找最优解的路径。

  • 每一个推理步骤(Step),都相当于一次梯度更新。

  • 优化的目标,是最大化生成正确答案(Ground Truth)的概率。

    在这个视角下,什么是“好的推理”?

  • 有效更新:每一步都能显著提升模型对正确答案的信心(Loss下降)。

  • 稳定收敛:推理方向坚定,不反复横跳,不震荡。

    反之,什么是“过度思考”?

  • 陷入鞍点:生成了大量Token,但对正确答案的概率贡献微乎其微。

  • 梯度震荡:思路混乱,信心忽高忽低。

RePro的三大“矫正”机制

基于上述视角,RePro设计了一套过程奖励机制,直接嵌入到RLVR(如PPO,GRPO)流程中。

1. 代理目标函数J

RePro设计了一个可计算的“目标函数J”,用于量化模型当前的置信度。具体来说:

模型在当前推理上下文下,生成正确答案各个token的平均对数概率。


直觉解释:

  1. 当模型还没开始思考时,直接猜出答案的概率很低,J̃很小。

  2. 随着模型一步步推理,排除错误选项,锁定逻辑链路,模型对最终答案的信心应该越来越强,J̃应该逐渐增大。

  3. 当模型完成推理得出结论时,J̃应该达到峰值。

这个指标越高,说明模型越“自信”答案正确,是一个合理的优化代理指标。


团队发现,正确的推理路径上,J̃会平稳上升,而“胡思乱想”的路径则震荡或停滞。

2. 双重评分机制:优化强度+稳定性

为了量化推理质量,RePro将J̃的变化拆解为两个维度:

基于代理目标函数,REPRO将推理矫正形式化为:在推理轨迹上最大化目标函数J̃的增长速率与增长平滑性的双重优化问题。

相较于传统强化学习仅关注最终结果(Outcome Reward)的稀疏反馈机制,REPRO引入了过程感知的轨迹优化范式:

强度不足(如梯度消失或步长过小)对应增长速率惩罚稳定性差(如优化振荡)对应平滑性惩罚高效下降则同时满足高增长率与高稳定性,获得正向激励

该方法鼓励模型生成逻辑连贯且语义收敛的推理链。


基于J序列,RePro引入了两个评分:

Magnitude Score(强度评分):衡量目标函数的提升幅度

强度评分Smagn旨在回答一个问题:这一段思考,到底让模型离答案近了多少

在优化理论中,梯度的大小决定了下降的快慢。在推理中,这意味着一段有效的CoT应该显著提升模型对答案的信心。REPRO通过比较当前步骤后的目标函数值J̃与基线值J̅(即不进行任何思考直接回答的信心)来计算这一增益。


其中,Δ代表相对增益:


这里使用tanh函数的目的是将分数归一化到(0,1]区间。在实际训练中,某些步骤可能会导致对答案的信心指数级暴涨(例如终于算出了关键中间变量),如果不加限制,这种巨大的奖励信号可能会导致梯度爆炸或训练不稳定。

Stability Score(稳定性评分):衡量J是否平滑上升

稳定性评分Sstab旨在回答另一个问题:这段思考的过程是顺畅的,还是充满了犹豫和反复?

如果将J̃的变化看作一条曲线,理想的推理应该是一条单调上升的曲线。如果曲线上下波动,说明模型陷入了自我怀疑或逻辑混乱。为了量化这种“波动”,RePro利用了Kendall’s Tau相关系数。


这一公式计算的是J̃值序列与时间步序列{1,…,t}之间的秩相关性。

高稳定性(接近1):每一步的J̃值都比前一步高,这表明模型每一步都在进步,没有回撤。这对应于优化过程中沿着最速下降方向的平滑移动。

低稳定性(接近0或负值):序列杂乱无章,进两步退一步,甚至出现严重的逻辑倒退。这对应于模型在鞍点附近的随机摆动,消耗了步数(Token)但未取得实质进展。

Magnitude Score和Stability Score两者加权构成最终过程评分S,可用于判断某段思维路径是否值得强化或惩罚。

3. 流程级奖励整合进RL训练


直接为每个token打分代价太高,于是RePro采用熵值筛选策略:

分段:将推理链按逻辑段落(如换行符\n\n)分割为{c1, c2,…, cN}。

熵计算:计算每个段落首Token的熵ℋ(ci,(0))。

Top-k筛选:只选择熵最高的前k个段落(Top-k Segments)进行REPRO奖励计算。

这种策略不仅大幅降低了计算开销(从全序列计算变为只计算k个点),还起到了“好钢用在刀刃上”的效果——只在模型最迷茫、最关键的时刻给予指引,而在其自信流畅的时刻(低熵区域)保持静默,避免过度干预。

然后,通过计算过程评分的提升量ΔS,作为这一片段的“过程级奖励”,与最终正确与否结合,作为RL的优势函数输入。

这种方法既高效又精准,能引导模型在关键决策点生成更优推理。

实验:不只更准,而且更“省”

RePro在数学、科学、编程等多个任务上进行了广泛实测,包括:

  • AIME24 / AIME25 / MATH500(数学推理)

  • GPQA-Diamond(科学问答)

  • MBPP / LiveCodeBench(代码生成)

并在以下模型上进行训练测试:

  • DeepSeek-R1-Distill-Qwen-1.5B

  • Qwen3-1.7B / 8B

  • Hunyuan-Instruct 等

在所有RL算法(PPO、REINFORCE++、GRPO)下,RePro都带来了稳定提升。

模型架构

RL算法

AIME24(Pass\@1)

AIME25(Pass\@1)

MATH500(Pass\@1)

DeepSeek-R1-Distill-1.5B

Original

30.6%

24.8%

84.4%

PPO

34.8%

24.4%

86.9%

PPO+REPRO

36.3%(+1.5)

27.7%(+3.3)

87.7%(+0.8)

GRPO

32.9%

25.3%

86.0%

GRPO+REPRO

36.0%(+3.1)

26.5%(+1.2)

87.1%(+1.1)

Qwen3-1.7B

Original

46.8%

36.1%

93.0%

GRPO

47.3%

34.8%

93.4%

GRPO+EPRO

49.8%(+2.5)

37.9%(+3.1)

94.1%(+0.7)

并且,这种改进不仅出现在数学任务,在科学和代码任务上也有类似表现,表明RePro具备良好的泛化能力。

领域

基准测试

基线(GRPO)

GRPO+REPRO

绝对提升

科学推理

GPQA-Diamond

34.5%

37.0%

+2.5%

代码推理

MBPP

62.5%

65.4%

+2.9%

代码推理

LiveCodeBench

15.2%

18.4%

+3.2%

除了准确率,它还提升了哪些关键指标?

推理token数量显著减少

随着训练进行,RePro模型生成的平均token数量稳步下降:


这意味着模型学会了少说废话,在更短的路径内给出更准的答案。

回溯行为(Backtracking)减少

Re+Pro模型在推理过程中出现的“反复检查”或“思路绕圈子”的比例显著下降。


简明扼要的推理才是好推理

RePro的成功证明了:更好的推理不一定需要更长的CoT,而是需要更“有效”的优化路径。

通过将Optimization Lens(优化视角)引入后训练阶段,RePro为解决Long CoT的效率瓶颈提供了一个优雅且通用的解法。它告诉大模型:不仅要算对,还要算得漂亮。

论文:https://arxiv.org/abs/2512.01925

Github:https://github.com/open-compass/RePro

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗最高领袖顾问: 美国干预伊朗内政 等同于扰乱地区局势

伊朗最高领袖顾问: 美国干预伊朗内政 等同于扰乱地区局势

每日经济新闻
2026-01-02 19:55:28
中国最后流失的领土,1994年正式脱离中国,如今风景绝佳美女无数

中国最后流失的领土,1994年正式脱离中国,如今风景绝佳美女无数

丰谭笔录
2026-01-02 09:29:55
为什么“阿拉伯兄弟”不帮伊朗?——披着穆斯林羊皮的波斯独狼

为什么“阿拉伯兄弟”不帮伊朗?——披着穆斯林羊皮的波斯独狼

Wilsonhe8
2025-06-19 02:11:33
好兄弟!王楚钦比隔壁老樊一起跨年,两人合影全都喝的满脸通红

好兄弟!王楚钦比隔壁老樊一起跨年,两人合影全都喝的满脸通红

凤幻洋
2026-01-03 16:01:43
朱珠在沈阳被偶遇!真人一眼看上去就好美,网友:藏不住的女人味

朱珠在沈阳被偶遇!真人一眼看上去就好美,网友:藏不住的女人味

木子爱娱乐大号
2026-01-03 17:19:34
黑子快来!41岁詹皇封神杀疯了!18中12砍31+9+6 ,湖人大胜灰熊

黑子快来!41岁詹皇封神杀疯了!18中12砍31+9+6 ,湖人大胜灰熊

梦忆之浅
2026-01-03 17:23:13
国乒教练竞聘结束!王励勤动真格,3位新人上任,王楚钦传好消息

国乒教练竞聘结束!王励勤动真格,3位新人上任,王楚钦传好消息

华史谈
2026-01-03 07:40:39
蔡正元博士:待我出狱之日台湾已变成特别行政区了!

蔡正元博士:待我出狱之日台湾已变成特别行政区了!

达文西看世界
2026-01-02 17:54:56
中使馆提醒:中国公民暂勿前往

中使馆提醒:中国公民暂勿前往

澎湃新闻
2026-01-02 11:03:32
1983年乔冠华去世,新华社只发了一句话,胡乔木拍案而起:这也太不像话了

1983年乔冠华去世,新华社只发了一句话,胡乔木拍案而起:这也太不像话了

源溯历史
2025-12-31 20:03:15
2026年医保划入标准,退休人员年满70岁,医保返款能有3780元吗?

2026年医保划入标准,退休人员年满70岁,医保返款能有3780元吗?

好贤观史记
2026-01-03 09:19:48
中国为何大龄剩女泛滥成灾,专家:三大原因,一个比一个现实

中国为何大龄剩女泛滥成灾,专家:三大原因,一个比一个现实

一簌月光
2025-12-31 19:35:47
广东一幼儿园小朋友表演失误,“神操作”惊呆众人,网友:我都做不到

广东一幼儿园小朋友表演失误,“神操作”惊呆众人,网友:我都做不到

环球网资讯
2026-01-03 09:23:26
今年底就能归化!前欧冠主力再表态:大概率留中国,希望归化!

今年底就能归化!前欧冠主力再表态:大概率留中国,希望归化!

邱泽云
2026-01-03 15:25:18
纽约市委是怎样控制《纽约时报》的?

纽约市委是怎样控制《纽约时报》的?

深度报
2026-01-02 23:07:03
太讽刺!庞家无偿捐4700平米祖宅,院长双谎被戳穿,省多部门介入

太讽刺!庞家无偿捐4700平米祖宅,院长双谎被戳穿,省多部门介入

好贤观史记
2025-12-23 18:14:27
拉家带口去跨年!玄松月的千金也露面了

拉家带口去跨年!玄松月的千金也露面了

IN朝鲜
2026-01-02 14:07:31
饭后吃药,等于白吃?医生多次提醒:一天中这些时间吃药才最好

饭后吃药,等于白吃?医生多次提醒:一天中这些时间吃药才最好

路医生健康科普
2025-12-16 12:45:03
美军轰炸委内瑞拉!川普打包哈梅内伊和马杜罗

美军轰炸委内瑞拉!川普打包哈梅内伊和马杜罗

移光幻影
2026-01-03 17:12:38
大量日企对中日关系持续紧张感到担忧

大量日企对中日关系持续紧张感到担忧

参考消息
2026-01-03 18:55:59
2026-01-03 19:27:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
1898597文章数 5148关注度
往期回顾 全部

科技要闻

比亚迪销冠!特斯拉2025年交付量跌逾8%

头条要闻

美国突袭委内瑞拉抓获马杜罗 多国强烈谴责

头条要闻

美国突袭委内瑞拉抓获马杜罗 多国强烈谴责

体育要闻

快船似乎又行了

娱乐要闻

“国服嫂子”司晓迪,曝与多位男星私照

财经要闻

具身智能抢人大战:毕业一年 年薪300万

汽车要闻

奕派科技全年销量275,752辆 同比增长28.3

态度原创

健康
亲子
家居
旅游
军事航空

元旦举家出行,注意防流感

亲子要闻

宝蓝叔叔爸爸扮演“厨师”做了很多美食,太有趣了,快来看看吧~

家居要闻

无形有行 自然与灵感诗意

旅游要闻

赏冰雪、看秧歌、赶大集 宝清文旅融合迎新年

军事要闻

特朗普称将干涉伊朗骚乱事件 伊朗政府发声明强烈谴责

无障碍浏览 进入关怀版