DeepSeek-R1-Zero不存在顿悟时刻？华人团队揭秘真相：或只因强化学习|科学|实验|zero|deepseek

DeepSeek-R1-Zero不存在顿悟时刻？华人团队揭秘真相：或只因强化学习

2025-02-08 16:45:23　来源: 新智元

北京举报

分享至

新智元报道

编辑：KingHZ Aeneas

【新智元导读】最近某个华人团队发现：类似DeepSeek-R1-Zero的「顿悟时刻」，可能并不存在。类似复现实验中之所以出现响应变长现象，或许只是因为强化学习，而不是所谓的「顿悟」。

最近，「啊哈时刻」（Aha moment）这个词在AI圈流行起来了！

并不是凤凰传奇的风刮到了AI圈，更不是AI大佬开始跟曾毅学rap了。

这里的「Aha moment」指的是AI模型的「顿悟时刻」：在那一刻AI仿佛打通了「任督二脉」，可以像人类一样自我反思。

简而言之，「啊哈时刻」（Aha moment）就是模型「灵机一动」，让人眼前一亮的时刻。

DeepSeek-R1论文中，提到模型让作者「见证了强化学习的力量和美感」。

在DeepSeek-R1-Zero的中间版本，「顿悟时刻」来了：模型学会了以人类的语气进行反思

比如，开源项目SimpleRL-Zero，只使用基于规则的奖励，去提升模型的推理能力。

几乎与DeepSeek-R1中使用的方案一样，唯一的区别是目前代码使用的是PPO，而不是GRPO。

项目链接：https://github.com/hkust-nlp/simpleRL-reason

但是！新发现可能给这场全球的热潮浇了一盆冷水。

来自Sea AI Lab&NUS的研究人员刘梓辰（Zichen Liu），在X上公布了最新的研究，表示：

在R1-Zero-like训练中，也许没有顿悟时刻。最近，关于R1-Zero-like训练的普遍看法是，自我反思作为RL训练的结果，涌现而出。仔细研究之后，表明情况完全相反。

突然反转：并没有顿悟

在R1-Zero发布后的几天内，在较小规模（例如1B到7B）上，多个独立项目「复现」了类似R1-Zero的训练。

而且大家都观察到了「顿悟时刻」。此外，「顿悟」一般都伴随着响应长度的增加。

这次新研究揭示：AI或许从未「顿悟」，模型响应长度的突然增加也不是因为「顿悟」。

具体而言，新研究有3点重要发现：

顿悟时刻（例如自我反思模式）出现在第0轮，也就是基础模型阶段，根本用不着RL训练。
在基础模型的响应中，发现了浅度自我反思现象（Superficial Self-Reflection，SSR），但这种自我反思带来的最终答案不一定正确。但强化学习可以将SSR转化为有效自我反思，提升模型效果。
响应长度增加的现象并不是由于自我反思，而是强化学习精心优化奖励函数所导致的结果。

无需训练，也可顿悟？

啊哈时刻出现在Epoch 0

研究者测试了各家机构的多种基础模型，包括Qwen-2.5、Qwen-2.5-Math、DeepSeek-Math、Rho-Math和Llama-3.x。

当R1-zero和SimpleRl-Zero还在辛苦训练时，新研究揭示不必如此大费周折。

使用它们的提示，就能激活基础模型「自我反思」！

研究者使用了在R1-Zero和SimpleRL-Zero中应用的模板，来提示这些基础模型：

研究者从MATH训练数据集中收集了500个问题，均匀覆盖了五个难度级别和所有科目。

在生成参数上，研究者对探索参数（温度）在0.1到1.0之间进行网格搜索，用于在选定问题上的模型推理。所有实验的Top P都设置为0.9。每个问题生成8个回复。

研究者首先尝试了所有模型和提示模板（模板1或2）的所有组合，然后根据每个模型的指令跟随能力选择最佳模板，并将其固定用于所有实验。

然后，出人意料的结果出现了！

研究者发现，在Epoch 0阶段，就已经出现了啊哈时刻。除Llama-3.x系列外，所有模型还未经任何训练，就已经表现出了自我反思模式。

并且出现了以下「自我反思」关键词：

check again，re-evaluate，re-example, recheck, reevaluate, re-evaluatation, rethink, think again, try again

从定性角度看，研究者在下表中列出了所有暗示模型自我反思模式的关键词。

他们猜测，不同模型展示出了与自我反思相关的不同关键词，可能和预训练数据有关。

可以看到，不同的AI模型有不同的「个性」：有些模型比DeepSeek-Math-7b更喜欢用「反思」（rethink）。

图1a显示了在不同基础模型中引发自我反思行为的问题数量。

结果表明，自我反思在不同温度下可以观察到，并且在较高温度下，epoch 0 处的顿悟时刻会更频繁地出现。

图1b显示了不同自我反思关键词的出现次数。

可以观察到，来自 Qwen2.5系列的基础模型在生成自我反思行为方面最为活跃，这在一定程度上反映出：大多数开放的R1-Zero复现版本都是基于 Qwen2.5模型。

不同模型的自我反思关键词统计如下：

当发现顿悟时刻确实在Epoch 0出现、没有经过任何训练时，研究者想知道：它真的是按照他们的预期，通过自我反思来纠正错误推理的吗？

因此，他们直接就在Qwen2.5-Math-7B基础模型上，测试了SimpleRL-Zero博客中示例问题。

令人惊讶的是，它在没有任何训练的情况下，就能通过自我修正思维链（CoT），直接解决在SimpleRL-Zero中报告的示例问题了！

SimpleRL-Zero中报告的示例问题

浅度自我反思，可以进阶

不过尽管基础模型表现出了通过自我纠正的CoT解决复杂推理的巨大潜力，但并非所有它们的自我反思都是有效的。

其中有很多并没有最终导致正确答案，研究者将之称为浅度自我反思（Superficial Self-Reflection，SSR）。

Qwen-2.5-Math-7B基础模型的四种自我反思模式

为了识别SSR，研究者进行了案例研究。

他们观察到， Qwen2.5-Math-7B基础模型响应中存在四种自我反思模式：

行为1：双重检查和确认正确答案的自我反思

行为2：纠正最初错误想法的自我反思

行为3：将错误引入原本正确答案的自我反思

行为4：无法产生有效答案的重复自我反思

其中行为3和行为4就属于浅层自我反思，最终导致了错误答案。

基础模型很容易产生SSR

接下来，研究者分析了Qwen2.5-Math-1.5B正确和错误答案中，自我反思关键词出现的情况。

正如下图所示，在不同采样温度下，大多数自我反思（以频率衡量）并未导致正确答案。

这也就表明，基础模型很容易出现浅层自我反思。

深入了解R1-Zero-like训练

虽然模型突然响应长度增加，被视为R1-Zero-like中的啊哈时刻。但如上所述，这种顿悟在没有RL训练的情况下也可能发生。

所以，究竟为什么模型响应长度会遵循一种特殊模式——在早期训练阶段下降，然后在某个点激增？

为此，研究者通过两种方法研究立刻R1-Zero-like训练：(1) 在倒计时任务中对 R1-Zero的玩具级再现，以分析输出长度动态；(2) 在数学问题中对R1-Zero的再现，以研究输出长度与自我反思之间的关系。

长度变化是强化学习动态的一部分。

可以猜测：或许通过设计适当的奖励，强化学习（RL）能将浅度自我反思转化为有效自我反思？

研究团队进一步深入研究了R1-Zero-like训练中的强化学习动态。

他们使用支持R1-Zero-like训练的OAT，利用GRPO在倒计时任务上对Qwen-2.5-3B基础模型进行RL调优。

在这个任务中，模型被给定三到四个数字，并要求通过加、减、乘、除等算法操作，构造出一个等式使其结果等于目标值。

这个过程中，就不可避免地需要模型多次尝试不同的方案，因此需要自我反思行为。

图5右侧展示了RL训练过程中的奖励和响应长度动态。

与TinyZero和SimpleRL-Zero类似，可以观察到奖励持续增加，而响应长度则先减少后激增，这与现有研究中的「顿悟时刻」一致。

然而，研究者也注意到，基础模型的响应中已经存在一定的重试模式，但其中许多是浅层的，因此奖励较低。

最后发现，模型响应长度的变化主要是取决于基于规则的奖励，开始鼓励格式化（图5左侧中的紫色部分），然后转向正确性(图5左侧中的蓝色部分)，这验证了最初的猜测。

长度和自我反思可能并不相关

此外，研究者还发现：响应长度可能并不是自我反思的良好指标，这是因为在R1-Zero-like训练过程中，响应长度与自我反思似乎没有关联。

按照SimpleRL-Zero的设置，作者使用8K个MATH提示训练Qwen2.5-Math-1.5B。

在训练开始时，观察到输出长度下降；直到大约1700个梯度步之后，长度开始增加（见下图左）。

然而，所有自我反思关键词的总数并未与输出长度呈单调关系，见下图右。

以上内容，基于论文共同一作刘梓辰在X的分享。更多精彩内容，可以研读下列文章。

原文链接：https://oatllm.notion.site/oat-zero

请注意：目前，整个训练过程仍在进行中（与SimpleRL-Zero中的48个训练步骤进度相当）。训练完成后，作者将进行更详细的分析。

给RL训练的重重一击？

正如文章所言，目前并没有完全跑完实验。

到底R1-Zero-like的训练能不能给AI带来「顿悟时刻」，并不是100%肯定。

正如原文分享的内容，即便不存在「顿悟时刻」，强化学习对AI模型的性能乃至使用体验都有至关重要的影响。

更加重要的是，如果能引起对R1-Zero类似训练的深入研究，特别是强化学习动态，这不正是抛砖引玉吗？

比「顿悟时刻」这个名词更重要的，是DeepSeek的实际影响。

即便真的不存在所谓的「顿悟时刻」，但DeepSeek已让国人眼前一亮：因为流量太大，他们甚至停止了API充值。

作者介绍

共同一作刘梓辰，是Sea AI Lab的研究工程师，也是新加坡国立大学的计算机科学博士生。他在新加坡国立大学获得了电子工程学士学位。

共同一作Changyu Chen，是新加坡管理大学（SMU）计算机科学专业的博士生。在此之前，在南洋理工大学获得了系统与项目管理硕士学位，并在浙江大学获得了土木工程学士学位。他是Sea AI Lab的研究实习生。研究兴趣在于生成建模和自主决策的交叉领域。

共同一作Wenjun Li，是新加坡管理大学计算机科学专业的博士生。之前，他在南加州大学维特比工程学院完成了电子工程学硕士学位。研究重点是强化学习（RL）。

参考资料：

https://oatllm.notion.site/oat-zero

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.