网易首页 > 网易号 > 正文 申请入驻

DeepSeek-R1-Zero不存在顿悟时刻?华人团队揭秘真相:或只因强化学习

0
分享至

新智元报道

编辑:KingHZ Aeneas

【新智元导读】最近某个华人团队发现:类似DeepSeek-R1-Zero的「顿悟时刻」,可能并不存在。类似复现实验中之所以出现响应变长现象,或许只是因为强化学习,而不是所谓的「顿悟」。

最近,「啊哈时刻」(Aha moment)这个词在AI圈流行起来了!

并不是凤凰传奇的风刮到了AI圈,更不是AI大佬开始跟曾毅学rap了。

这里的「Aha moment」指的是AI模型的「顿悟时刻」:在那一刻AI仿佛打通了「任督二脉」,可以像人类一样自我反思。

简而言之,「啊哈时刻」(Aha moment)就是模型「灵机一动」,让人眼前一亮的时刻。

DeepSeek-R1论文中,提到模型让作者「见证了强化学习的力量和美感」。

在DeepSeek-R1-Zero的中间版本,「顿悟时刻」来了:模型学会了以人类的语气进行反思

比如,开源项目SimpleRL-Zero,只使用基于规则的奖励,去提升模型的推理能力。

几乎与DeepSeek-R1中使用的方案一样,唯一的区别是目前代码使用的是PPO,而不是GRPO。

项目链接:https://github.com/hkust-nlp/simpleRL-reason

但是!新发现可能给这场全球的热潮浇了一盆冷水。

来自Sea AI Lab&NUS的研究人员刘梓辰(Zichen Liu),在X上公布了最新的研究,表示:

在R1-Zero-like训练中, 也许没有顿悟时刻。 最近,关于R1-Zero-like训练的普遍看法是,自我反思作为RL训练的结果,涌现而出。仔细研究之后,表明情况完全相反。

突然反转:并没有顿悟

在R1-Zero发布后的几天内,在较小规模(例如1B到7B)上,多个独立项目「复现」了类似R1-Zero的训练。

而且大家都观察到了「顿悟时刻」。此外,「顿悟」一般都伴随着响应长度的增加。

这次新研究揭示:AI或许从未「顿悟」,模型响应长度的突然增加也不是因为「顿悟」。

具体而言,新研究有3点重要发现:

  1. 顿悟时刻(例如自我反思模式)出现在第0轮,也就是基础模型阶段,根本用不着RL训练。

  2. 在基础模型的响应中,发现了浅度自我反思现象(Superficial Self-Reflection,SSR),但这种自我反思带来的最终答案不一定正确。但强化学习可以将SSR转化为有效自我反思,提升模型效果。

  3. 响应长度增加的现象并不是由于自我反思,而是强化学习精心优化奖励函数所导致的结果。

无需训练,也可顿悟?

啊哈时刻出现在Epoch 0

研究者测试了各家机构的多种基础模型,包括Qwen-2.5、Qwen-2.5-Math、DeepSeek-Math、Rho-Math和Llama-3.x。

当R1-zero和SimpleRl-Zero还在辛苦训练时,新研究揭示不必如此大费周折。

使用它们的提示,就能激活基础模型「自我反思」!

研究者使用了在R1-Zero和SimpleRL-Zero中应用的模板,来提示这些基础模型:

研究者从MATH训练数据集中收集了500个问题,均匀覆盖了五个难度级别和所有科目。

在生成参数上,研究者对探索参数(温度)在0.1到1.0之间进行网格搜索,用于在选定问题上的模型推理。所有实验的Top P都设置为0.9。每个问题生成8个回复。

研究者首先尝试了所有模型和提示模板(模板1或2)的所有组合,然后根据每个模型的指令跟随能力选择最佳模板,并将其固定用于所有实验。

然后,出人意料的结果出现了!

研究者发现,在Epoch 0阶段,就已经出现了啊哈时刻。除Llama-3.x系列外,所有模型还未经任何训练,就已经表现出了自我反思模式。

并且出现了以下「自我反思」关键词:

check again,re-evaluate,re-example, recheck, reevaluate, re-evaluatation, rethink, think again, try again

从定性角度看,研究者在下表中列出了所有暗示模型自我反思模式的关键词。

他们猜测,不同模型展示出了与自我反思相关的不同关键词,可能和预训练数据有关。

可以看到,不同的AI模型有不同的「个性」:有些模型比DeepSeek-Math-7b更喜欢用「反思」(rethink)。

图1a显示了在不同基础模型中引发自我反思行为的问题数量。

结果表明,自我反思在不同温度下可以观察到,并且在较高温度下,epoch 0 处的顿悟时刻会更频繁地出现。

图1b显示了不同自我反思关键词的出现次数。

可以观察到,来自 Qwen2.5系列的基础模型在生成自我反思行为方面最为活跃,这在一定程度上反映出:大多数开放的R1-Zero复现版本都是基于 Qwen2.5模型。

不同模型的自我反思关键词统计如下:

当发现顿悟时刻确实在Epoch 0出现、没有经过任何训练时,研究者想知道:它真的是按照他们的预期,通过自我反思来纠正错误推理的吗?

因此,他们直接就在Qwen2.5-Math-7B基础模型上,测试了SimpleRL-Zero博客中示例问题。

令人惊讶的是,它在没有任何训练的情况下,就能通过自我修正思维链(CoT),直接解决在SimpleRL-Zero中报告的示例问题了!

SimpleRL-Zero中报告的示例问题

浅度自我反思,可以进阶

不过尽管基础模型表现出了通过自我纠正的CoT解决复杂推理的巨大潜力,但并非所有它们的自我反思都是有效的。

其中有很多并没有最终导致正确答案,研究者将之称为浅度自我反思(Superficial Self-Reflection,SSR)。

Qwen-2.5-Math-7B基础模型的四种自我反思模式

为了识别SSR,研究者进行了案例研究。

他们观察到, Qwen2.5-Math-7B基础模型响应中存在四种自我反思模式:

行为1:双重检查和确认正确答案的自我反思

行为2:纠正最初错误想法的自我反思

行为3:将错误引入原本正确答案的自我反思

行为4:无法产生有效答案的重复自我反思

其中行为3和行为4就属于浅层自我反思,最终导致了错误答案。

基础模型很容易产生SSR

接下来,研究者分析了Qwen2.5-Math-1.5B正确和错误答案中,自我反思关键词出现的情况。

正如下图所示,在不同采样温度下,大多数自我反思(以频率衡量)并未导致正确答案。

这也就表明,基础模型很容易出现浅层自我反思。

深入了解R1-Zero-like训练

虽然模型突然响应长度增加,被视为R1-Zero-like中的啊哈时刻。但如上所述,这种顿悟在没有RL训练的情况下也可能发生。

所以,究竟为什么模型响应长度会遵循一种特殊模式——在早期训练阶段下降,然后在某个点激增?

为此,研究者通过两种方法研究立刻R1-Zero-like训练:(1) 在倒计时任务中对 R1-Zero的玩具级再现,以分析输出长度动态;(2) 在数学问题中对R1-Zero的再现,以研究输出长度与自我反思之间的关系。

长度变化是强化学习动态的一部分。

可以猜测:或许通过设计适当的奖励,强化学习(RL)能将浅度自我反思转化为有效自我反思?

研究团队进一步深入研究了R1-Zero-like训练中的强化学习动态。

他们使用支持R1-Zero-like训练的OAT,利用GRPO在倒计时任务上对Qwen-2.5-3B基础模型进行RL调优。

在这个任务中,模型被给定三到四个数字,并要求通过加、减、乘、除等算法操作,构造出一个等式使其结果等于目标值。

这个过程中,就不可避免地需要模型多次尝试不同的方案,因此需要自我反思行为。

图5右侧展示了RL训练过程中的奖励和响应长度动态。

与TinyZero和SimpleRL-Zero类似,可以观察到奖励持续增加,而响应长度则先减少后激增,这与现有研究中的「顿悟时刻」一致。

然而,研究者也注意到,基础模型的响应中已经存在一定的重试模式,但其中许多是浅层的,因此奖励较低。

最后发现,模型响应长度的变化主要是取决于基于规则的奖励,开始鼓励格式化(图5左侧中的紫色部分),然后转向正确性(图5左侧中的蓝色部分),这验证了最初的猜测。

长度和自我反思可能并不相关

此外,研究者还发现:响应长度可能并不是自我反思的良好指标,这是因为在R1-Zero-like训练过程中,响应长度与自我反思似乎没有关联。

按照SimpleRL-Zero的设置,作者使用8K个MATH提示训练Qwen2.5-Math-1.5B。

在训练开始时,观察到输出长度下降;直到大约1700个梯度步之后,长度开始增加(见下图左)。

然而,所有自我反思关键词的总数并未与输出长度呈单调关系,见下图右。

以上内容,基于论文共同一作刘梓辰在X的分享。更多精彩内容,可以研读下列文章。

原文链接:https://oatllm.notion.site/oat-zero

请注意:目前,整个训练过程仍在进行中(与SimpleRL-Zero中的48个训练步骤进度相当)。训练完成后,作者将进行更详细的分析。

给RL训练的重重一击?

正如文章所言,目前并没有完全跑完实验。

到底R1-Zero-like的训练能不能给AI带来「顿悟时刻」,并不是100%肯定。

正如原文分享的内容,即便不存在「顿悟时刻」,强化学习对AI模型的性能乃至使用体验都有至关重要的影响。

更加重要的是,如果能引起对R1-Zero类似训练的深入研究,特别是强化学习动态,这不正是抛砖引玉吗?

比「顿悟时刻」这个名词更重要的,是DeepSeek的实际影响。

即便真的不存在所谓的「顿悟时刻」,但DeepSeek已让国人眼前一亮:因为流量太大,他们甚至停止了API充值。

作者介绍

共同一作刘梓辰,是Sea AI Lab的研究工程师,也是新加坡国立大学的计算机科学博士生。他在新加坡国立大学获得了电子工程学士学位。

共同一作Changyu Chen,是新加坡管理大学(SMU)计算机科学专业的博士生。在此之前,在南洋理工大学获得了系统与项目管理硕士学位,并在浙江大学获得了土木工程学士学位。他是Sea AI Lab的研究实习生。研究兴趣在于生成建模和自主决策的交叉领域。

共同一作Wenjun Li,是新加坡管理大学计算机科学专业的博士生。之前,他在南加州大学维特比工程学院完成了电子工程学硕士学位。研究重点是强化学习(RL)。

参考资料:

https://oatllm.notion.site/oat-zero

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
只需3分钟,学会一个“性爱”小技巧,让妻子快乐一整晚

只需3分钟,学会一个“性爱”小技巧,让妻子快乐一整晚

精彩分享快乐
2025-11-17 00:05:03
中国共产党中央军事委员会副主席张升民简历

中国共产党中央军事委员会副主席张升民简历

上观新闻
2025-10-23 18:17:07
赚着中国人钱,毒害中国人身体!日企在华收割上万亿,至今仍售卖

赚着中国人钱,毒害中国人身体!日企在华收割上万亿,至今仍售卖

近史谈
2025-11-15 21:10:46
国青队员拔角旗杆!董路:开了眼了 跟8岁孩子似的 还有更离谱的

国青队员拔角旗杆!董路:开了眼了 跟8岁孩子似的 还有更离谱的

风过乡
2025-11-18 10:23:15
你身边有没有降维打击的例子?网友:万里挑一的天才,中国也有14万

你身边有没有降维打击的例子?网友:万里挑一的天才,中国也有14万

夜深爱杂谈
2025-11-17 21:39:36
《无限城篇》上映第四天票房暴跌70%,破8亿还有没有可能?

《无限城篇》上映第四天票房暴跌70%,破8亿还有没有可能?

二次元那些事
2025-11-18 22:12:25
小米汽车第三季营收290亿 卢伟冰:本周提前完成全年交付目标

小米汽车第三季营收290亿 卢伟冰:本周提前完成全年交付目标

雷递
2025-11-18 19:10:48
郭晶晶终于大方一次, 和老公看全运会 用上17pro了最好看的爱马仕

郭晶晶终于大方一次, 和老公看全运会 用上17pro了最好看的爱马仕

动物奇奇怪怪
2025-11-18 03:58:21
男子暴打母亲后续!亲戚为男子发声,动手事出有因,老人拿钱捞人

男子暴打母亲后续!亲戚为男子发声,动手事出有因,老人拿钱捞人

刘森森
2025-11-18 16:14:44
民间创业仙人,一拳打碎发财梦

民间创业仙人,一拳打碎发财梦

虎嗅APP
2025-11-16 17:00:32
美国拟替换泽连斯基是真是假?乌克兰国际军团揭秘

美国拟替换泽连斯基是真是假?乌克兰国际军团揭秘

史政先锋
2025-11-18 18:46:46
阿森西奥带女友重返伯纳乌,与齐达内一同观看了NFL比赛

阿森西奥带女友重返伯纳乌,与齐达内一同观看了NFL比赛

懂球帝
2025-11-18 17:17:32
国乒重建!三大教练退出,3人离队,2人获提拔

国乒重建!三大教练退出,3人离队,2人获提拔

热点新闻天下荟
2025-11-18 11:36:24
3客1主!火箭队迎艰难赛程!7天对阵4劲旅,若表现不佳或迎4连败

3客1主!火箭队迎艰难赛程!7天对阵4劲旅,若表现不佳或迎4连败

熊哥爱篮球
2025-11-18 12:33:55
6连败西部垫底!亲手送走明年首轮!他毁掉豪门后又毁一支青年军

6连败西部垫底!亲手送走明年首轮!他毁掉豪门后又毁一支青年军

阿浪的篮球故事
2025-11-18 16:07:08
神舟22飞船即将无人发射,计划突变,中国空间站到底发生了什么?

神舟22飞船即将无人发射,计划突变,中国空间站到底发生了什么?

boss外传
2025-11-18 16:30:03
零下4度供暖中断,山东济南一小区暖气管道突然掉落,业主苦等,何时抢修仍无明确答复

零下4度供暖中断,山东济南一小区暖气管道突然掉落,业主苦等,何时抢修仍无明确答复

新浪财经
2025-11-18 23:21:42
83年,下岗职工花700块买下上海废旧水塔住,22年后拆迁时愣了

83年,下岗职工花700块买下上海废旧水塔住,22年后拆迁时愣了

温情邮局
2025-11-11 10:58:54
中国没有破译源代码:苏30能挂国产导弹,是直接换了歼11B的雷达

中国没有破译源代码:苏30能挂国产导弹,是直接换了歼11B的雷达

荷兰豆爱健康
2025-11-19 05:47:51
吴艳妮穿紧身三角裤太窄被批“露骨”,到底碍了谁的眼?

吴艳妮穿紧身三角裤太窄被批“露骨”,到底碍了谁的眼?

傲娇的马甲线
2025-09-17 18:06:44
2025-11-19 07:32:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13901文章数 66268关注度
往期回顾 全部

科技要闻

谷歌CEO警告:若AI泡沫破裂,没公司能幸免

头条要闻

27岁女孩家门口遇害 妈妈痛哭:墙上还有女儿血迹

头条要闻

27岁女孩家门口遇害 妈妈痛哭:墙上还有女儿血迹

体育要闻

结束最后一次对决,陈梦和朱雨玲笑着相拥

娱乐要闻

宋佳夺影后动了谁的奶酪

财经要闻

中美机器人爆发了一场论战

汽车要闻

硬核配置旗舰气场 岚图泰山售37.99万起

态度原创

艺术
游戏
亲子
时尚
公开课

艺术要闻

启功:我是画家,但书名超过了画名

魔兽世界:时光服正式开服,排队时间增加,联盟成香饽饽!

亲子要闻

程晓玥展示大肚子,二胎4个多月就显怀,孕中期胃口大开才92斤

秋天穿衣暂时没灵感?赶紧看看这27套穿搭,舒适自然又大方

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版