网易首页 > 网易号 > 正文 申请入驻

ProRL:延长强化学习突破大语言模型推理极限

0
分享至

ProRL:延长强化学习突破大语言模型推理极限

ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models

https://arxiv.org/pdf/2505.24864


摘要

推理中心化语言模型的最新进展凸显了强化学习(RL)作为一种有前景的方法,可用于将模型与可验证奖励进行对齐。然而,关于RL是否真正扩展了模型的推理能力,还是仅仅放大了基础模型分布中已经潜在的高奖励输出,以及持续扩大RL计算规模是否能可靠地提升推理性能,这些问题仍存在争议。在本研究中,我们通过实验证明,延长RL(ProRL)训练可以发现基础模型无法触及的新型推理策略,即使进行大量采样也无法获得。我们提出了ProRL,一种新颖的训练方法,结合了KL散度控制、参考策略重置以及多样化的任务套件。我们的实证分析表明,经过RL训练的模型在各种pass@k评估中始终优于基础模型,包括在基础模型无论尝试多少次都完全失败的场景中。我们进一步证明,推理边界的提升与基础模型的任务能力和训练时长密切相关,这表明RL能够随着时间的推移探索和填充解空间的新区域。这些发现为RL在何种条件下能够有意义地扩展语言模型的推理边界提供了新的见解,并为未来关于推理的长程RL研究奠定了基础。我们发布了模型权重以支持进一步研究:https://huggingface.co/nvidia/Nemotron-Research-Reasoning-Qwen-1.5B

1 引言

以OpenAI-O1 [1]和DeepSeek-R1 [2]为代表的推理聚焦语言模型的最新进展,通过扩展测试时计算标志着人工智能领域的范式转变。具体而言,测试时扩展实现了长形式思维链(CoT)思考,并诱导出复杂的推理行为,从而在数学问题求解 [3-6] 和代码生成 [7, 8] 等复杂任务上取得了显著改进。通过在推理过程中持续消耗计算资源——通过探索、验证和回溯——模型以生成更长推理轨迹为代价提升了性能。

这些进展的核心在于强化学习(RL),它已成为发展复杂推理能力的关键工具。通过针对可验证的目标奖励而非学习得到的奖励模型进行优化,基于RL的系统可以缓解奖励作弊 [9-11] 的陷阱,并与正确的推理过程更紧密地对齐。然而,一个根本性问题仍在研究界积极争论中:强化学习是否真正解锁了基础模型的新推理能力,还是仅仅优化了已嵌入基础模型中的解决方案的采样效率?

近期研究 [13-15] 支持后者观点,声称基于pass@k指标,RL训练模型并未获得超出其基础模型已有能力的新的推理能力。我们认为,这些结论可能源于方法论限制,而非RL方法本身的根本局限。具体而言,我们识别出现有研究中的两个关键限制:(1)过度依赖数学等专业领域,模型通常在预训练和后训练阶段都经过过度训练,从而限制了探索的潜力;(2)在模型能够充分探索和发展新推理能力之前就过早终止RL训练,通常基于有限的RL训练量,不超过数百个步骤 [13]。

在本研究中,我们通过几项关键贡献来解决这些限制。首先,我们提出了ProRL,一种旨在实现延长RL训练周期的方案,以促进对推理策略的更深入探索。它实现了超过2k个训练步骤,并在多样化任务中扩展训练数据——从传统的数学和代码任务到STEM问题、逻辑谜题和指令遵循,我们假设这些对于泛化至关重要。使用ProRL,我们开发了Nemotron-Research-Reasoning-Qwen-1.5B,这是世界上最好的1.5B推理模型,显著优于其基础模型DeepSeek-R1-1.5B,并在各种基准测试中达到甚至超越了DeepSeek-R1-7B的性能。值得注意的是,与DeepSeek-R1-1.5B相比,我们在数学基准测试上实现了平均14.7%的pass@1提升,代码13.9%,逻辑谜题54.8%,STEM推理25.1%,指令遵循任务18.1%(图1,右)。更重要的是,ProRL在前所未有的2k个训练步骤后仍持续展示性能改进(图1,左),表明RL训练随着计算增加而有效扩展。


此外,Nemotron-Research-Reasoning-Qwen-1.5B提供了令人惊讶的新见解——当给予足够的训练时间并应用于新颖的推理任务时,RL确实可以发现基础模型中完全不存在的新解决方案路径。通过全面分析,我们表明我们的模型生成新颖的见解,并在日益困难和域外任务上表现异常出色,表明其推理能力真正超越了初始训练。最引人注目的是,我们识别出许多任务,其中基础模型无论采样多少次都无法产生任何正确解决方案,而我们的RL训练模型实现了100%的通过率(图4)。有趣的是,我们发现RL在每个任务上的增益量可以通过基础模型的性能来预测——RL在基础模型初始表现困难的领域中最为有效地扩展了模型的推理边界。此外,我们使用创造力指数 [12] 量化了模型推理轨迹的新颖性,该指数衡量与预训练语料库的重叠程度。我们发现延长RL训练导致具有更高新颖性的轨迹(图1,中),表明RL期间出现了新的推理模式。


我们的发现对更广泛的AI社区具有重要影响,证明RL方法确实可以在不需要额外训练数据的情况下增强模型能力。通过持续探索,模型可以发展出可能超越人类见解的新知识和推理策略。这项工作重申了强化学习作为通向更有能力和更可泛化AI系统途径的价值,挑战了关于这些方法固有局限性的先前假设。

2 ProRL:延长强化学习

我们首先简要概述GRPO [16]算法。然后,我们通过引入KL散度惩罚和参考策略的周期性重置,来解决延长RL训练中的关键挑战,如熵崩溃和不稳定性。这确保了跨多个epoch的稳定训练和持续的性能提升。

2.1 背景:组相对策略优化

我们采用组相对策略优化(GRPO)[16]作为核心RL算法。与近端策略优化(PPO)[17]相比,它移除了价值模型,转而使用基于组分数的基线估计。形式上,GRPO最大化以下目标:


2.2 延长强化学习(ProRL) 2.2.1 缓解熵崩溃

延长策略优化中的一个关键挑战是熵崩溃,这是一种现象,即模型的输出分布在训练早期变得过于尖锐,导致熵急剧降低。当熵崩溃发生时,策略过早地局限于狭窄的输出生成范围,严重限制了探索。这在GRPO等方法中尤其有害,因为学习信号依赖于拥有多样化的采样输出来有效估计相对优势。没有足够的探索,策略更新会变得有偏,导致训练停滞。

一种常见的缓解策略是在rollout过程中增加采样温度。然而,我们发现这种方法只是延迟了熵崩溃的发生,而非完全阻止它,因为随着训练进行,熵持续稳步下降。尽管如此,我们确实采用了高rollout温度,因为它通过增加初始熵来鼓励探索。

2.3 解耦裁剪与动态采样策略优化(DAPO)

为了解决熵崩溃问题,我们采用了DAPO算法 [4] 的几个组件,这些组件专门设计用于维持探索和输出多样性。首先,DAPO引入了解耦裁剪,其中PPO目标中的下裁剪界和上裁剪界被视为独立的超参数:


此外,DAPO采用动态采样,过滤掉模型始终成功或始终失败的提示(即准确率1或0),因为这些提示不提供学习信号。这种对中等难度示例的关注进一步有助于在训练期间维持多样化的学习信号。

2.3.1 KL正则化与参考策略重置



这一惩罚不仅有助于维持熵,还作为正则化器防止在线策略偏离稳定参考点过远,从而稳定学习并缓解对虚假奖励信号的过拟合。

近期研究 [4, 7, 5, 18] 主张移除KL惩罚,理由是模型在思维链推理任务训练期间会自然发散。我们观察到,这种观点通常适用于未经任何监督微调的基础模型。相比之下,我们从一个已经能够生成连贯CoT输出的良好初始化检查点(DeepSeek-R1-Distill-Qwen-1.5B)开始。在这种情况下,保留KL惩罚对稳定性和持续熵仍然有益。


3 Nemotron-Research-Reasoning-Qwen-1.5B:世界上最好的1.5B推理模型

我们推出了Nemotron-Research-Reasoning-Qwen-1.5B,这是一个通过强化学习在涵盖数学、代码、STEM、逻辑谜题和指令遵循的136K问题的多样化、可验证数据集上训练的通用模型。利用稳定的奖励计算、改进的GRPO和延长训练,我们的模型在各个领域实现了强大的泛化能力。它在数学上比DeepSeek-R1-Distill-Qwen-1.5B高出+15.7%,代码+14.4%,STEM+25.9%,指令遵循+22.0%,基于文本的逻辑谜题Reasoning Gym¹+54.8%。它还超越了数学(+4.6%)和代码(+6.5%)领域的专业基线,证明了通用延长RL训练的有效性。

3.1 训练数据集

我们构建了一个多样化且可验证的训练数据集,涵盖五个任务领域的136K个示例:数学、代码、STEM、逻辑谜题和指令遵循,以实现从广泛推理问题中进行稳健的强化学习。每种任务类型都配有清晰的奖励信号(二元或连续),允许在训练期间提供可靠的反馈。这种广泛的任务覆盖鼓励了超越狭窄领域的泛化,并使得能够在多样化奖励结构中对RL算法进行有意义的比较。训练数据集组成的详细信息见附录D。

3.2 训练设置


3.3 ProRL训练动态

为了实现有效的长程强化学习,我们使用从评估基准派生的混合验证集来监控训练进度。当验证性能停滞或下降时,我们对参考模型和优化器执行硬重置。这不仅恢复了训练稳定性,还促进了策略与基础模型的更大发散。在训练的大部分时间里,我们将响应长度限制在8k token以保持简洁和稳定的生成。在最后阶段(约200步),我们将上下文窗口增加到16k token,观察到模型快速适应并实现了可测量的改进。我们在附录E中详细介绍了我们的训练方案。

图2展示了在多个阶段的扩展强化学习过程中训练动态的关键统计数据。通过应用DAPO [4]提出的各种增强方法,以及引入KL散度损失,模型成功避免了熵崩溃。尽管我们观察到平均响应长度与验证分数之间存在正相关关系,但这一因素似乎并非决定性的,因为在某些训练阶段中,性能的提升并不需要更长的响应。与此同时,验证性能(通过pass@1和pass@16衡量)随着训练计算量的增加而持续改进和扩展。


3.4 评估

评估基准。 我们在数学、编程、推理和指令遵循等多个任务领域对模型进行评估。对于数学任务,我们遵循DeepScaleR [3]和SimpleRL [21]的做法,在AIME2024 [22]、AIME2025 [23]、AMC [24](由AMC2022和AMC2023组成)、MATH [25]、Minerva Math [26]和Olympiad Bench [27]上进行评估。对于编程任务,我们使用PRIME [28]的验证集,包括APPS [29]、Codecontests [30]、Codeforces2和TACO [31]。我们还加入了HumanevalPlus [32]和LiveCodeBench [33]基准测试。对于逻辑谜题,我们从每个推理健身房任务中预留100个样本作为测试数据集进行评估。此外,我们使用GPQA Diamond [34]和IFEval [35]的精选子集3来评估模型在STEM推理和指令遵循方面的能力 [36]。

评估设置。 我们使用vllm [37]作为推理后端,采样温度为0.6,采用核采样 [38],top_p = 0.95,最大响应长度为32k。对于数学、编程和STEM推理任务,我们从每个基准测试提示的16个样本中基于严格二元奖励估计pass@1。对于其他任务(逻辑谜题和指令遵循),我们基于规则验证器计算平均连续奖励分数。我们使用自己的评估设置对开源模型进行评估并报告基准测试结果。

评估结果。 我们提供了DeepSeek-R1-Distill-Qwen-1.5B与我们最终模型Nemotron-Research-Reasoning-Qwen-1.5B在多个领域的详细对比。在表1所示的数学领域,我们的模型在各个基准测试上始终优于基础模型,平均提升15.7%。在表2所示的编程领域结果中,我们的最终模型在竞争性编程任务中以pass@1准确率超越基础模型14.4%。我们的模型在STEM推理和指令遵循方面也表现出显著提升,GPQA Diamond提升25.9%,IFEval提升22.0%。尽管基础模型在格式处理和具有挑战性的子任务上存在困难,但我们的模型在训练后在Reasoning Gym逻辑谜题上实现了高准确率,奖励提升54.8%。即使与更大的模型DeepSeek-R1-Distill-Qwen-7B相比,我们的模型在多个领域也达到了相当甚至更好的性能。


对OOD任务的泛化。 在表3中,我们还展示了Reasoning Gym中分布外(OOD)任务的结果。我们的模型在三个OOD任务上显示出显著改进,证明了在训练分布之外的强大泛化能力。这凸显了我们的训练方法在使模型适应并在未见挑战上表现良好的有效性。

与领域专用模型的比较。 我们将Nemotron-Research-Reasoning-Qwen-1.5B与两个领域专用基线进行比较:专为数学推理定制的DeepScaleR-1.5B [3],以及专注于竞争性编程任务的DeepCoder-1.5B [7]。我们的ProRL训练模型实现了强大的泛化能力,在数学(+4.6%)和编程(+6.5%)基准测试上均取得了更优的pass@1分数。此外,ProRL能够在有限的响应长度内进行更深入的探索和优化,而先前的工作往往过早增加训练响应长度,导致"过度思考" [39]和冗长的推理。

4 分析:ProRL是否激发新的推理模式?

为了评估延长ProRL训练是否能在基础模型之外增强推理能力,我们将推理样本增加到256并重新评估性能。由于计算资源限制,我们从96个Reasoning Gym任务中随机选择18个,并重新运行所有其他基准测试:数学、编程、STEM推理和指令遵循。我们比较了基础模型(DeepSeek-R1-Distilled-1.5B)、中间检查点以及Nemotron-Research-Reasoning-Qwen-1.5B(延长训练后的最终模型)。

4.1 起点越弱,ProRL收益越强

我们研究的一个关键发现是,强化学习在扩展模型推理边界(以pass@128衡量)方面的有效性受到基础模型初始能力的强烈影响。如图3所示,我们观察到基础模型的推理边界与RL训练后推理改进程度之间存在显著的负相关关系。具体而言,基础模型已经表现良好的任务(即高pass@128)在RL后往往表现出最小甚至负面的推理广度增益。这表明推理边界正在收窄,模型对其已理解的解决方案子集变得更加自信,而非探索新的推理模式。相比之下,在基础模型表现困难的领域,特别是初始pass@128较低的任务中,RL训练最为有效。在这种情况下,ProRL不仅提高了pass@1,还扩展了模型探索和成功应对更广泛推理路径的能力。


为了进一步证实我们的直觉——即RL后收益最小的任务是基础模型已经熟悉的任务——我们计算了基础模型对每个任务响应的创造力指数 [40],并与最大的开源预训练语料库DOLMA [41]进行对比。创造力指数量化了模型响应与预训练语料之间的重叠程度。圆圈中突出显示的一些数学和编程任务往往具有较低的创造力指数,表明基础模型在预训练期间已经见过大量类似数据。

4.2 解析ProRL的推理边界:减弱、平台期和持续收益

我们分析了各个基准测试的性能趋势,并根据pass@k在训练过程中的演变情况进行分类。我们的分析表明,强化学习可以有意义地扩展模型的推理能力,特别是在超出基础模型能力的挑战性任务上。虽然某些任务表现出早期饱和甚至推理广度回归,但我们也观察到模型推理能力随着持续训练而扩展的明显实例。最值得注意的是,在某些领域如代码生成中,ProRL实现了持续收益,表明延长训练使模型能够探索并内化更复杂的推理模式。这证明,在适当条件下,ProRL可以将模型的推理能力前沿推向超越基础模型所达到的水平。

推理边界减弱 在某些基准测试中(特别是在数学领域),与基础模型相比,Nemotron-Research-Reasoning-Qwen-1.5B表现出推理能力的下降或不变,这与先前工作[13]的观察结果一致。尽管pass@1有所提升,但反映更广泛推理能力的pass@128分数往往下降。这些任务通常具有较高的基线pass@128,表明基础模型已经具备足够的推理能力,而RL训练仅仅是以牺牲探索和泛化为代价来锐化输出分布。

RL带来的收益趋于平台期 对于这些任务,RL训练同时提升了pass@1和pass@128,表明推理能力得到改善。然而,这些收益主要在训练早期实现。对比中间检查点和最终检查点显示,ProRL几乎未提供额外收益,意味着模型对这些任务的学习潜力很快达到饱和。

ProRL带来的持续收益 相比之下,在某些基准测试中,特别是更复杂的任务如编程领域,Nemotron-Research-Reasoning-Qwen-1.5B随着RL训练的延长显示出推理能力的持续提升。这些任务可能需要在训练期间对多样化的问题实例进行广泛探索,才能有效泛化到测试集。在这种情况下,ProRL扩展了模型的推理边界。

4.3 ProRL增强分布外推理能力

我们重点研究ProRL如何影响模型在其训练数据分布之外进行泛化的能力。这些研究旨在分离延长RL更新在扩展模型推理边界方面的作用,特别是在初始训练期间未遇到的结构新颖或语义具有挑战性的任务上。

分布外(OOD)任务 我们在训练期间未见过的Reasoning Gym任务boxnet上评估模型。如图5所示(示例见附录C.3),基础模型表现出无法解决该任务的能力。相比之下,使用ProRL训练的模型展现出显著的问题解决能力,表明模型的推理边界明显扩展,能够泛化到训练期间未见的分布外任务。此外,当比较中间RL检查点与最终延长RL模型时,我们观察到延长训练在所有k值上持续保持并放大了性能收益。这些结果进一步支持了ProRL使模型能够内化抽象推理模式的结论,这些模式能够泛化到特定的训练分布或复杂度水平之外。


增加任务难度 我们通过生成具有不同节点数量的图问题,在graph_color任务(示例见附录C.1)的不同难度级别上评估性能。虽然训练数据仅包含大小为10的图,但我们在更大的图上进行测试以评估超出训练范围的泛化能力。图6绘制了不同模型的pass@1(实线)和pass@128(虚线)。结果显示,随着任务难度增加,性能持续下降,考虑到解空间的组合增长,这是预期的。然而,与基础模型和中间模型相比,我们的延长RL模型在所有图大小上保持了显著更高的准确率。这表明延长RL更新不仅提高了分布内任务的pass@1,还增强了模型对更复杂、未见过场景的鲁棒性。


4.4 随着ProRL的推进,pass@1分布如何演变?

Dang等人[14]推导出了pass@k的数学上界:

其中表示任务 x 的 pass@1 准确率。虽然提高预期 pass@1 会提升这个上界,但更高的方差会降低它。与[14]观察到的训练期间 pass@k 下降相反,我们在图1中的结果显示 pass@1 和 pass@16 均持续改进,复现了 OpenAI O1 RL 训练[42]中报告的扩展定律模式。我们的 ProRL 方法在多样化任务中产生了显著的性能提升。图7(a)和7(b)展示了编程和逻辑谜题任务中显著的分布右移。最初集中在零附近且具有长尾分布的 pass@1 分布在训练后发生了显著演变。Codeforces 问题在训练后表现出更广泛的分布模式,而 family_relationships 任务(示例见附录C.2)作为一种新颖的推理挑战,展示了从主要为零准确率到峰值达到完美准确率的戏剧性转变,表明在大多数提示上成功发现了解决方案。这些由延长 RL 训练驱动的显著分布变化,在预期 pass@1 方面产生了足够的改进,以克服方差增加带来的任何负面影响。


5 相关工作

推理模型 推理模型代表了一类专门的人工智能系统,它们在生成最终答案之前会进行详细的、长链的思维过程,这一概念最初由 OpenAI 的 o1 系列模型 [43] 引入。随后,DeepSeek [2] 和 Kimi [44] 详细介绍了使用可验证奖励的强化学习(RLVR)训练推理模型的方法。这两种方法都普及了 GRPO [16]、镜像下降 [45]、RLOO [46] 等 RL 算法及其他变体。虽然众多开源工作尝试复现 o1 类模型,但大多数专注于单一领域 [3, 7, 6] 或研究测试时计算扩展 [47],很少涉及延长强化学习训练或考察 RL 训练时间扩展定律。正如强化学习界广泛认可的,RL 训练由于对超参数的敏感性 [48] 而带来重大挑战。各种强化学习技术 [5, 4] 已被研究用于增强训练稳定性以实现持续优化周期。我们的研究表明,实现延长 RL 训练可以显著扩展这些模型的推理能力边界。

RL 推理边界 实现超人类表现一直是机器学习的圣杯,强化学习算法成功地实现了这一期望,始于用于 Atari 游戏的 DeepQ 网络 [49, 50]。最近,AlphaGo 和 AlphaZero [51] 表明,AI 智能体可以通过在蒙特卡洛树搜索数据收集和策略改进之间持续迭代来无限提升性能。这些例子表明,RL 训练帮助智能体发展出基础模型中不存在的新技术 [52-56]。然而,对这一观点提出挑战的是,最近几项研究质疑 RL 训练是否真正增强了 LLM 的推理能力。一项工作 [13] 认为 RLVR 方法未能扩展这一能力,pass@k 指标显示与基础模型相比没有改进甚至在某些情况下恶化,其他研究人员 [14] 也呼应了这一趋势。同样,另一项工作 [15] 发现 RL 算法倾向于收敛到主导输出分布,仅仅放大现有的预训练模式。除了 pass@k 指标,替代测量如创造力指数 [12] 也可以确定模型是否通过 RL 训练学习到新思想,我们在研究中采用了这一方法。

6 结论

在本工作中,我们探讨了强化学习是否真正能扩展语言模型的推理边界。通过引入 ProRL,我们提供了令人信服的证据,表明延长且稳定的 RL 训练能够发展出超越基础模型初始能力的新颖推理模式。

ProRL 结合了 KL 散度惩罚和周期性参考策略重置,以在长时间内保持训练稳定性。使用这一方法,我们开发了一个最先进的 15 亿参数通用推理模型,在涵盖数学、编程、STEM、逻辑谜题和指令遵循任务的多样化数据集上进行训练。我们的分析揭示,ProRL 在基础模型初始表现困难的任务上尤为有效。最重要的是,ProRL 实现了对分布外任务和日益复杂问题的强泛化能力,证明延长 RL 训练帮助模型内化可迁移到训练分布之外的抽象推理模式。

这些结果挑战了先前关于 RL 局限性的假设,并确立了通过适当技术进行充分训练时间可以有意义地扩展推理边界,为开发更强大的推理模型提供了有价值的方向。

原文链接:https://arxiv.org/pdf/2505.24864

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
人大代表:鸭子是对付福寿螺的高手,但农民告诉我,在上海养鸭子很麻烦,各种部门、各种证、各种规定

人大代表:鸭子是对付福寿螺的高手,但农民告诉我,在上海养鸭子很麻烦,各种部门、各种证、各种规定

新民晚报
2026-02-05 09:09:09
押注黄金大赚30亿美元后, 一位神秘的中国交易员大举做空白银

押注黄金大赚30亿美元后, 一位神秘的中国交易员大举做空白银

凤凰网财经
2026-02-05 15:54:04
媒体人刘虎案 29日文章 三天立案抓人 速度效率惊人

媒体人刘虎案 29日文章 三天立案抓人 速度效率惊人

原某报记者
2026-02-05 16:07:12
亚朵涨到3000块一晚,潮汕要被外地游客挤爆了

亚朵涨到3000块一晚,潮汕要被外地游客挤爆了

源Sight
2026-02-05 16:46:25
一旦中国清空美债,明天我们自己的出口企业,将接不到一张新订单

一旦中国清空美债,明天我们自己的出口企业,将接不到一张新订单

百态人间
2026-02-05 15:31:45
泽连斯基称已有5.5万名乌士兵在俄乌冲突中阵亡

泽连斯基称已有5.5万名乌士兵在俄乌冲突中阵亡

界面新闻
2026-02-05 13:15:58
306:159!日本选情逆转要变天,高市兵分两路,对中国稀土出手

306:159!日本选情逆转要变天,高市兵分两路,对中国稀土出手

东极妙严
2026-02-05 16:30:15
但斌:目前仍处于人工智能大发展的一年,即使今年股票下跌,泡沫只是噪音,关注英伟达谷歌特斯拉产业链

但斌:目前仍处于人工智能大发展的一年,即使今年股票下跌,泡沫只是噪音,关注英伟达谷歌特斯拉产业链

投资作业本Pro
2026-02-05 19:20:32
斯塔默:我后悔了

斯塔默:我后悔了

环球时报国际
2026-02-05 15:41:17
持续发放生活补贴或绩效奖金让机关事业单位退休人员收入稳中有升

持续发放生活补贴或绩效奖金让机关事业单位退休人员收入稳中有升

郭爱华追问教育
2026-02-05 06:16:54
中华人民共和国正式向全世界宣告两件大事:

中华人民共和国正式向全世界宣告两件大事:

百态人间
2026-02-05 15:32:53
现在的考试是“伪考试“大量刷题!上海市政协委员:取消中高考是早晚的事

现在的考试是“伪考试“大量刷题!上海市政协委员:取消中高考是早晚的事

看看新闻Knews
2026-02-04 15:23:04
云南一男子从起火车中拽出3人,网友建议嘉奖,当地:其倒车引发事故,不符合见义勇为

云南一男子从起火车中拽出3人,网友建议嘉奖,当地:其倒车引发事故,不符合见义勇为

潇湘晨报
2026-02-05 17:24:16
爱泼斯坦为讨好挪威外交官,托关系将其儿子送到中国银行伦敦分行实习

爱泼斯坦为讨好挪威外交官,托关系将其儿子送到中国银行伦敦分行实习

玛丽姬丝
2026-02-05 10:12:52
谁碰中巴项目灭谁?瓜达尔港遇袭,48小时击毙177人,中方4字回应

谁碰中巴项目灭谁?瓜达尔港遇袭,48小时击毙177人,中方4字回应

东极妙严
2026-02-05 20:44:26
善恶终有报:疫情时对中国一毛不拔,却大方捐美国6亿,如今咋样

善恶终有报:疫情时对中国一毛不拔,却大方捐美国6亿,如今咋样

暮雨咋歇着
2026-02-06 00:45:48
7个省级政府领导班子调整

7个省级政府领导班子调整

上观新闻
2026-02-05 12:39:09
固始新娘越扒越有!高中同学发声,曝新娘更多过往,刻薄并非偶然

固始新娘越扒越有!高中同学发声,曝新娘更多过往,刻薄并非偶然

奇思妙想草叶君
2026-02-05 22:37:25
三只羊拿下网红“无语哥”全球运营权,预计年销售额将超40亿美元

三只羊拿下网红“无语哥”全球运营权,预计年销售额将超40亿美元

蓝鲸新闻
2026-02-05 17:13:04
俄罗斯星链网络被整个切断!曝前线指挥系统崩溃混乱

俄罗斯星链网络被整个切断!曝前线指挥系统崩溃混乱

项鹏飞
2026-02-05 18:14:58
2026-02-06 05:28:49
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1201文章数 18关注度
往期回顾 全部

科技要闻

美团买下叮咚买菜,防御还是进击?

头条要闻

与爱泼斯坦共舞嬉笑的神秘红衣女子身份披露

头条要闻

与爱泼斯坦共舞嬉笑的神秘红衣女子身份披露

体育要闻

奇才:我学生……独行侠:成交!

娱乐要闻

微博之夜卷入座位风波!杨幂超话沦陷

财经要闻

中美"只会有好消息" 经济冷暖看房价

汽车要闻

李想为全新L9预热 all in AI造更好的车

态度原创

教育
时尚
本地
家居
游戏

教育要闻

教育的最高境界,是把孩子培养成幸福的普通人!幸福比成功更重要,成人比成才更重要

她随手打赏就是6两黄金:人美,心善,钱多!

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

家居要闻

简雅序章 自然且闲适

《无主之地4》现已通过Steam Deck验证

无障碍浏览 进入关怀版