腾讯RLPT：AI实现无标注自主探索学习|算法|实验|数学|推理|rlpt|知名企业|深度思考模型

分享至

这项由腾讯大语言模型部门的李思恒、李克娇、许泽南等研究人员联合香港中文大学林蔚等学者共同完成的研究发表于2025年9月。论文题为《Reinforcement Learning on Pre-Training Data》，有兴趣深入了解的读者可以通过arXiv:2509.19249v2查询完整论文。这项研究首次提出了一种全新的AI训练范式，让大语言模型能够像优秀学生一样自主探索和学习，而不再需要人工费力地给每个答案打分。

过去，训练一个聪明的AI模型就像培养一个学生，需要老师不断地批改作业、给出分数和反馈。然而随着AI模型越来越大，需要的"作业"也越来越多，人工批改变得极其费时费力。腾讯的研究团队提出了一个巧妙的解决方案：让AI模型像自学成才的学生一样，通过阅读大量文献资料来自己判断答案的好坏，从而实现自主学习。

这种方法被称为RLPT（Reinforcement Learning on Pre-Training data，在预训练数据上的强化学习）。研究团队设计了一种新颖的"下一段预测"任务，让AI模型预测文章的下一段内容，然后用一个专门的评估模型来判断预测内容是否与真实内容在语义上保持一致。这就像让学生读完一篇文章的前半部分，然后预测后半部分会写什么，再用标准答案来验证预测的准确性。

一、突破传统限制的学习新思路

传统的AI训练方法面临着两个关键瓶颈，就像一个学生的成长受到两方面制约一样。首先是"老师资源有限"的问题，即高质量的网络文本数据越来越稀缺，而AI模型的胃口却在不断增长。研究表明，可用的高质量数据增长速度远远赶不上计算资源的指数级扩张，这就像图书馆里的好书已经被读完了，但学生的求知欲却越来越强烈。

其次是"批改作业成本过高"的问题。现有的强化学习方法，无论是RLHF（人类反馈强化学习）还是RLVR（可验证奖励强化学习），都严重依赖人工标注。前者需要人类对AI的输出进行优劣评判，后者需要专家提供标准答案进行对比。这种方式就像每道题都需要老师亲自批改，当学生数量急剧增加时，老师就忙不过来了。

RLPT的核心创新在于设计了一种"自我评估"机制。研究团队将这个过程分为两个互补的任务：自回归段落推理（ASR）和中间段落推理（MSR）。ASR任务要求模型根据前面的文本内容预测下一个完整的句子或段落，这就像读到一本侦探小说的中间部分，然后推测接下来会发生什么。MSR任务则更具挑战性，它在文本中间留下空白，要求模型同时利用前后文信息来填补中间的缺失内容，这类似于阅读理解中的填空题，需要更深层次的语言理解能力。

在训练过程中，研究团队交替使用这两种任务。ASR任务帮助模型保持和提升自然的文本生成能力，确保它能够流畅地产生符合语言习惯的内容。MSR任务则锻炼模型的深度理解能力，让它学会如何利用更广泛的上下文信息进行推理。这种双重训练策略就像让学生既练习写作文（培养表达能力），又练习阅读理解（培养理解能力），两方面能力相互促进，共同提升。

为了评估模型预测内容的质量，研究团队开发了一个专门的生成式奖励模型。这个模型的作用类似于一位经验丰富的语文老师，它不会拘泥于用词是否完全一致，而是判断学生的答案在意思上是否与标准答案相符。例如，如果标准答案是"这种方法效果很好"，而学生写的是"这个技术表现出色"，奖励模型会认为两者语义一致，给予正面评价。

二、巧妙的数据处理与训练机制

RLPT的成功很大程度上依赖于精心设计的数据处理流程。研究团队从互联网上收集了来自维基百科、arXiv学术论文、英文网页、论坛讨论、知识分享社区、STEM领域资料等多种来源的文本数据。这些原始数据就像未经筛选的图书馆藏书，既有价值连城的经典著作，也有质量参差不齐的通俗读物。

为了确保训练数据的质量，研究团队实施了一套严格的筛选和清理流程。首先使用MinHash算法进行近重复数据删除，这就像去除图书馆中的重复书籍，避免学生反复阅读相同内容。接着检测和屏蔽个人身份信息，保护隐私安全。然后针对所有开发和评估数据集进行污染检测，确保测试的公平性，这类似于确保考试题目不会事先泄露给学生。

在基础清理之后，研究团队进一步实施了结合规则筛选和模型评估的双重过滤机制。规则筛选阶段会自动剔除明显不适合用于语言模型训练的内容，比如格式混乱的文本、含有大量特殊符号的内容等。模型筛选阶段则使用经过指令调优的语言模型进行更精细的质量评估，就像让一位有经验的编辑来判断哪些文章值得收录到精选读物中。

对于数学推理任务，研究团队还特别添加了从退火数据集中精选的高质量问答数据。这些数据专门用于增强模型的数学推理能力，就像为学习数学的学生准备专门的习题集。这种有针对性的数据补充确保了模型在通用语言能力之外，还能在特定的专业领域表现出色。

训练过程采用了精心调试的参数设置。在冷启动的监督微调阶段，研究团队使用1024的批次大小、2×10^-5的学习率配合余弦调度器，训练3个周期。这个阶段的目的是让基础模型具备基本的指令跟随能力，为后续的强化学习做准备。在正式的下一段推理训练阶段，批次大小调整为512，最大响应长度设为8192个词符，学习率降低到1×10^-6并保持恒定。对于每个提示，模型会以1.0的温度参数采样8个输出，然后使用GRPO算法进行优化，且不加入KL正则化约束。

三、奖励机制的精妙设计

RLPT的核心创新之一是其奖励机制的设计。传统的强化学习方法通常需要外部提供的奖励信号，比如人类评分或与标准答案的精确匹配。然而RLPT设计了一种更加灵活和实用的自监督奖励机制。

这种奖励机制的工作原理可以用阅卷老师的评分方式来类比。想象一位经验丰富的语文老师在批改学生的续写作文。她不会要求学生的答案与标准答案一字不差，而是关注学生的续写是否在逻辑上合理、在语义上连贯、在内容上符合前文的发展脉络。RLPT的生成式奖励模型就扮演着这样一位智慧老师的角色。

在实际应用中，研究团队发现直接将预测段落与单一的真实段落进行比较往往过于严格，因为模型可能生成跨越多个后续段落的内容。为了解决这个问题，他们让奖励模型参考多个后续段落作为参考答案，并判断预测内容是否构成参考内容的有效前缀。这就像允许学生的答案可以比标准答案更详细，只要核心意思正确且逻辑连贯即可。

奖励模型的评判标准非常明确：如果预测文本在语义上与参考内容的前缀匹配，就给予1分的奖励；否则给予0分。这种二元奖励机制虽然看似简单，但实际上鼓励了模型生成语义正确且逻辑连贯的内容，而不仅仅是表面的文字匹配。

在研究过程中，团队还发现了奖励设计的重要性。他们最初采用了严格的奖励标准，要求预测段落必须与真实段落传达完全相同的语义内容。然而这种过于苛刻的要求导致了大量误判，因为句子级别的分割往往导致信息分布不均：有些句子可能只包含一个公式，而另一些句子可能包含完整的问题解答。这种不平衡破坏了训练过程，只带来了有限的性能提升。

经过反复实验和优化，研究团队最终采用了更加宽松的前缀奖励机制。这种调整的效果立竿见影：模型的训练奖励稳步上升，生成内容的长度显著增加，在数学推理任务上的表现也得到了明显改善。这个发现强调了在设计强化学习系统时，奖励机制的合理性比严格性更加重要。

四、令人瞩目的实验结果

研究团队在多个模型和多种基准测试上验证了RLPT的有效性，结果令人印象深刻。他们选择了Llama3.2-3B-Base、Qwen3-4B-Base和Qwen3-8B-Base这三个不同规模的基础模型进行实验，涵盖了从30亿到80亿参数的范围，确保了结果的普遍适用性。

在通用领域的评估中，RLPT展现出了强大而一致的性能提升。以Qwen3-4B-Base模型为例，在MMLU（大规模多任务语言理解）基准测试中，RLPT带来了3.0分的绝对提升；在更具挑战性的MMLU-Pro测试中，提升幅度达到了5.1分；在GPQA-Diamond（研究生级别的科学问答）测试中，提升更是高达8.1分。这些提升幅度在AI研究领域被认为是相当显著的，特别是考虑到这些基准测试的难度和竞争激烈程度。

更令人兴奋的是RLPT在数学推理任务上的表现。在具有挑战性的AIME24和AIME25（美国数学邀请赛）测试中，RLPT分别带来了6.6分和5.3分的Pass@1指标提升。Pass@1指标衡量的是模型在单次尝试中得出正确答案的概率，这种提升意味着模型的数学推理能力得到了实质性增强。

特别值得关注的是RLPT的可扩展性表现。研究团队发现，随着训练计算量的增加，模型在各个基准测试上的性能呈现出清晰的幂律衰减趋势。这种规律性的改进模式表明，投入更多的计算资源很可能带来持续的性能提升，这为未来的大规模应用提供了乐观的前景。

在不同模型规模上的实验结果也证实了RLPT的通用性。Llama3.2-3B-Base虽然是最小的模型，但在RLPT训练后仍然获得了显著提升，特别是在MMLU-Pro和GPQA-Diamond测试中分别获得了1.5分和11.6分的提升。Qwen3-8B-Base作为最大的测试模型，在所有基准测试中都表现出稳定的改进，证明了RLPT对不同规模模型的有效性。

更加令人惊喜的是，RLPT不仅作为独立方法有效，还能为后续的强化学习方法提供优秀的基础。当研究团队将RLPT作为RLVR（可验证奖励强化学习）的初始化方法时，组合方法在数学推理任务上获得了进一步的性能提升。在AIME24和AIME25测试中，RLPT+RLVR组合分别在Pass@1指标上额外获得了2.3分和1.3分的提升，在Pass@8指标上额外获得了3.7分和2.0分的提升。

五、深入分析与技术洞察

为了更好地理解RLPT的工作机制，研究团队进行了深入的分析研究。他们特别关注了模型在解决问题时的思维过程，发现RLPT训练后的模型展现出了更加结构化和系统性的推理模式。

通过分析模型生成的推理轨迹，研究人员发现RLPT教会了模型采用类似人类专家的问题解决策略。当面对复杂问题时，模型会首先抽象和总结前面的上下文内容，理解问题的整体脉络。然后，它会明确识别下一步需要完成的任务，制定解决方案的候选方法。接下来，模型会对候选方案进行可行性验证，探索可能的替代方案，在必要时进行回溯和调整，最终产生经过深思熟虑的答案。

这种结构化的推理过程体现了RLPT的一个重要优势：它不仅提升了模型的准确性，还改善了推理的透明度和可解释性。模型生成的中间推理步骤让人们能够跟踪其思维过程，理解答案是如何得出的，这对于需要高可信度的应用场景具有重要价值。

研究团队还对比了严格奖励和前缀奖励两种不同机制的效果。实验结果清楚地显示，前缀奖励机制在多个方面都优于严格奖励。使用前缀奖励的模型在训练过程中获得了更稳定的奖励信号，生成的回答长度更加合理，在验证集上的性能也显著更好。这个发现为设计更有效的自监督强化学习系统提供了重要指导。

特别值得注意的是RLPT对模型探索能力的影响。传统的担忧是强化学习可能会限制模型的创造性，使其过度拘泥于高奖励的回答模式。然而实验结果显示，RLPT实际上增强了模型的探索能力。在Pass@8指标（衡量8次尝试中至少一次成功的概率）上的显著提升表明，RLPT训练后的模型能够生成更多样化的有效解决方案，而不是简单地重复相同的回答模式。

六、技术创新的深层意义

RLPT的成功不仅在于其具体的性能提升，更在于它代表了AI训练范式的一次重要转变。这种转变可以从多个角度来理解其深远意义。

从技术发展的角度来看，RLPT打破了强化学习在语言模型训练中对人工标注的依赖。这种突破具有革命性意义，因为它解决了制约大规模强化学习应用的主要瓶颈。过去，高质量的人工标注数据既昂贵又稀缺，严重限制了强化学习方法的扩展性。RLPT通过巧妙的自监督设计，让模型能够从原本的预训练数据中自主学习，这就像发现了一座此前未被充分利用的宝藏。

从学习理论的角度来看，RLPT体现了一种更接近人类学习方式的训练方法。人类在阅读和学习时，往往会在脑海中预测接下来可能出现的内容，然后通过实际内容来验证和调整自己的理解。RLPT的下一段预测任务本质上模拟了这种自然的学习过程，让AI模型能够通过预测和验证的循环来不断改进自己的语言理解和生成能力。

这种方法还体现了强化学习相对于传统监督学习的独特优势。监督学习往往促进表面层次的模式记忆，而强化学习通过探索和试错的过程更容易培养深层次的推理能力。RLPT的成功证明了在语言模型训练中，给予模型自主探索的空间比简单的模式匹配更加有效。

从实用性的角度来看，RLPT的可扩展性为未来的大规模AI系统开发提供了新的可能性。随着计算资源的不断增长，传统的数据依赖方法面临着数据瓶颈的限制。RLPT证明了即使在高质量标注数据有限的情况下，仍然可以通过更聪明的训练方法来实现模型能力的持续提升。

七、广阔的应用前景与影响

RLPT的成功为人工智能的实际应用开辟了新的可能性。在教育领域，基于RLPT训练的模型可以成为更加智能的学习助手，能够根据学生的问题提供更准确、更有逻辑性的解答。特别是在数学和科学教育中，模型增强的推理能力可以帮助学生更好地理解复杂概念，提供步骤清晰的解题指导。

在内容创作领域，RLPT训练的模型表现出的更强逻辑连贯性和预测能力，可以协助作者创作更高质量的文章、报告和创意内容。模型能够更好地理解上下文，生成符合逻辑发展的后续内容，这对于长文本创作特别有价值。

在科研和分析领域，RLPT的强化推理能力可以帮助研究人员处理复杂的数据分析任务，提供更准确的趋势预测和模式识别。特别是在需要处理大量文献资料的研究中，模型能够更好地理解和总结文献内容，为研究人员提供有价值的洞察。

企业应用方面，RLPT可以改善客户服务系统的质量。训练后的模型能够更好地理解客户问题的上下文，提供更准确和有帮助的回答。在技术支持、产品咨询等场景中，这种改进的理解能力可以显著提升用户体验。

更重要的是，RLPT的技术路径为整个AI行业提供了新的发展方向。它证明了在数据资源日益稀缺的环境下，通过创新的训练方法仍然可以实现AI能力的显著提升。这种方法论上的突破可能激发更多类似的创新研究，推动整个领域向更可持续、更高效的发展方向迈进。

说到底，腾讯研究团队的这项工作不仅仅是一个技术改进，而是对AI训练方法的根本性重新思考。他们证明了AI模型可以像优秀的学生一样，通过自主阅读和思考来不断提升自己的能力，而不需要老师时刻在旁边指导和打分。这种突破为构建更智能、更自主的AI系统提供了重要启发，也为解决当前AI发展面临的数据和标注瓶颈提供了有效方案。

随着这项技术的进一步发展和应用，我们有理由期待看到更多能够自主学习和持续改进的AI系统。这些系统不仅在性能上更加出色，在应用部署上也更加灵活和经济高效。对于普通用户而言，这意味着未来的AI助手将更加智能、更加可靠，能够在各个领域为人类提供更高质量的帮助和支持。

Q&A

Q1：RLPT是什么技术？它和传统的AI训练方法有什么不同？

A：RLPT是腾讯提出的"在预训练数据上的强化学习"技术。与传统方法最大的不同是，它让AI模型像学生自学一样，通过预测文章下一段内容来自主学习，而不需要人工给每个答案打分标注。传统方法需要大量人工标注数据，成本高且难以扩展，而RLPT直接从现有的文本数据中学习，大大降低了对人工标注的依赖。

Q2：RLPT训练的AI模型在哪些方面表现更好？

A：RLPT训练的模型在多个方面都有显著提升。在通用知识理解方面，比如MMLU、GPQA等测试中提升了3-8分不等；在数学推理能力上尤其突出，在AIME数学竞赛题目中提升了5-6分。更重要的是，模型的推理过程变得更有逻辑性和结构化，能够像人类专家一样分步骤思考问题，而且还能为后续的其他训练方法提供更好的基础。

Q3：普通用户什么时候能用上基于RLPT技术的AI产品？

A：由于RLPT是由腾讯团队开发的最新研究成果，目前还处于学术研究阶段。不过考虑到腾讯在AI产品方面的积极布局，预计这项技术会逐步集成到腾讯的各种AI产品和服务中。用户可能会在腾讯的智能助手、内容创作工具、教育产品等应用中体验到这种更智能的AI能力，具体时间表需要等待腾讯的产品发布计划。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.