腾讯AI突破：新方法解决小模型推理训练难题|算法|数学|实验|知名企业|腾讯ai突破

分享至

当我们使用人工智能模型解决复杂问题时，经常会遇到这样的困境：小型模型虽然运行速度快、成本低，但推理能力往往不如大型模型强大。就像一个刚学会走路的孩子，虽然灵活轻便，但解决复杂问题的能力还有待提升。腾讯公司的吴浩和刘伟两位研究员在2025年1月发表的这项研究，正是针对这一核心挑战提出了创新性解决方案。

这项名为"GCPO: When Contrast Fails, Go Gold"的研究发表在arXiv预印本平台上（论文编号：arXiv:2510.07790v1），研究团队发现了现有强化学习算法的一个关键缺陷，并提出了名为群体对比策略优化（GCPO）的新方法。就像给迷路的登山者提供一张准确的地图一样，GCPO为小型语言模型提供了正确的学习方向，让它们能够更好地模仿大型模型的推理能力。

研究的核心发现令人惊喜：当传统的对比学习方法无法为模型提供有效指导时，引入"黄金答案"作为外部参考可以显著提升训练效果。这种方法不仅提高了训练效率，还让小型模型学会了大型模型的问题解决策略，在多个数学推理基准测试中都取得了突破性进展。

一、传统方法的困境：当模型陷入迷茫

要理解这项研究的价值，我们首先需要了解现有方法面临的困境。当前最先进的强化学习方法，如群体相对策略优化（GRPO），就像一个只能在自己知识范围内寻找答案的学生。

设想这样一个场景：一个学生在做数学题时，只能从自己已有的解题尝试中选择相对最好的那个作为学习目标。如果这个学生的所有尝试都是错误的，他就无法获得任何有意义的学习信号。这正是GRPO面临的核心问题：模型产生的所有回答都可能是错误的，特别是在处理超出其能力范围的复杂问题时。

在数学推理任务中，这种困境表现得尤为明显。当模型遇到一道特别困难的数学题时，它可能尝试多次都无法得出正确答案。在这种情况下，传统的对比学习方法就像让学生从一堆错误答案中选择"相对最好"的那个，这显然无法带来真正的进步。

更糟糕的是，这种情况在训练的两个极端阶段都会出现：训练初期，模型能力有限，大部分问题都答不对；训练后期，简单问题都能答对，缺乏挑战性。这就像一个学生要么面对的都是超纲题目，要么面对的都是过于简单的题目，都无法获得有效的学习体验。

二、黄金答案的引入：为迷途者点亮明灯

腾讯研究团队提出的GCPO方法，就像为迷路的探险者提供了一个可靠的向导。当模型在某个问题上反复失败时，GCPO会引入一个"黄金答案"（Gold Answer，简称GA），为模型指明正确的方向。

这个黄金答案可以来自两个来源：要么是问题的标准答案，要么是更强大的语言模型（如DeepSeek-R1）生成的高质量解答。就像给一个正在学习解方程的学生展示标准解题步骤一样，这些黄金答案不仅提供了正确的最终结果，更重要的是展示了完整的推理过程。

研究团队的创新之处在于，他们巧妙地将这些外部参考答案整合到了强化学习的训练过程中。当模型对某个问题的所有尝试都失败时，系统会自动用黄金答案替换其中一个失败的回答，为模型提供一个明确的正面学习目标。

这种方法带来了双重好处：首先，它确保了每个训练样本都能得到充分利用，不会因为全部错误而被浪费；其次，它让小型模型有机会学习更强大模型的推理模式，逐渐突破自身的能力边界。

三、技术细节：重新设计学习机制

除了引入黄金答案这一核心创新外，研究团队还对强化学习的技术细节进行了重要改进。他们发现，传统GRPO方法在重要性采样（importance sampling）方面存在不匹配的问题。

用一个简单的比喻来说明：传统方法就像用显微镜观察整个森林。它试图在词语级别（token-level）进行精细调整，但实际的奖励信号却是基于整个回答序列的表现。这就像用放大镜看树叶的细节，却想要评判整片森林的健康状况一样，存在明显的层次不匹配。

GCPO解决了这个问题，将重要性采样调整到序列级别，确保评估和优化在同一个层次上进行。这就像用合适的工具观察合适的对象，让整个学习过程更加协调高效。

此外，研究团队还发现，在推理任务中，传统的KL散度惩罚项实际上会阻碍模型的进步。KL散度原本是为了防止模型偏离原始分布太远，但在复杂推理任务中，模型需要进行深度思考和多步推理，这自然会让输出分布发生较大变化。强行约束这种变化就像给思考者戴上枷锁，限制了模型的推理潜力。

四、实验验证：在数学擂台上展现实力

为了验证GCPO方法的有效性，研究团队选择了数学推理这一最具挑战性的测试场景。他们使用DeepSeek-R1-Distill-Qwen-1.5B作为基础模型，在十个不同的数学基准测试上进行了全面评估。

这些测试涵盖了从基础算术到高等数学的各个层面，包括GSM8K、MATH、AIME2024等知名数据集。就像让一个学生参加从小学数学到大学数学的全方位考试一样，这种测试设计确保了结果的全面性和可信度。

实验结果令人振奋：GCPO在几乎所有测试中都显著超越了现有的最先进方法DAPO。特别值得注意的是，在AIME2024这一极具挑战性的数学竞赛题目上，GCPO相比DAPO提升了25%的性能。在MathQA数据集上，相比基础模型的表现更是提升了54%。

这些数字背后的含义更加重要：它们表明小型模型确实可以通过适当的训练方法，在推理能力上实现质的飞跃。就像一个经过正确指导的学生可以在短时间内大幅提升解题能力一样，GCPO为小型语言模型打开了新的可能性。

五、深入分析：为什么这种方法如此有效

研究团队进行了详细的消融实验来分析GCPO各个组成部分的贡献。这些实验就像解剖一台精密机器，看看每个零件发挥了什么作用。

首先，他们验证了序列级重要性采样的重要性。实验显示，当使用传统的词语级采样时，模型性能从36.95%下降到32.33%，证明了层次匹配的重要性。这就像用合适的工具做合适的工作，效果自然更好。

其次，关于KL散度惩罚项的实验同样很有启发性。添加KL惩罚后，模型性能反而下降，这验证了研究团队的理论假设：在需要深度推理的任务中，过度约束模型的输出分布会限制其思考能力。

最重要的是，黄金答案的引入确实带来了显著的性能提升。通过比较有无黄金答案的实验结果，研究团队证明了外部指导对于突破模型能力边界的关键作用。

六、局限性与未来展望：向更广阔的应用迈进

诚然，这项研究也存在一些局限性。首先，获取高质量的黄金答案需要额外的计算资源，要么调用更强大的模型，要么需要人工标注。这就像为学生请了一位高水平的家教，虽然效果好，但成本也相对较高。

其次，目前的实验主要集中在数学推理任务上，虽然研究团队相信GCPO具有更广泛的适用性，但这一点还有待进一步验证。就像一种新的教学方法可能在数学课上效果显著，但在其他学科中的表现还需要时间来证明。

不过，这些局限性并不影响研究成果的重要意义。研究团队已经为将来的扩展应用指明了方向：GCPO可以与工具使用相结合，训练模型调用外部工具解决更广泛的问题；也可以应用到其他需要复杂推理的任务中，如代码生成、逻辑推理等。

七、技术实现：让理论落地生根

在具体实现方面，研究团队使用了verl框架作为训练平台，在8张H20 GPU上进行了所有实验。训练过程中，每次推理会生成16个候选回答，温度设置为0.7，这些参数经过精心调试以获得最佳效果。

训练数据来源于广泛使用的DAPO-Math-17k-Processed数据集，经过筛选和处理后包含9975个样本。这个规模既保证了训练的充分性，又避免了过度训练的风险。

黄金答案的生成过程也很有讲究：研究团队使用DeepSeek-R1生成标准解答，然后进行严格的筛选，排除那些过长或格式不符合要求的回答。这确保了黄金答案的质量和一致性，为模型提供了可靠的学习目标。

八、理论贡献：重新思考强化学习的本质

这项研究的理论贡献超越了具体的技术改进。它提出了一个重要的哲学问题：在强化学习中，正面样本是否必须由被训练的模型自己生成？

传统观点认为，模型应该从自己的错误中学习，通过不断试错来改进。但GCPO的成功表明，适当的外部指导不仅无害，反而是必要的。这就像人类学习过程中老师和教科书的作用一样，外部知识的输入是加速学习的关键因素。

这种认识对整个强化学习领域都有重要启发。它表明我们可以更灵活地设计学习算法，在自主探索和外部指导之间找到最佳平衡点。

结论

说到底，腾讯团队的这项研究为我们打开了一扇新的大门。它不仅解决了小型语言模型在复杂推理任务上的局限性，更重要的是为整个人工智能领域提供了新的思路。

GCPO方法的核心价值在于它认识到了学习过程中外部指导的重要性。就像人类学习离不开老师的指导一样，人工智能模型也可以从高质量的外部示例中获益。这种认识推动我们重新思考强化学习的基本假设，为未来的算法设计指明了新方向。

对于普通用户而言，这项研究意味着我们将很快看到更加智能、更加实用的AI助手。这些助手不仅运行速度快、成本低，还具备了接近大型模型的推理能力。无论是帮助学生解决数学难题，还是协助工程师解决技术问题，这种技术进步都将让AI工具变得更加普及和实用。

更重要的是，这项研究展示了中国AI研究团队在基础算法创新方面的实力。在全球AI竞争日趋激烈的今天，这样的原创性贡献显得尤为珍贵。它不仅推动了技术进步，也为整个行业的发展注入了新的活力。

归根结底，当传统的对比学习方法遇到瓶颈时，黄金答案的引入为我们指明了新的道路。这条道路通向的是一个更加智能、更加高效的AI未来，在这个未来中，小型模型也能拥有大型模型的智慧，让人工智能真正走进千家万户。有兴趣深入了解技术细节的读者可以通过arXiv:2510.07790v1查阅完整论文，获取更多研究详情。

Q&A

Q1：GCPO是什么？它和传统强化学习方法有什么不同？

A：GCPO是群体对比策略优化的简称，是腾讯研究团队开发的新型强化学习算法。与传统方法最大的不同在于，当模型所有尝试都失败时，GCPO会引入"黄金答案"作为正确示例，而不是让模型在错误答案中盲目选择。这就像给迷路的学生提供标准答案做参考，而不是让他在一堆错误解法中摸索。

Q2：为什么小型语言模型需要外部指导？不能完全靠自己学习吗？

A：就像学生需要老师指导一样，小型模型也需要外部帮助来突破能力边界。当遇到超出自身能力的复杂问题时，模型如果只靠自己摸索，可能永远找不到正确方向。GCPO通过引入高质量的外部示例，让小型模型能够学习大型模型的推理模式，实现能力的跨越式提升。

Q3：GCPO方法在实际应用中效果如何？有哪些具体改进？

A：实验结果非常显著。在AIME2024数学竞赛题目上，GCPO比现有最佳方法提升了25%；在MathQA数据集上比基础模型提升了54%。这些数字表明小型模型确实可以通过正确的训练方法获得接近大型模型的推理能力，为普及高质量AI应用奠定了基础。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.