网易首页 > 网易号 > 正文 申请入驻

腾讯AI突破:新方法解决小模型推理训练难题

0
分享至


当我们使用人工智能模型解决复杂问题时,经常会遇到这样的困境:小型模型虽然运行速度快、成本低,但推理能力往往不如大型模型强大。就像一个刚学会走路的孩子,虽然灵活轻便,但解决复杂问题的能力还有待提升。腾讯公司的吴浩和刘伟两位研究员在2025年1月发表的这项研究,正是针对这一核心挑战提出了创新性解决方案。

这项名为"GCPO: When Contrast Fails, Go Gold"的研究发表在arXiv预印本平台上(论文编号:arXiv:2510.07790v1),研究团队发现了现有强化学习算法的一个关键缺陷,并提出了名为群体对比策略优化(GCPO)的新方法。就像给迷路的登山者提供一张准确的地图一样,GCPO为小型语言模型提供了正确的学习方向,让它们能够更好地模仿大型模型的推理能力。

研究的核心发现令人惊喜:当传统的对比学习方法无法为模型提供有效指导时,引入"黄金答案"作为外部参考可以显著提升训练效果。这种方法不仅提高了训练效率,还让小型模型学会了大型模型的问题解决策略,在多个数学推理基准测试中都取得了突破性进展。

一、传统方法的困境:当模型陷入迷茫

要理解这项研究的价值,我们首先需要了解现有方法面临的困境。当前最先进的强化学习方法,如群体相对策略优化(GRPO),就像一个只能在自己知识范围内寻找答案的学生。

设想这样一个场景:一个学生在做数学题时,只能从自己已有的解题尝试中选择相对最好的那个作为学习目标。如果这个学生的所有尝试都是错误的,他就无法获得任何有意义的学习信号。这正是GRPO面临的核心问题:模型产生的所有回答都可能是错误的,特别是在处理超出其能力范围的复杂问题时。

在数学推理任务中,这种困境表现得尤为明显。当模型遇到一道特别困难的数学题时,它可能尝试多次都无法得出正确答案。在这种情况下,传统的对比学习方法就像让学生从一堆错误答案中选择"相对最好"的那个,这显然无法带来真正的进步。

更糟糕的是,这种情况在训练的两个极端阶段都会出现:训练初期,模型能力有限,大部分问题都答不对;训练后期,简单问题都能答对,缺乏挑战性。这就像一个学生要么面对的都是超纲题目,要么面对的都是过于简单的题目,都无法获得有效的学习体验。

二、黄金答案的引入:为迷途者点亮明灯

腾讯研究团队提出的GCPO方法,就像为迷路的探险者提供了一个可靠的向导。当模型在某个问题上反复失败时,GCPO会引入一个"黄金答案"(Gold Answer,简称GA),为模型指明正确的方向。

这个黄金答案可以来自两个来源:要么是问题的标准答案,要么是更强大的语言模型(如DeepSeek-R1)生成的高质量解答。就像给一个正在学习解方程的学生展示标准解题步骤一样,这些黄金答案不仅提供了正确的最终结果,更重要的是展示了完整的推理过程。

研究团队的创新之处在于,他们巧妙地将这些外部参考答案整合到了强化学习的训练过程中。当模型对某个问题的所有尝试都失败时,系统会自动用黄金答案替换其中一个失败的回答,为模型提供一个明确的正面学习目标。

这种方法带来了双重好处:首先,它确保了每个训练样本都能得到充分利用,不会因为全部错误而被浪费;其次,它让小型模型有机会学习更强大模型的推理模式,逐渐突破自身的能力边界。

三、技术细节:重新设计学习机制

除了引入黄金答案这一核心创新外,研究团队还对强化学习的技术细节进行了重要改进。他们发现,传统GRPO方法在重要性采样(importance sampling)方面存在不匹配的问题。

用一个简单的比喻来说明:传统方法就像用显微镜观察整个森林。它试图在词语级别(token-level)进行精细调整,但实际的奖励信号却是基于整个回答序列的表现。这就像用放大镜看树叶的细节,却想要评判整片森林的健康状况一样,存在明显的层次不匹配。

GCPO解决了这个问题,将重要性采样调整到序列级别,确保评估和优化在同一个层次上进行。这就像用合适的工具观察合适的对象,让整个学习过程更加协调高效。

此外,研究团队还发现,在推理任务中,传统的KL散度惩罚项实际上会阻碍模型的进步。KL散度原本是为了防止模型偏离原始分布太远,但在复杂推理任务中,模型需要进行深度思考和多步推理,这自然会让输出分布发生较大变化。强行约束这种变化就像给思考者戴上枷锁,限制了模型的推理潜力。

四、实验验证:在数学擂台上展现实力

为了验证GCPO方法的有效性,研究团队选择了数学推理这一最具挑战性的测试场景。他们使用DeepSeek-R1-Distill-Qwen-1.5B作为基础模型,在十个不同的数学基准测试上进行了全面评估。

这些测试涵盖了从基础算术到高等数学的各个层面,包括GSM8K、MATH、AIME2024等知名数据集。就像让一个学生参加从小学数学到大学数学的全方位考试一样,这种测试设计确保了结果的全面性和可信度。

实验结果令人振奋:GCPO在几乎所有测试中都显著超越了现有的最先进方法DAPO。特别值得注意的是,在AIME2024这一极具挑战性的数学竞赛题目上,GCPO相比DAPO提升了25%的性能。在MathQA数据集上,相比基础模型的表现更是提升了54%。

这些数字背后的含义更加重要:它们表明小型模型确实可以通过适当的训练方法,在推理能力上实现质的飞跃。就像一个经过正确指导的学生可以在短时间内大幅提升解题能力一样,GCPO为小型语言模型打开了新的可能性。

五、深入分析:为什么这种方法如此有效

研究团队进行了详细的消融实验来分析GCPO各个组成部分的贡献。这些实验就像解剖一台精密机器,看看每个零件发挥了什么作用。

首先,他们验证了序列级重要性采样的重要性。实验显示,当使用传统的词语级采样时,模型性能从36.95%下降到32.33%,证明了层次匹配的重要性。这就像用合适的工具做合适的工作,效果自然更好。

其次,关于KL散度惩罚项的实验同样很有启发性。添加KL惩罚后,模型性能反而下降,这验证了研究团队的理论假设:在需要深度推理的任务中,过度约束模型的输出分布会限制其思考能力。

最重要的是,黄金答案的引入确实带来了显著的性能提升。通过比较有无黄金答案的实验结果,研究团队证明了外部指导对于突破模型能力边界的关键作用。

六、局限性与未来展望:向更广阔的应用迈进

诚然,这项研究也存在一些局限性。首先,获取高质量的黄金答案需要额外的计算资源,要么调用更强大的模型,要么需要人工标注。这就像为学生请了一位高水平的家教,虽然效果好,但成本也相对较高。

其次,目前的实验主要集中在数学推理任务上,虽然研究团队相信GCPO具有更广泛的适用性,但这一点还有待进一步验证。就像一种新的教学方法可能在数学课上效果显著,但在其他学科中的表现还需要时间来证明。

不过,这些局限性并不影响研究成果的重要意义。研究团队已经为将来的扩展应用指明了方向:GCPO可以与工具使用相结合,训练模型调用外部工具解决更广泛的问题;也可以应用到其他需要复杂推理的任务中,如代码生成、逻辑推理等。

七、技术实现:让理论落地生根

在具体实现方面,研究团队使用了verl框架作为训练平台,在8张H20 GPU上进行了所有实验。训练过程中,每次推理会生成16个候选回答,温度设置为0.7,这些参数经过精心调试以获得最佳效果。

训练数据来源于广泛使用的DAPO-Math-17k-Processed数据集,经过筛选和处理后包含9975个样本。这个规模既保证了训练的充分性,又避免了过度训练的风险。

黄金答案的生成过程也很有讲究:研究团队使用DeepSeek-R1生成标准解答,然后进行严格的筛选,排除那些过长或格式不符合要求的回答。这确保了黄金答案的质量和一致性,为模型提供了可靠的学习目标。

八、理论贡献:重新思考强化学习的本质

这项研究的理论贡献超越了具体的技术改进。它提出了一个重要的哲学问题:在强化学习中,正面样本是否必须由被训练的模型自己生成?

传统观点认为,模型应该从自己的错误中学习,通过不断试错来改进。但GCPO的成功表明,适当的外部指导不仅无害,反而是必要的。这就像人类学习过程中老师和教科书的作用一样,外部知识的输入是加速学习的关键因素。

这种认识对整个强化学习领域都有重要启发。它表明我们可以更灵活地设计学习算法,在自主探索和外部指导之间找到最佳平衡点。

结论

说到底,腾讯团队的这项研究为我们打开了一扇新的大门。它不仅解决了小型语言模型在复杂推理任务上的局限性,更重要的是为整个人工智能领域提供了新的思路。

GCPO方法的核心价值在于它认识到了学习过程中外部指导的重要性。就像人类学习离不开老师的指导一样,人工智能模型也可以从高质量的外部示例中获益。这种认识推动我们重新思考强化学习的基本假设,为未来的算法设计指明了新方向。

对于普通用户而言,这项研究意味着我们将很快看到更加智能、更加实用的AI助手。这些助手不仅运行速度快、成本低,还具备了接近大型模型的推理能力。无论是帮助学生解决数学难题,还是协助工程师解决技术问题,这种技术进步都将让AI工具变得更加普及和实用。

更重要的是,这项研究展示了中国AI研究团队在基础算法创新方面的实力。在全球AI竞争日趋激烈的今天,这样的原创性贡献显得尤为珍贵。它不仅推动了技术进步,也为整个行业的发展注入了新的活力。

归根结底,当传统的对比学习方法遇到瓶颈时,黄金答案的引入为我们指明了新的道路。这条道路通向的是一个更加智能、更加高效的AI未来,在这个未来中,小型模型也能拥有大型模型的智慧,让人工智能真正走进千家万户。有兴趣深入了解技术细节的读者可以通过arXiv:2510.07790v1查阅完整论文,获取更多研究详情。

Q&A

Q1:GCPO是什么?它和传统强化学习方法有什么不同?

A:GCPO是群体对比策略优化的简称,是腾讯研究团队开发的新型强化学习算法。与传统方法最大的不同在于,当模型所有尝试都失败时,GCPO会引入"黄金答案"作为正确示例,而不是让模型在错误答案中盲目选择。这就像给迷路的学生提供标准答案做参考,而不是让他在一堆错误解法中摸索。

Q2:为什么小型语言模型需要外部指导?不能完全靠自己学习吗?

A:就像学生需要老师指导一样,小型模型也需要外部帮助来突破能力边界。当遇到超出自身能力的复杂问题时,模型如果只靠自己摸索,可能永远找不到正确方向。GCPO通过引入高质量的外部示例,让小型模型能够学习大型模型的推理模式,实现能力的跨越式提升。

Q3:GCPO方法在实际应用中效果如何?有哪些具体改进?

A:实验结果非常显著。在AIME2024数学竞赛题目上,GCPO比现有最佳方法提升了25%;在MathQA数据集上比基础模型提升了54%。这些数字表明小型模型确实可以通过正确的训练方法获得接近大型模型的推理能力,为普及高质量AI应用奠定了基础。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
摩尔线程:拟发行7000万股,11月19日初步询价

摩尔线程:拟发行7000万股,11月19日初步询价

每日经济新闻
2025-11-13 19:50:06
何穗首晒产后身材,前凸后翘变辣妈,和陈伟霆住别墅带大院好滋润

何穗首晒产后身材,前凸后翘变辣妈,和陈伟霆住别墅带大院好滋润

好贤观史记
2025-11-11 16:22:53
三天三金三纪录!这个07年出生的“小孩哥”,到底是谁?

三天三金三纪录!这个07年出生的“小孩哥”,到底是谁?

极目新闻
2025-11-13 21:35:28
上海一男租客入室抢劫独居女房东获刑13年,房东:他带大行李箱,威胁勒死我后装进去

上海一男租客入室抢劫独居女房东获刑13年,房东:他带大行李箱,威胁勒死我后装进去

潇湘晨报
2025-11-13 15:12:18
赵睿晒广东全队海报:好好告个别吧,各自精彩再无众神归位

赵睿晒广东全队海报:好好告个别吧,各自精彩再无众神归位

懂球帝
2025-11-13 09:25:11
3位厅干任市(区)委副书记

3位厅干任市(区)委副书记

鲁中晨报
2025-11-13 12:55:01
悄悄关闭旗下基金,大空头Burry辟谣9亿美元做空英伟达和Palantir:一共才花了920万

悄悄关闭旗下基金,大空头Burry辟谣9亿美元做空英伟达和Palantir:一共才花了920万

华尔街见闻官方
2025-11-13 20:24:29
红色警报!梅根向贝索斯发起“攻势”,全网替桑切斯捏把汗!

红色警报!梅根向贝索斯发起“攻势”,全网替桑切斯捏把汗!

乡野小珥
2025-11-12 00:01:28
赵勇下课?女排新帅或曝光,55岁多次执教国家队,还是蔡斌好友

赵勇下课?女排新帅或曝光,55岁多次执教国家队,还是蔡斌好友

林子说事
2025-11-13 12:18:49
狂赢56分!山东3连胜进8强,巩晓彬带队靠谱 段昂君3双 陈家政29+

狂赢56分!山东3连胜进8强,巩晓彬带队靠谱 段昂君3双 陈家政29+

萌兰聊个球
2025-11-13 19:12:18
王楚钦4-2战胜林高远晋级四强,半决赛对战樊振东

王楚钦4-2战胜林高远晋级四强,半决赛对战樊振东

懂球帝
2025-11-13 20:01:16
曾琦同学发声!眼科手艺“顶流”却被流言裹挟,家人态度成关键?

曾琦同学发声!眼科手艺“顶流”却被流言裹挟,家人态度成关键?

诗意世界
2025-11-11 23:38:01
19分大胜!广东2连胜,提前锁定8强,夏振峰爆发15分,王洪泽12+9

19分大胜!广东2连胜,提前锁定8强,夏振峰爆发15分,王洪泽12+9

萌兰聊个球
2025-11-13 18:56:48
印巴首都先后爆炸,巴基斯坦宣布战争状态,这一仗不打国不将国?

印巴首都先后爆炸,巴基斯坦宣布战争状态,这一仗不打国不将国?

博览历史
2025-11-12 11:27:53
章泽天出席慈善拍卖会,被她笑起来的样子吓到,没网上吹嘘的漂亮

章泽天出席慈善拍卖会,被她笑起来的样子吓到,没网上吹嘘的漂亮

千言娱乐记
2025-11-13 18:31:49
“臀大腰粗”的女生怎么穿好看?吊带背心搭深灰瑜伽裤,高雅自信

“臀大腰粗”的女生怎么穿好看?吊带背心搭深灰瑜伽裤,高雅自信

小乔古装汉服
2025-09-29 07:55:03
不是慢镜头!福建舰电磁弹射速度那么快,是怎么瞬间刹车的?

不是慢镜头!福建舰电磁弹射速度那么快,是怎么瞬间刹车的?

军武次位面
2025-11-13 11:37:01
乒乓球前世界冠军滕义受贿逾亿元获刑十四年:利用人脉关系谋不当利益

乒乓球前世界冠军滕义受贿逾亿元获刑十四年:利用人脉关系谋不当利益

澎湃新闻
2025-11-13 11:16:27
NBA官网新秀榜更新:克努佩尔升至第一弗拉格第三 黄蜂两人进前五

NBA官网新秀榜更新:克努佩尔升至第一弗拉格第三 黄蜂两人进前五

罗说NBA
2025-11-13 06:23:58
父亲分720万遗产没我的份,我要走父亲却说:我以后还得靠你照顾

父亲分720万遗产没我的份,我要走父亲却说:我以后还得靠你照顾

兰姐说故事
2025-09-30 17:10:15
2025-11-14 00:23:00
至顶AI实验室 incentive-icons
至顶AI实验室
一个专注于探索生成式AI前沿技术及其应用的实验室。
606文章数 150关注度
往期回顾 全部

科技要闻

月产能突破百万片,中芯国际Q3净利增43.1%

头条要闻

美方回应高市早苗“台湾有事”言论 中方表态

头条要闻

美方回应高市早苗“台湾有事”言论 中方表态

体育要闻

跟豪门传了十年绯闻,他却偏要“择一队终老”

娱乐要闻

王鹤棣孟子义真要搭?

财经要闻

源峰25亿赌局!汉堡王中国"卖身"求生

汽车要闻

具备高阶辅助驾驶功能 欧拉5预售价10.98万起

态度原创

本地
旅游
家居
公开课
军事航空

本地新闻

云游安徽 | 江声浩荡阅千年,文脉相承看芜湖

旅游要闻

11月13日最佳情报|济南大明湖斑斓如诗,初冬珍珠泉斑斓多姿

家居要闻

莫奈时间 重构先锋概念

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美国在委内瑞拉海岸动用无人机和F-35

无障碍浏览 进入关怀版