网易首页 > 网易号 > 正文 申请入驻

两个LLM互相对线,推理起飞:康奈尔团队发布大模型版类GAN训练法

0
分享至



大型语言模型(LLMs)虽然通过可验证奖励的强化学习(RLVR)取得了显著进展,但仍然在很大程度上依赖外部监督(例如人工标注的数据)。自博弈(self-play)提供了一种有前景的替代方案,使模型能够通过与自身反复对抗来学习,从而减少对外部监督的依赖。GAN 则提供了另一种更具吸引力的训练范式:通过对抗式地训练两个模型,其中一个模型专注于生成具有挑战性的任务或对抗样本,另一个模型则专注于解决这些任务。

于是问题来了:LLM 是否也可以像 GAN 一样进行训练?我们的希望是,通过赋予每个模型不同的专门化角色,可以促进持续的竞争与共同进化,从而让它们能够解决单一模型可能从根本上无法胜任的任务。

为解决这一难题,来自康奈尔大学的 NLP 团队提出了PasoDoble,一个面向大语言模型的全新类 GAN 训练框架。PasoDoble 通过对抗式地训练两个几乎相同的模型:Proposer 用于生成带有标准答案的高难度问题,Solver 则尝试解决这些问题。我们进一步利用高质量的数学预训练语料,并引入离线训练范式,以缓解潜在的训练不稳定性。值得注意的是,PasoDoble 在整个训练过程中不依赖任何监督信号



  • 论文题目:Better LLM Reasoning via Dual-play
  • 论文链接:https://arxiv.org/pdf/2511.10395
  • 项目主页:https://hcy123902.github.io/PasoDoble/
  • 作者介绍:共同一作张正鑫,黄诚瑜为康奈尔大学计算机系博士,李奡翀为主要贡献者之一,Claire Cardie 为通讯作者以及导师。



图为使用 Qwen3-1.7B 在 MATH-500 上评估的 Solver 在不同训练步骤中的训练动态。Solver 的整体准确率在无任何监督的情况下从 45% 提升至 67%。它在第 20 步之前就超过了基线模型,并在第 360 步达到最高的 67%。重要的是,PasoDoble 能够在数百个更新步骤中保持持续提升,展现出远强于相关工作 R-Zero 的扩展能力。



我们为每个问题采样六个回答,并报告 pass@1 的准确率。基线模型按照 Qwen 技术报告中的设置,使用 4-shot 提示进行评估;其他模型则使用 0-shot 提示进行评估。

我们发现,在完全无监督的情况下,PasoDoble 使 Qwen3-1.7B-Base 的数学任务平均性能提升约13 个点,使 Qwen3-4B-Base 提升约16 个点。

PasoDoble 方法概览

PasoDoble 由四个组件构成:Proposer (π_p)、Solver (π_s)、Knowledge Base (K),以及用于离线训练的题目缓冲区(Question Buffer)。Proposer 和 Solver 均从同一个预训练模型初始化,随后会进行初始的冷启动训练。

在在线训练中,每次迭代都会从知识库中采样一个知识片段(1),用于提示 Proposer 生成一批问答(QA)对(2)。随后,Solver 会针对每个问题生成多个解答尝试(3–4)。Solver 根据其答案是否与 Proposer 的标准答案一致来获得正确性奖励(5)。为评估问题的难度,我们计算 Solver 在该问题上的准确率(6),并将 Proposer 的难度奖励定义为该准确率的反比(7);同时,还会加入一个多样性奖励以鼓励生成新颖的问题(8)。这些奖励被组合得到 Proposer 的最终奖励(9)。只有那些具有非平凡难度、被判定为有效的问题才会被保留下来用于 Solver 的训练(10)。当至少存在一个有效问题时,两个模型都会同步更新(11),从而形成完整的在线训练循环。

在离线训练中,Proposer 会在 Solver 冻结的情况下首先更新若干步(11),并将生成的有效问题存入 Question Buffer(12)。随后,将 Proposer 冻结,Solver 则利用 Question Buffer 中的问题进行更新(13),从而构建其训练数据集。

Proposer Reward 是如何设计呢?

简而言之,Proposer 会因为生成困难(即 Solver 准确率低)且 多样(与近期问题不相似)的问题而获得奖励,但前提是这些问题是有效且格式良好的。

Proposer 的任务是生成既具有挑战性又多样化的数学问题。为引导这种行为,我们设计了一个由难度 reward多样性 reward两部分组成的 reward 机制。

1. 难度 Reward

我们希望 Proposer 能生成有挑战性的问题 —— 即 Solver 不能轻易答对的问题。我们用 Solver 的通过率来衡量难度:



通过率 p_i 越低,问题越难,奖励就越高。具体地,难度奖励为:



即使一个问题非常简单(例如 p_i = 1.0),奖励仍然为 0.1,以确保 Proposer 始终倾向于生成有效的问题,而不是生成错误或无意义的问题。

2. 多样性 Reward

我们还希望避免退化现象,例如 Proposer 反复生成同一种类型的问题。为此,我们将新生成的问题 q_i 与历史缓冲区 H 中的最近问题进行比较,采用 Jaccard 相似度:



如果两个问题过于相似,我们将其视为重复:



因此,多样性奖励定义为:



简而言之:问题越独特,奖励越高。

3. Proposer 最终奖励

我们只有在问题既有效又具有多样性的情况下才会对 Proposer 进行奖励:

  • 有效性(Validity):通过率不能过低:



  • 多样性(Diversity):不能过于重复:



最终奖励为:



Solver Reward 是如何设计呢?

Solver 的训练仅依赖纯正确性奖励。



其中指标函数定义为:



实验设置

我们在多种模型规模上进行实验,包括 Qwen3-0.6B-Base、Qwen3-1.7B-Base、Qwen3-4B-Base、Qwen2.5-0.5B-Base、Qwen2.5-1.5B-Base 和 Qwen2.5-3B-Base,将它们分别用作 Proposer 和 Solver,然后执行冷启动训练。在冷启动之后,我们使用 GRPO 同时训练 Proposer 和 Solver,并在在线与离线两种设置下进行实验。更多超参数设置参见论文附录 B。我们使用 MegaMath-Pro-Max 预训练数据集作为知识库 K。

实验结果

主流数学 benchmark 的结果

我们在竞赛级数学基准上评估了我们的方法,包括 AIME 2024、AIME 2025、AMC、GSM8k、MATH-500 和 OlympiadBench。加粗表示最佳结果,下划线表示第二优。

PasoDoble 能显著提升模型在数学基准上的表现,尤其是在 Qwen2.5-1.5B/3B 和 Qwen3-1.7B/4B 模型上。此外,PasoDoble 的性能提升随着模型规模的增大而持续增强。



Qwen2.5-0.5B-Base 模型的实验结果。



Qwen3-0.6B-Base 模型的实验结果。



Qwen2.5-1.5B-Base 模型的实验结果。



Qwen3-1.7B-Base 模型的实验结果。



Qwen2.5-3B-Base 模型的实验结果。



Qwen3-4B-Base 模型的实验结果。

Proposer 与随机奖励:Solver 到底学到了什么?

先前的研究表明,即使使用随机奖励也可能带来非平凡的提升。因此,我们在 Qwen3-1.7B 模型上采用在线训练范式进行了相关实验。



随机奖励的实验结果。



如上表所示,使用完全随机奖励进行训练会使 Solver 在所有数学基准上的平均准确率几乎跌至零。即便我们强制 Solver 以正确格式作答(部分随机奖励),其准确率仍然大幅下降。与我们原始设置形成的鲜明对比清楚地表明:Solver 在训练过程中确实从 Proposer 的答案中受益匪浅

Proposer 生成的问题是由记忆驱动的,还是由推理驱动的?



Qwen3-1.7B-Base 在不同提示前缀比例下(即 x% 表示向 Qwen3-1.7B-Base 提示前 x% 的 问题 )对 Proposer 在第 200 个检查点生成的问题进行评估,其 Exact Match(EM)和 ROUGE-L得分如上所示。所有评估均使用贪心解码,并且不使用聊天模板。

我们通过上表进行了分析。即使提示问题前缀重叠达到 80%,EM 也仅约为 12%(使用知识库)和 31%(不使用知识库),这表明绝大多数生成的问题来源于推理而非记忆。

总结

我们的研究表明,大语言模型可以通过类似 GAN 的双模型对抗式训练来提升数学推理能力,并在多个数学基准上取得可量化的性能提升。该方法还通过利用预训练知识增强后训练效果,在预训练与后训练之间建立了一座桥梁。

尽管如此,我们的方法也存在局限性,例如在 GPQA 等领域外任务中并未带来性能提升。未来的研究将探索将该框架拓展到其他领域,如代码与事实问答,并进一步研究更广泛的多模型训练范式,包括协作式、竞争式以及角色专门化等设置。这些方向可能对于解决远比单一模型能可靠处理的任务更加复杂的问题至关重要。

参考文献:

[1] Goodfellow, Ian, et al. "Generative adversarial networks." *Communications of the ACM* 63.11 (2020): 139-144.

[2] Huang, Chengsong, et al. "R-Zero: Self-Evolving Reasoning LLM from Zero Data." *arXiv preprint arXiv:2508.05004* (2025).

[3] Yang, An, et al. "Qwen3 technical report." *arXiv preprint arXiv:2505.09388* (2025).

[4] Shao, Zhihong, et al. "Deepseekmath: Pushing the limits of mathematical reasoning in open language models." *arXiv preprint arXiv:2402.03300* (2024).

[5] Wang, Zengzhi, et al. "Octothinker: Mid-training incentivizes reinforcement learning scaling." *arXiv preprint arXiv:2506.20512* (2025).

[6] Shao, Rulin, et al. "Spurious rewards: Rethinking training signals in rlvr." *arXiv preprint arXiv:2506.10947* (2025).

[7] Lin, Chin-Yew, and Franz Josef Och. "Automatic evaluation of machine translation quality using longest common subsequence and skip-bigram statistics." *Proceedings of the 42nd annual meeting of the association for computational linguistics (ACL-04)*. 2004.

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
国家正式公布:3月30日起,全国统一执行,老坟有新规定

国家正式公布:3月30日起,全国统一执行,老坟有新规定

老特有话说
2026-02-24 23:23:24
普京三次痛批列宁:一生最大的错误,就是把统一国家改造成联盟!

普京三次痛批列宁:一生最大的错误,就是把统一国家改造成联盟!

牛马搞笑
2026-02-23 11:35:52
贝加尔湖7条命,小红书躺枪

贝加尔湖7条命,小红书躺枪

智识漂流
2026-02-23 19:24:13
颐和园摸完猫手臭了,反复追问其他人,发现别人摸都不臭!

颐和园摸完猫手臭了,反复追问其他人,发现别人摸都不臭!

Magic宠物社
2026-02-23 18:35:10
春节刚过,美国深夜收到消息!中国出手了,高市早苗的苦日子来了

春节刚过,美国深夜收到消息!中国出手了,高市早苗的苦日子来了

东极妙严
2026-02-25 09:11:39
球王的威力!因与梅西产生激烈争吵,当值主裁被联盟禁赛5场!

球王的威力!因与梅西产生激烈争吵,当值主裁被联盟禁赛5场!

田先生篮球
2026-02-24 16:37:19
她在非诚勿扰上站五年,爆灯无数却不牵手,最终被主持人赶下台

她在非诚勿扰上站五年,爆灯无数却不牵手,最终被主持人赶下台

琴声飞扬
2026-02-22 15:21:45
中超新土豪!外援总身价超过国安+蓉城总和,或成争冠最大黑马

中超新土豪!外援总身价超过国安+蓉城总和,或成争冠最大黑马

零度眼看球
2026-02-25 07:17:45
真敢查!湖北精神病院骗医保,连院长带保护伞一锅端,23人全栽了

真敢查!湖北精神病院骗医保,连院长带保护伞一锅端,23人全栽了

趣味萌宠的日常
2026-02-24 20:21:44
重磅实锤!俄亲战大V自曝:俄军进攻潜力已耗尽

重磅实锤!俄亲战大V自曝:俄军进攻潜力已耗尽

老马拉车莫少装
2026-02-25 08:57:51
26岁男子春节离家失联5天,山中发现外套!父亲:事前曾去奶奶坟前,手机留“遗言”

26岁男子春节离家失联5天,山中发现外套!父亲:事前曾去奶奶坟前,手机留“遗言”

红星新闻
2026-02-24 13:12:52
AI写代码收费大变天!字节Trae按Token算钱了

AI写代码收费大变天!字节Trae按Token算钱了

IT之家
2026-02-24 17:16:37
为何保险卖不动了?保险卖不动的原因是当年的骗局到现在已被证实

为何保险卖不动了?保险卖不动的原因是当年的骗局到现在已被证实

来科点谱
2026-02-24 07:11:24
55岁央视一哥康辉,缺席春晚真相曝光,为什么他不再抛头露面?

55岁央视一哥康辉,缺席春晚真相曝光,为什么他不再抛头露面?

天天热点见闻
2026-02-23 05:22:26
网红表面直播游戏,实际跨城杀怀孕女友?!完美犯罪+演技爆表,警察都信了...

网红表面直播游戏,实际跨城杀怀孕女友?!完美犯罪+演技爆表,警察都信了...

英国那些事儿
2026-02-24 23:23:48
524-1!常冰玉残暴4-0横扫 世界第8崩溃摇头长时间鼓掌:历史最强

524-1!常冰玉残暴4-0横扫 世界第8崩溃摇头长时间鼓掌:历史最强

风过乡
2026-02-24 20:15:22
宋庆龄去世,请宋美龄回国吊唁,她答复:血脉虽亲,大义更重

宋庆龄去世,请宋美龄回国吊唁,她答复:血脉虽亲,大义更重

文史明鉴
2026-02-14 11:11:11
中国50后还有多少人?多少人能活到80岁?权威数据告诉你

中国50后还有多少人?多少人能活到80岁?权威数据告诉你

芭比衣橱
2026-02-19 21:00:42
真吃不动了!东北虎被喂太撑,叼肉条扭头吐掉,网友:别喂肉了,喂消食片吧

真吃不动了!东北虎被喂太撑,叼肉条扭头吐掉,网友:别喂肉了,喂消食片吧

观威海
2026-02-24 10:42:08
调门变了!高市对中改口,被民众大骂不知羞耻,外交部一句话定调

调门变了!高市对中改口,被民众大骂不知羞耻,外交部一句话定调

青梅侃史啊
2026-02-24 22:33:41
2026-02-25 10:03:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12344文章数 142569关注度
往期回顾 全部

科技要闻

苹果MacBook Pro要加触摸屏了,还带灵动岛

头条要闻

牛弹琴:美伊大战若还不打 全世界都会看特朗普的笑话

头条要闻

牛弹琴:美伊大战若还不打 全世界都会看特朗普的笑话

体育要闻

曝雄鹿计划今夏追小卡 字母哥渴望与其并肩作战

娱乐要闻

汪小菲官宣三胎出生:承诺会照顾好3个孩子

财经要闻

春节档"开门黑" 电影票少卖了7000万张

汽车要闻

入门即满配 威兰达AIR版上市 13.78万元起

态度原创

游戏
家居
时尚
教育
本地

《彩虹六号》手游版正式运营开启 5V5攻防战术FPS

家居要闻

本真栖居 爱暖伴流年

普通人穿衣别太老气横秋!这些穿搭给你灵感,保暖耐看两不误

教育要闻

上海汇工大学揭秘!别被名称坑了志愿

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

无障碍浏览 进入关怀版