网易首页 > 网易号 > 正文 申请入驻

两个LLM互相对线,推理起飞:康奈尔团队发布大模型版类GAN训练法

0
分享至



大型语言模型(LLMs)虽然通过可验证奖励的强化学习(RLVR)取得了显著进展,但仍然在很大程度上依赖外部监督(例如人工标注的数据)。自博弈(self-play)提供了一种有前景的替代方案,使模型能够通过与自身反复对抗来学习,从而减少对外部监督的依赖。GAN 则提供了另一种更具吸引力的训练范式:通过对抗式地训练两个模型,其中一个模型专注于生成具有挑战性的任务或对抗样本,另一个模型则专注于解决这些任务。

于是问题来了:LLM 是否也可以像 GAN 一样进行训练?我们的希望是,通过赋予每个模型不同的专门化角色,可以促进持续的竞争与共同进化,从而让它们能够解决单一模型可能从根本上无法胜任的任务。

为解决这一难题,来自康奈尔大学的 NLP 团队提出了PasoDoble,一个面向大语言模型的全新类 GAN 训练框架。PasoDoble 通过对抗式地训练两个几乎相同的模型:Proposer 用于生成带有标准答案的高难度问题,Solver 则尝试解决这些问题。我们进一步利用高质量的数学预训练语料,并引入离线训练范式,以缓解潜在的训练不稳定性。值得注意的是,PasoDoble 在整个训练过程中不依赖任何监督信号



  • 论文题目:Better LLM Reasoning via Dual-play
  • 论文链接:https://arxiv.org/pdf/2511.10395
  • 项目主页:https://hcy123902.github.io/PasoDoble/
  • 作者介绍:共同一作张正鑫,黄诚瑜为康奈尔大学计算机系博士,李奡翀为主要贡献者之一,Claire Cardie 为通讯作者以及导师。



图为使用 Qwen3-1.7B 在 MATH-500 上评估的 Solver 在不同训练步骤中的训练动态。Solver 的整体准确率在无任何监督的情况下从 45% 提升至 67%。它在第 20 步之前就超过了基线模型,并在第 360 步达到最高的 67%。重要的是,PasoDoble 能够在数百个更新步骤中保持持续提升,展现出远强于相关工作 R-Zero 的扩展能力。



我们为每个问题采样六个回答,并报告 pass@1 的准确率。基线模型按照 Qwen 技术报告中的设置,使用 4-shot 提示进行评估;其他模型则使用 0-shot 提示进行评估。

我们发现,在完全无监督的情况下,PasoDoble 使 Qwen3-1.7B-Base 的数学任务平均性能提升约13 个点,使 Qwen3-4B-Base 提升约16 个点。

PasoDoble 方法概览

PasoDoble 由四个组件构成:Proposer (π_p)、Solver (π_s)、Knowledge Base (K),以及用于离线训练的题目缓冲区(Question Buffer)。Proposer 和 Solver 均从同一个预训练模型初始化,随后会进行初始的冷启动训练。

在在线训练中,每次迭代都会从知识库中采样一个知识片段(1),用于提示 Proposer 生成一批问答(QA)对(2)。随后,Solver 会针对每个问题生成多个解答尝试(3–4)。Solver 根据其答案是否与 Proposer 的标准答案一致来获得正确性奖励(5)。为评估问题的难度,我们计算 Solver 在该问题上的准确率(6),并将 Proposer 的难度奖励定义为该准确率的反比(7);同时,还会加入一个多样性奖励以鼓励生成新颖的问题(8)。这些奖励被组合得到 Proposer 的最终奖励(9)。只有那些具有非平凡难度、被判定为有效的问题才会被保留下来用于 Solver 的训练(10)。当至少存在一个有效问题时,两个模型都会同步更新(11),从而形成完整的在线训练循环。

在离线训练中,Proposer 会在 Solver 冻结的情况下首先更新若干步(11),并将生成的有效问题存入 Question Buffer(12)。随后,将 Proposer 冻结,Solver 则利用 Question Buffer 中的问题进行更新(13),从而构建其训练数据集。

Proposer Reward 是如何设计呢?

简而言之,Proposer 会因为生成困难(即 Solver 准确率低)且 多样(与近期问题不相似)的问题而获得奖励,但前提是这些问题是有效且格式良好的。

Proposer 的任务是生成既具有挑战性又多样化的数学问题。为引导这种行为,我们设计了一个由难度 reward多样性 reward两部分组成的 reward 机制。

1. 难度 Reward

我们希望 Proposer 能生成有挑战性的问题 —— 即 Solver 不能轻易答对的问题。我们用 Solver 的通过率来衡量难度:



通过率 p_i 越低,问题越难,奖励就越高。具体地,难度奖励为:



即使一个问题非常简单(例如 p_i = 1.0),奖励仍然为 0.1,以确保 Proposer 始终倾向于生成有效的问题,而不是生成错误或无意义的问题。

2. 多样性 Reward

我们还希望避免退化现象,例如 Proposer 反复生成同一种类型的问题。为此,我们将新生成的问题 q_i 与历史缓冲区 H 中的最近问题进行比较,采用 Jaccard 相似度:



如果两个问题过于相似,我们将其视为重复:



因此,多样性奖励定义为:



简而言之:问题越独特,奖励越高。

3. Proposer 最终奖励

我们只有在问题既有效又具有多样性的情况下才会对 Proposer 进行奖励:

  • 有效性(Validity):通过率不能过低:



  • 多样性(Diversity):不能过于重复:



最终奖励为:



Solver Reward 是如何设计呢?

Solver 的训练仅依赖纯正确性奖励。



其中指标函数定义为:



实验设置

我们在多种模型规模上进行实验,包括 Qwen3-0.6B-Base、Qwen3-1.7B-Base、Qwen3-4B-Base、Qwen2.5-0.5B-Base、Qwen2.5-1.5B-Base 和 Qwen2.5-3B-Base,将它们分别用作 Proposer 和 Solver,然后执行冷启动训练。在冷启动之后,我们使用 GRPO 同时训练 Proposer 和 Solver,并在在线与离线两种设置下进行实验。更多超参数设置参见论文附录 B。我们使用 MegaMath-Pro-Max 预训练数据集作为知识库 K。

实验结果

主流数学 benchmark 的结果

我们在竞赛级数学基准上评估了我们的方法,包括 AIME 2024、AIME 2025、AMC、GSM8k、MATH-500 和 OlympiadBench。加粗表示最佳结果,下划线表示第二优。

PasoDoble 能显著提升模型在数学基准上的表现,尤其是在 Qwen2.5-1.5B/3B 和 Qwen3-1.7B/4B 模型上。此外,PasoDoble 的性能提升随着模型规模的增大而持续增强。



Qwen2.5-0.5B-Base 模型的实验结果。



Qwen3-0.6B-Base 模型的实验结果。



Qwen2.5-1.5B-Base 模型的实验结果。



Qwen3-1.7B-Base 模型的实验结果。



Qwen2.5-3B-Base 模型的实验结果。



Qwen3-4B-Base 模型的实验结果。

Proposer 与随机奖励:Solver 到底学到了什么?

先前的研究表明,即使使用随机奖励也可能带来非平凡的提升。因此,我们在 Qwen3-1.7B 模型上采用在线训练范式进行了相关实验。



随机奖励的实验结果。



如上表所示,使用完全随机奖励进行训练会使 Solver 在所有数学基准上的平均准确率几乎跌至零。即便我们强制 Solver 以正确格式作答(部分随机奖励),其准确率仍然大幅下降。与我们原始设置形成的鲜明对比清楚地表明:Solver 在训练过程中确实从 Proposer 的答案中受益匪浅

Proposer 生成的问题是由记忆驱动的,还是由推理驱动的?



Qwen3-1.7B-Base 在不同提示前缀比例下(即 x% 表示向 Qwen3-1.7B-Base 提示前 x% 的 问题 )对 Proposer 在第 200 个检查点生成的问题进行评估,其 Exact Match(EM)和 ROUGE-L得分如上所示。所有评估均使用贪心解码,并且不使用聊天模板。

我们通过上表进行了分析。即使提示问题前缀重叠达到 80%,EM 也仅约为 12%(使用知识库)和 31%(不使用知识库),这表明绝大多数生成的问题来源于推理而非记忆。

总结

我们的研究表明,大语言模型可以通过类似 GAN 的双模型对抗式训练来提升数学推理能力,并在多个数学基准上取得可量化的性能提升。该方法还通过利用预训练知识增强后训练效果,在预训练与后训练之间建立了一座桥梁。

尽管如此,我们的方法也存在局限性,例如在 GPQA 等领域外任务中并未带来性能提升。未来的研究将探索将该框架拓展到其他领域,如代码与事实问答,并进一步研究更广泛的多模型训练范式,包括协作式、竞争式以及角色专门化等设置。这些方向可能对于解决远比单一模型能可靠处理的任务更加复杂的问题至关重要。

参考文献:

[1] Goodfellow, Ian, et al. "Generative adversarial networks." *Communications of the ACM* 63.11 (2020): 139-144.

[2] Huang, Chengsong, et al. "R-Zero: Self-Evolving Reasoning LLM from Zero Data." *arXiv preprint arXiv:2508.05004* (2025).

[3] Yang, An, et al. "Qwen3 technical report." *arXiv preprint arXiv:2505.09388* (2025).

[4] Shao, Zhihong, et al. "Deepseekmath: Pushing the limits of mathematical reasoning in open language models." *arXiv preprint arXiv:2402.03300* (2024).

[5] Wang, Zengzhi, et al. "Octothinker: Mid-training incentivizes reinforcement learning scaling." *arXiv preprint arXiv:2506.20512* (2025).

[6] Shao, Rulin, et al. "Spurious rewards: Rethinking training signals in rlvr." *arXiv preprint arXiv:2506.10947* (2025).

[7] Lin, Chin-Yew, and Franz Josef Och. "Automatic evaluation of machine translation quality using longest common subsequence and skip-bigram statistics." *Proceedings of the 42nd annual meeting of the association for computational linguistics (ACL-04)*. 2004.

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
仗打了四年后,泽连斯基通告全球:乌克兰收复失地,没有输掉战争

仗打了四年后,泽连斯基通告全球:乌克兰收复失地,没有输掉战争

福建平子
2026-02-24 11:32:47
美媒披露特朗普政府左右为难,中国似乎已决定让美国进行二选一!

美媒披露特朗普政府左右为难,中国似乎已决定让美国进行二选一!

百态人间
2026-02-24 15:43:06
马筱梅生子!孩子小名曝光,张兰公布生产细节,却被质疑太偏心!

马筱梅生子!孩子小名曝光,张兰公布生产细节,却被质疑太偏心!

古希腊掌管月桂的神
2026-02-24 13:45:04
新加坡大满贯赛:8强对阵出炉!国乒独苗3:0大获全胜,冲击冠军

新加坡大满贯赛:8强对阵出炉!国乒独苗3:0大获全胜,冲击冠军

国乒二三事
2026-02-24 09:40:55
1月新能源销量:政策一退坡,电车立马跌

1月新能源销量:政策一退坡,电车立马跌

汽车公社
2026-02-22 21:55:13
WTT大满贯!女单爆大冷,奥运亚军出局,蒯曼零封、石洵瑶压制

WTT大满贯!女单爆大冷,奥运亚军出局,蒯曼零封、石洵瑶压制

深蓝独奏
2026-02-24 15:19:44
别嫌远、别嫌偏!十年后深圳这5个地方,你高攀不起!

别嫌远、别嫌偏!十年后深圳这5个地方,你高攀不起!

据说说娱乐
2026-02-24 12:23:29
断香火大潮来了!大批家庭,将倒在80、90后手里。

断香火大潮来了!大批家庭,将倒在80、90后手里。

黑哥讲现代史
2026-02-24 16:29:47
拉杜卡努将代言优衣库,预计合同为每年350万美元

拉杜卡努将代言优衣库,预计合同为每年350万美元

懂球帝
2026-02-24 14:00:11
斯诺克爆冷世界冠军出局,赵心童背靠背参赛 丁俊晖弃赛原因曝光

斯诺克爆冷世界冠军出局,赵心童背靠背参赛 丁俊晖弃赛原因曝光

篮球看比赛
2026-02-24 15:52:08
吴艳妮小露性感腹肌迷人:普通的日子也会有说不清的快乐

吴艳妮小露性感腹肌迷人:普通的日子也会有说不清的快乐

懂球帝
2026-02-24 11:01:05
150万人香港研究:低剂量阿司匹林吃10年,整体癌症风险降低43%!

150万人香港研究:低剂量阿司匹林吃10年,整体癌症风险降低43%!

39健康网
2026-02-24 10:31:34
“母亲至今想不明白儿子咋火的”,一段初中男孩的视频,6.3w点赞

“母亲至今想不明白儿子咋火的”,一段初中男孩的视频,6.3w点赞

妍妍教育日记
2026-02-24 19:22:53
五台山景区大火持续达7小时:官方回应伤亡情况,一画面信息量大

五台山景区大火持续达7小时:官方回应伤亡情况,一画面信息量大

博士观察
2026-02-22 16:44:15
大批F16出动,美重兵逼近黄海,不到1天,特朗普:中方实力太强大

大批F16出动,美重兵逼近黄海,不到1天,特朗普:中方实力太强大

通文知史
2026-02-22 22:57:13
俄紧急出动伊尔-76,撤离驻伊朗外交官家属,中东局势再拉警报

俄紧急出动伊尔-76,撤离驻伊朗外交官家属,中东局势再拉警报

老马拉车莫少装
2026-02-23 09:21:25
别老盯着金银!这种金属才是“涨价王者”

别老盯着金银!这种金属才是“涨价王者”

财经早餐
2026-02-24 06:25:57
东北姑娘远嫁上海没回娘家过年,妈妈寄了120个“单间饺子”:防止饺子会坨,四个一袋饺子之间用绳子系上;网友:妈妈的爱无声却震耳欲聋

东北姑娘远嫁上海没回娘家过年,妈妈寄了120个“单间饺子”:防止饺子会坨,四个一袋饺子之间用绳子系上;网友:妈妈的爱无声却震耳欲聋

极目新闻
2026-02-23 13:41:59
被判公开道歉并赔偿30万!自媒体“赛车星冰乐”因诋毁尊界S800败诉;此前其因集纳企业负面信息、煽动群体对立,被处置

被判公开道歉并赔偿30万!自媒体“赛车星冰乐”因诋毁尊界S800败诉;此前其因集纳企业负面信息、煽动群体对立,被处置

大象新闻
2026-02-24 17:44:06
谷爱凌回应万斯的批评:你不管别人,就只管我,那是因为我能赢

谷爱凌回应万斯的批评:你不管别人,就只管我,那是因为我能赢

我心纵横天地间
2026-02-21 18:50:22
2026-02-24 20:03:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12344文章数 142569关注度
往期回顾 全部

科技要闻

AI颠覆发展最新牺牲品!IBM跳水重挫超13%

头条要闻

20家日本实体被列入管制名单 中方:完全正当 合理合法

头条要闻

20家日本实体被列入管制名单 中方:完全正当 合理合法

体育要闻

苏翊鸣总结米兰征程:我仍是那个热爱单板滑雪的少年

娱乐要闻

汪小菲官宣三胎出生:承诺会照顾好3个孩子

财经要闻

县城消费「限时繁荣」了十天

汽车要闻

入门即满配 威兰达AIR版上市 13.78万元起

态度原创

健康
家居
旅游
房产
公开课

转头就晕的耳石症,能开车上班吗?

家居要闻

本真栖居 爱暖伴流年

旅游要闻

海南2026年春节假期接待游客超1232万人次

房产要闻

330万人涌入!春节全国楼市,第一个卖爆的区域出现了!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版