大模型训练新突破！Meta提出LSP：无数据也能实现能力飞升|算法|实验|lsp|meta|深度思考模型

大模型训练新突破！Meta提出LSP：无数据也能实现能力飞升

2025-09-20 10:17:57　来源: 学术头条

北京举报

分享至

高质量数据的不足，已经成为限制大语言模型（LLM）持续学习、提升能力的瓶颈。

为此，Meta 提出了一个名为“语言自我博弈”（Language Self-Play，LSP）的强化学习（RL）新方法，通过让模型在不依赖额外数据的情况下进行自我改进，从而消除了这种依赖性。

论文链接：https://arxiv.org/abs/2509.07414

这一方法利用了自我博弈（self-play）的博弈论框架，将模型的能力视为在竞技游戏中的表现，并通过让模型自己与自己博弈来产生更强的策略。

在指令遵循基准测试中，使用 Llama-3.2-3B-Instruct 进行的实验表明，预训练模型不仅可以单独通过自我博弈来提高其在挑战性任务上的性能，而且比数据驱动的基线模型更有效。

自我博弈：既是挑战者，又是解题者

据论文介绍，在 LSP 框架中，同一个预训练 LLM 被赋予两种不同身份，形成动态对抗关系。

其中，“挑战者” （Challenger）负责生成查询内容，目标是设计更具挑战性的指令，以此“难住”解题者，从而最小化任务奖励。为了让挑战者生成有效查询，研究团队设计了专用提示词（），明确要求其生成符合任务类型、测试模型能力的输入，既可以是简单指令，也能是高难度或带有“压力测试”性质的内容。

“解题者”（Solver）则负责对挑战者生成的查询进行响应，目标是给出高质量回答，最大化任务奖励。这里的奖励既可以是基于结果验证的客观评分，也可以是基于人类偏好的主观评价。

图｜LSP Agent 在挑战者和解题者两种模式下运行。当解题者不断学习优化对 prompt 的响应时，挑战者则会设计更具挑战性的任务。这两种模式均由同一模型实现，从而支持持续训练，生成质量不断提升的自动生成数据。

挑战者和解题者的对抗关系，简单来说是由前者出“难题”，后者全力以赴“破题”，在持续对抗中，实现双方能力的同步提升。为了让“自我博弈”过程稳定、高效，LSP 引入了两项核心技术支撑：

群体相对策略优化（GRPO）：每次训练迭代时，挑战者先生成 N 个查询；针对每个查询，解题者生成 G 个不同回答，并分别获得对应的任务奖励。随后，通过计算“群体价值”，既为解题者的回答质量提供评估基准，也帮助团队量化挑战者希望优化的查询难度指标。

KL 散度正则化：这一技术主要用于防止模型“走偏”。一方面，它能确保经过训练的模型不会与初始参考模型偏差过大，避免性能波动；另一方面，能有效阻止挑战者生成无语义意义的“乱码式”查询，保证训练过程的有效性。

从 LSP-Zero 到 LSP：长期、稳定自主训练

最初，研究团队提出了 LSP 的基础版本 —— LSP-Zero，这是一种纯零和博弈模式，仅依靠挑战者与解题者的对抗驱动训练，没有额外的质量约束。

但他们在实验中发现，LSP-Zero 存在明显缺陷：随着训练推进，模型容易陷入“对抗性无意义游戏”。例如，在使用 OpenAssistant 的奖励模型（reward-model-deberta-v3-large-v2）时，解题者会出现“奖励黑客攻击”—— 不管挑战者的查询是什么类型，都用 Python 代码回应，以此钻奖励规则的空子，导致训练偏离提升能力的核心目标。

为了引导游戏实现高质量的交互体验，研究人员对 LSP-Zero 进行升级，推出了加入自奖励机制的版本 LSP：引入质量自奖励，由参考模型对“挑战者查询 + 解题者回答”的质量进行评分，并将这一分数加入双方的最终奖励中。自奖励采用7 分制加分标准，从 7 个维度全面评估交互质量：

当且仅当用户的任务可以从指令中明确识别；
当且仅当指令清晰、具体和结构良好；
用户能理解解题者的响应；
当且仅当响应解决了用户问题的很大一部分（无需完全完成）；
响应有效地、全面地回答了问题的核心要素；
响应是清晰的、简明的、有组织的、有用的；
当且仅当是用户可能喜欢的形式与风格。

加入自奖励后，LSP 的“自我博弈”不再是单纯的零和博弈，而是转向“高质量共赢”。挑战者需要生成有价值的查询，解题者需要给出优质回答，双方共同追求更高的质量评分。这一改进彻底解决了无意义对抗问题，让模型能实现长期、稳定的自主训练。

为验证 LSP 的有效性，研究团队以 AlpacaEval 基准和 Llama-3.2-3B-Instruct 为基础模型，开展了两组实验。

首先，他们将无数据的 LSP 与作为自奖励正则化消融实验的 LSP-Zero 进行对比，并将其与基于 Alpaca 数据通过 RL 训练的模型进行比较。该实验旨在分析在 RL 数据完全缺失的情况下，仅通过自我博弈策略，能够恢复多少基于数据训练的性能。

图｜展示了基于 GRPO（数据支持，黄色条形图）、LSP-Zero 与 LSP（无数据支持，红色和蓝色条形图分别对应）在 AlpacaEval 基准测试中相对于基础模型 Llama-3.2-3B-Instruct 的胜率对比。所有算法在整体基准测试中均优于基础模型（最右侧条形图）。具体胜率分别为：GRPO 40.9%、LSP-Zero 40.1%、LSP 40.6%。灰色实线表示基础模型与自身对比的胜率（即模型以相等概率赢得、平局和输掉与自身比赛）。

通过在 AlpacaEval 数据集上计算各算法对 Llama-3.2-3B-Instruct 的胜率，包括各独立数据集的表现，他们得到以下结果。尽管未使用任何训练数据，LSP-Zero 和 LSP 仍显著提升了基础模型的性能，其整体表现与 GRPO 相当，而 LSP 模型比 LSP-Zero 模型更具优势。值得注意的是，在某些任务（例如专攻对话式开放式指令的 Vicuna 数据集）中，LSP-Zero 和 LSP 模型最终表现显著优于基础模型和 GRPO。这是因为挑战者生成的 prompt 本身就带有对话属性，与任务需求高度匹配，凸显了 LSP 在特定场景下的优势。

图｜展示了 LSP-Zero 和 LSP（无数据，红色与蓝色柱状图）在 AlpacaEval 基准测试中，与初始训练模型（基于 GRPO 数据训练，黄色柱状图）的胜率对比。总体而言，LSP 表现优于 GRPO，在 Vicuna 任务中优势显著。具体胜率分别为：GRPO 40.9%、LSP-Zero 40.0%、LSP 43.1%。灰色实线表示基础模型自身的胜率。

此外，研究团队还做了另一组实验：先使用 GRPO 训练模型，再以该模型为初始模型，用 LSP 继续训练。结果显示，LSP 能在已有基础上进一步提升性能。LSP 对 Llama-3.2-3B-Instruct 的整体胜率从 40.9% 提升至 43.1%。在 Vicuna 模型中，LSP-Zero 将 GRPO 的胜率从 28.7% 提升至 36.3%，LSP 甚至进一步达到了 46.3%。

不过，LSP 方法也存在不足：在以聊天机器人用户类型查询为主的 Koala 数据集中，LSP 性能略逊于 GRPO。研究团队分析，这是因为 LSP 生成的查询更偏向结构化、有序的风格，与 Koala 数据集的松散对话场景匹配度较低，未来工作仍需要优化查询生成的多样性。

无数据训练的新可能

LSP 的提出，不仅解决了大模型训练的数据依赖难题，更从技术层面验证了“无数据训练”的可行性，为大模型未来发展带来多重价值。

例如，在训练成本方面，无需大规模收集、清洗、标注数据，大幅减少了数据获取环节的人力与资源投入；在数据稀缺的应用场景下，LSP 可让模型在不依赖外部数据的情况下持续优化；而且，通过“自我博弈 + 自我奖励”机制，模型能够长期自主训练，实现自主进化。

研究团队相信，一旦 AI 实现“具身”，并能够收集自己的经验数据，这种自我博弈框架在扩展知识方面就有希望显现出巨大潜力。

整理：小瑜

如需转载或投稿，请直接在公众号内留言

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.