网易首页 > 网易号 > 正文 申请入驻

大模型训练新突破!Meta提出LSP:无数据也能实现能力飞升

0
分享至


高质量数据的不足,已经成为限制大语言模型(LLM)持续学习、提升能力的瓶颈。

为此,Meta 提出了一个名为“语言自我博弈”(Language Self-Play,LSP)的强化学习(RL)新方法,通过让模型在不依赖额外数据的情况下进行自我改进,从而消除了这种依赖性。


论文链接:https://arxiv.org/abs/2509.07414

这一方法利用了自我博弈(self-play)的博弈论框架,将模型的能力视为在竞技游戏中的表现,并通过让模型自己与自己博弈来产生更强的策略。

在指令遵循基准测试中,使用 Llama-3.2-3B-Instruct 进行的实验表明,预训练模型不仅可以单独通过自我博弈来提高其在挑战性任务上的性能,而且比数据驱动的基线模型更有效。

自我博弈:既是挑战者,又是解题者

据论文介绍,在 LSP 框架中,同一个预训练 LLM 被赋予两种不同身份,形成动态对抗关系。

其中,“挑战者” (Challenger)负责生成查询内容,目标是设计更具挑战性的指令,以此“难住”解题者,从而最小化任务奖励。为了让挑战者生成有效查询,研究团队设计了专用提示词( ),明确要求其生成符合任务类型、测试模型能力的输入,既可以是简单指令,也能是高难度或带有“压力测试”性质的内容。

“解题者”(Solver)则负责对挑战者生成的查询进行响应,目标是给出高质量回答,最大化任务奖励。这里的奖励既可以是基于结果验证的客观评分,也可以是基于人类偏好的主观评价。


图|LSP Agent 在挑战者和解题者两种模式下运行。当解题者不断学习优化对 prompt 的响应时,挑战者则会设计更具挑战性的任务。这两种模式均由同一模型实现,从而支持持续训练,生成质量不断提升的自动生成数据。

挑战者和解题者的对抗关系,简单来说是由前者出“难题”,后者全力以赴“破题”,在持续对抗中,实现双方能力的同步提升。为了让“自我博弈”过程稳定、高效,LSP 引入了两项核心技术支撑:

群体相对策略优化(GRPO):每次训练迭代时,挑战者先生成 N 个查询;针对每个查询,解题者生成 G 个不同回答,并分别获得对应的任务奖励。随后,通过计算“群体价值”,既为解题者的回答质量提供评估基准,也帮助团队量化挑战者希望优化的查询难度指标。

KL 散度正则化:这一技术主要用于防止模型“走偏”。一方面,它能确保经过训练的模型不会与初始参考模型偏差过大,避免性能波动;另一方面,能有效阻止挑战者生成无语义意义的“乱码式”查询,保证训练过程的有效性。

从 LSP-Zero 到 LSP:长期、稳定自主训练

最初,研究团队提出了 LSP 的基础版本 —— LSP-Zero,这是一种纯零和博弈模式,仅依靠挑战者与解题者的对抗驱动训练,没有额外的质量约束。

但他们在实验中发现,LSP-Zero 存在明显缺陷:随着训练推进,模型容易陷入“对抗性无意义游戏”。例如,在使用 OpenAssistant 的奖励模型(reward-model-deberta-v3-large-v2)时,解题者会出现“奖励黑客攻击”—— 不管挑战者的查询是什么类型,都用 Python 代码回应,以此钻奖励规则的空子,导致训练偏离提升能力的核心目标。

为了引导游戏实现高质量的交互体验,研究人员对 LSP-Zero 进行升级,推出了加入自奖励机制的版本 LSP:引入质量自奖励,由参考模型对“挑战者查询 + 解题者回答”的质量进行评分,并将这一分数加入双方的最终奖励中。自奖励采用7 分制加分标准,从 7 个维度全面评估交互质量:

  • 当且仅当用户的任务可以从指令中明确识别;

  • 当且仅当指令清晰、具体和结构良好;

  • 用户能理解解题者的响应;

  • 当且仅当响应解决了用户问题的很大一部分(无需完全完成);

  • 响应有效地、全面地回答了问题的核心要素;

  • 响应是清晰的、简明的、有组织的、有用的;

  • 当且仅当是用户可能喜欢的形式与风格。

加入自奖励后,LSP 的“自我博弈”不再是单纯的零和博弈,而是转向“高质量共赢”。挑战者需要生成有价值的查询,解题者需要给出优质回答,双方共同追求更高的质量评分。这一改进彻底解决了无意义对抗问题,让模型能实现长期、稳定的自主训练。

为验证 LSP 的有效性,研究团队以 AlpacaEval 基准和 Llama-3.2-3B-Instruct 为基础模型,开展了两组实验。

首先,他们将无数据的 LSP 与作为自奖励正则化消融实验的 LSP-Zero 进行对比,并将其与基于 Alpaca 数据通过 RL 训练的模型进行比较。该实验旨在分析在 RL 数据完全缺失的情况下,仅通过自我博弈策略,能够恢复多少基于数据训练的性能。


图|展示了基于 GRPO(数据支持,黄色条形图)、LSP-Zero 与 LSP(无数据支持,红色和蓝色条形图分别对应)在 AlpacaEval 基准测试中相对于基础模型 Llama-3.2-3B-Instruct 的胜率对比。所有算法在整体基准测试中均优于基础模型(最右侧条形图)。具体胜率分别为:GRPO 40.9%、LSP-Zero 40.1%、LSP 40.6%。灰色实线表示基础模型与自身对比的胜率(即模型以相等概率赢得、平局和输掉与自身比赛)。

通过在 AlpacaEval 数据集上计算各算法对 Llama-3.2-3B-Instruct 的胜率,包括各独立数据集的表现,他们得到以下结果。尽管未使用任何训练数据,LSP-Zero 和 LSP 仍显著提升了基础模型的性能,其整体表现与 GRPO 相当,而 LSP 模型比 LSP-Zero 模型更具优势。值得注意的是,在某些任务(例如专攻对话式开放式指令的 Vicuna 数据集)中,LSP-Zero 和 LSP 模型最终表现显著优于基础模型和 GRPO。这是因为挑战者生成的 prompt 本身就带有对话属性,与任务需求高度匹配,凸显了 LSP 在特定场景下的优势。


图|展示了 LSP-Zero 和 LSP(无数据,红色与蓝色柱状图)在 AlpacaEval 基准测试中,与初始训练模型(基于 GRPO 数据训练,黄色柱状图)的胜率对比。总体而言,LSP 表现优于 GRPO,在 Vicuna 任务中优势显著。具体胜率分别为:GRPO 40.9%、LSP-Zero 40.0%、LSP 43.1%。灰色实线表示基础模型自身的胜率。

此外,研究团队还做了另一组实验:先使用 GRPO 训练模型,再以该模型为初始模型,用 LSP 继续训练。结果显示,LSP 能在已有基础上进一步提升性能。LSP 对 Llama-3.2-3B-Instruct 的整体胜率从 40.9% 提升至 43.1%。在 Vicuna 模型中,LSP-Zero 将 GRPO 的胜率从 28.7% 提升至 36.3%,LSP 甚至进一步达到了 46.3%。


不过,LSP 方法也存在不足:在以聊天机器人用户类型查询为主的 Koala 数据集中,LSP 性能略逊于 GRPO。研究团队分析,这是因为 LSP 生成的查询更偏向结构化、有序的风格,与 Koala 数据集的松散对话场景匹配度较低,未来工作仍需要优化查询生成的多样性。

无数据训练的新可能

LSP 的提出,不仅解决了大模型训练的数据依赖难题,更从技术层面验证了“无数据训练”的可行性,为大模型未来发展带来多重价值。

例如,在训练成本方面,无需大规模收集、清洗、标注数据,大幅减少了数据获取环节的人力与资源投入;在数据稀缺的应用场景下,LSP 可让模型在不依赖外部数据的情况下持续优化;而且,通过“自我博弈 + 自我奖励”机制,模型能够长期自主训练,实现自主进化。

研究团队相信,一旦 AI 实现“具身”,并能够收集自己的经验数据,这种自我博弈框架在扩展知识方面就有希望显现出巨大潜力。

整理:小瑜

如需转载或投稿,请直接在公众号内留言

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
WTT冠军赛再爆冷!申裕斌1-4惨败出局,怪胶手强势晋级决赛

WTT冠军赛再爆冷!申裕斌1-4惨败出局,怪胶手强势晋级决赛

全言作品
2025-11-02 18:44:38
歌手黄安透露,屠颖去世是因为在酒店跑步机上跑步时摔跤致颅内出血

歌手黄安透露,屠颖去世是因为在酒店跑步机上跑步时摔跤致颅内出血

红星新闻
2025-11-02 10:19:19
56岁大妈下单盲人按摩 “特殊服务”,竟称:“伸进按才管用”

56岁大妈下单盲人按摩 “特殊服务”,竟称:“伸进按才管用”

云端小院
2025-11-02 09:05:55
村民众筹30万元欲硬化通村路,10年间10人去世都未等来动工,街道办称尚在争取上级补助资金

村民众筹30万元欲硬化通村路,10年间10人去世都未等来动工,街道办称尚在争取上级补助资金

大风新闻
2025-11-02 10:04:07
上海第二大,浦东最大商场要来了!剧透:首店阵容很强,来头蛮大!

上海第二大,浦东最大商场要来了!剧透:首店阵容很强,来头蛮大!

新民晚报
2025-11-02 14:05:48
“上午立冬,冻死牛;下午立冬,暖烘烘”,2025年立冬是几点?

“上午立冬,冻死牛;下午立冬,暖烘烘”,2025年立冬是几点?

阿龙美食记
2025-10-30 09:52:04
南京栖霞区干部任职前公示

南京栖霞区干部任职前公示

鲁中晨报
2025-11-02 20:03:11
美专家一致认为:想战胜中国只有一个法子,但这条红线美不敢跨越

美专家一致认为:想战胜中国只有一个法子,但这条红线美不敢跨越

阿七说史
2025-10-31 17:17:14
英国火车行凶案9人危殆:袭击者挥舞大刀,目击者最初以为是万圣节恶作剧

英国火车行凶案9人危殆:袭击者挥舞大刀,目击者最初以为是万圣节恶作剧

澎湃新闻
2025-11-02 13:00:30
惋惜!前中超冠军陨落:7年后再降级,季末7轮不胜+3次崩盘被绝平

惋惜!前中超冠军陨落:7年后再降级,季末7轮不胜+3次崩盘被绝平

我爱英超
2025-11-02 17:29:43
全红婵缺席十五运会单人项目,将出战团体与双人项目

全红婵缺席十五运会单人项目,将出战团体与双人项目

澎湃新闻
2025-11-01 19:18:28
凌晨3点,浙江此地全是人!有人半夜从上海、江苏赶来!老板被“逼”上班

凌晨3点,浙江此地全是人!有人半夜从上海、江苏赶来!老板被“逼”上班

FM93浙江交通之声
2025-11-01 19:43:42
乱套了!大雨+大暴雨+降温!浙江人做好准备:马上突袭!这波冲击30℃

乱套了!大雨+大暴雨+降温!浙江人做好准备:马上突袭!这波冲击30℃

FM93浙江交通之声
2025-11-02 16:31:54
痛心!徐州3名孩子失联后遗体在河中找到,其中包括一对姐弟

痛心!徐州3名孩子失联后遗体在河中找到,其中包括一对姐弟

极目新闻
2025-11-02 13:25:07
订婚未按时给女方送36万彩礼,男子与家人争执后轻生溺亡 父母索赔20万一审判了

订婚未按时给女方送36万彩礼,男子与家人争执后轻生溺亡 父母索赔20万一审判了

红星新闻
2025-11-02 11:08:20
菲律宾官员一语惊人:大陆很愤怒,说明我们这次做对了

菲律宾官员一语惊人:大陆很愤怒,说明我们这次做对了

云鹏叙事
2025-11-02 12:47:32
跌幅超60%!苏州昆山房价呈现大幅雪崩态势,从单价30000跌至8000

跌幅超60%!苏州昆山房价呈现大幅雪崩态势,从单价30000跌至8000

火山诗话
2025-11-02 15:24:56
你听过最离谱的八卦是什么?网友:留着上夜班的时候慢慢看

你听过最离谱的八卦是什么?网友:留着上夜班的时候慢慢看

解读热点事件
2025-11-02 00:05:08
这回要排队买丰田了,新SUV比奥迪Q5L还漂亮,油耗仅4.2L!

这回要排队买丰田了,新SUV比奥迪Q5L还漂亮,油耗仅4.2L!

周哥一影视
2025-11-02 10:00:37
和章泽天出席会议被抓拍,刘强东“卖萌”:从此在老婆面前没了自信!如今东哥还“不知妻美”吗?

和章泽天出席会议被抓拍,刘强东“卖萌”:从此在老婆面前没了自信!如今东哥还“不知妻美”吗?

新民周刊
2025-11-02 16:21:24
2025-11-02 20:40:49
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1408文章数 5081关注度
往期回顾 全部

科技要闻

10月零跑突破7万辆,小鹏、蔚来超4万辆

头条要闻

原价百万1针的CAR-T有望纳入创新药目录

头条要闻

原价百万1针的CAR-T有望纳入创新药目录

体育要闻

这个日本人,凭啥值3.25亿美元?

娱乐要闻

陈道明被王家卫说他是阴阳同体的极品

财经要闻

段永平捐了1500万元茅台股票!本人回应

汽车要闻

神龙汽车推出“发动机终身质保”政策

态度原创

艺术
房产
亲子
本地
军事航空

艺术要闻

Rob van Hoek:荷兰浪漫田园风光画家

房产要闻

中粮(三亚)国贸中心ITC首期自贸港政策沙龙圆满举行

亲子要闻

推荐山药蒸肉丸,适合孩子吃的长高菜!

本地新闻

全网围观,到底多少人被这个野人大学生笑疯了

军事要闻

俄在日本海演习击沉假想敌潜艇

无障碍浏览 进入关怀版