网易首页 > 网易号 > 正文 申请入驻

大模型训练新突破!Meta提出LSP:无数据也能实现能力飞升

0
分享至


新智元报道

来源:学术头条

编辑:定慧

【新智元导读】在大模型训练中,高质量数据的不足已成为限制其持续进化的瓶颈。Meta最新提出的语言自我博弈(Language Self-Play, LSP) 方法,或许为这一难题带来突破。

高质量数据的不足,已经成为限制大语言模型(LLM)持续学习、提升能力的瓶颈。

为此,Meta提出了一个名为「语言自我博弈」(Language Self-Play,LSP)的强化学习(RL)新方法,通过让模型在不依赖额外数据的情况下进行自我改进,从而消除了这种依赖性。


论文链接:https://arxiv.org/abs/2509.07414

这一方法利用了自我博弈(self-play)的博弈论框架,将模型的能力视为在竞技游戏中的表现,并通过让模型自己与自己博弈来产生更强的策略。

在指令遵循基准测试中,使用Llama-3.2-3B-Instruct进行的实验表明,预训练模型不仅可以单独通过自我博弈来提高其在挑战性任务上的性能,而且比数据驱动的基线模型更有效。

自我博弈:既是挑战者,又是解题者

据论文介绍,在LSP框架中,同一个预训练LLM被赋予两种不同身份,形成动态对抗关系。

其中,挑战者」 (Challenger)负责生成查询内容,目标是设计更具挑战性的指令,以此「难住」解题者,从而最小化任务奖励。

为了让挑战者生成有效查询,研究团队设计了专用提示词( ),明确要求其生成符合任务类型、测试模型能力的输入,既可以是简单指令,也能是高难度或带有压力测试性质的内容。

「解题者」(Solver)则负责对挑战者生成的查询进行响应,目标是给出高质量回答,最大化任务奖励。这里的奖励既可以是基于结果验证的客观评分,也可以是基于人类偏好的主观评价。


LSP Agent在挑战者和解题者两种模式下运行。当解题者不断学习优化对prompt的响应时,挑战者则会设计更具挑战性的任务。这两种模式均由同一模型实现,从而支持持续训练,生成质量不断提升的自动生成数据

挑战者和解题者的对抗关系,简单来说是由前者出「难题」,后者全力以赴破题,在持续对抗中,实现双方能力的同步提升。

为了让「自我博弈」过程稳定、高效,LSP引入了两项核心技术支撑:

群体相对策略优化(GRPO):每次训练迭代时,挑战者先生成N个查询;针对每个查询,解题者生成G个不同回答,并分别获得对应的任务奖励。随后,通过计算「群体价值」,既为解题者的回答质量提供评估基准,也帮助团队量化挑战者希望优化的查询难度指标。

KL散度正则化:这一技术主要用于防止模型「走偏」。一方面,它能确保经过训练的模型不会与初始参考模型偏差过大,避免性能波动;另一方面,能有效阻止挑战者生成无语义意义的「乱码式」查询,保证训练过程的有效性。

从LSP-Zero到LSP:长期、稳定自主训练

最初,研究团队提出了LSP的基础版本——LSP-Zero,这是一种纯零和博弈模式,仅依靠挑战者与解题者的对抗驱动训练,没有额外的质量约束。

但他们在实验中发现,LSP-Zero存在明显缺陷:随着训练推进,模型容易陷入「对抗性无意义游戏」

例如,在使用OpenAssistant的奖励模型(reward-model-deberta-v3-large-v2)时,解题者会出现「奖励黑客攻击」—— 不管挑战者的查询是什么类型,都用Python代码回应,以此钻奖励规则的空子,导致训练偏离提升能力的核心目标。

为了引导游戏实现高质量的交互体验,研究人员对 LSP-Zero 进行升级,推出了加入自奖励机制的版本 LSP:引入质量自奖励,由参考模型对「挑战者查询+解题者回答」的质量进行评分,并将这一分数加入双方的最终奖励中。自奖励采用7分制加分标准,从7个维度全面评估交互质量:

  • 当且仅当用户的任务可以从指令中明确识别;

  • 当且仅当指令清晰、具体和结构良好;

  • 用户能理解解题者的响应;

  • 当且仅当响应解决了用户问题的很大一部分(无需完全完成);

  • 响应有效地、全面地回答了问题的核心要素;

  • 响应是清晰的、简明的、有组织的、有用的;

  • 当且仅当是用户可能喜欢的形式与风格。

加入自奖励后,LSP的「自我博弈」不再是单纯的零和博弈,而是转向「高质量共赢」。挑战者需要生成有价值的查询,解题者需要给出优质回答,双方共同追求更高的质量评分。这一改进彻底解决了无意义对抗问题,让模型能实现长期、稳定的自主训练。

为验证LSP的有效性,研究团队以AlpacaEval基准和Llama-3.2-3B-Instruct为基础模型,开展了两组实验。

首先,他们将无数据的LSP与作为自奖励正则化消融实验的LSP-Zero进行对比,并将其与基于Alpaca数据通过RL训练的模型进行比较。该实验旨在分析在RL数据完全缺失的情况下,仅通过自我博弈策略,能够恢复多少基于数据训练的性能。


展示了基于 GRPO(数据支持,黄色条形图)、LSP-Zero 与 LSP(无数据支持,红色和蓝色条形图分别对应)在 AlpacaEval 基准测试中相对于基础模型 Llama-3.2-3B-Instruct 的胜率对比。所有算法在整体基准测试中均优于基础模型(最右侧条形图)。具体胜率分别为:GRPO 40.9%、LSP-Zero 40.1%、LSP 40.6%。灰色实线表示基础模型与自身对比的胜率(即模型以相等概率赢得、平局和输掉与自身比赛)

通过在 AlpacaEval 数据集上计算各算法对Llama-3.2-3B-Instruct的胜率,包括各独立数据集的表现,他们得到以下结果。

尽管未使用任何训练数据,LSP-Zero和LSP仍显著提升了基础模型的性能,其整体表现与GRPO相当,而LSP模型比LSP-Zero模型更具优势。值得注意的是,在某些任务(例如专攻对话式开放式指令的 Vicuna 数据集)中,LSP-Zero和LSP模型最终表现显著优于基础模型和GRPO。这是因为挑战者生成的prompt本身就带有对话属性,与任务需求高度匹配,凸显了LSP在特定场景下的优势。


展示了 LSP-Zero 和 LSP(无数据,红色与蓝色柱状图)在 AlpacaEval 基准测试中,与初始训练模型(基于 GRPO 数据训练,黄色柱状图)的胜率对比。总体而言,LSP 表现优于 GRPO,在 Vicuna 任务中优势显著。具体胜率分别为:GRPO 40.9%、LSP-Zero 40.0%、LSP 43.1%。灰色实线表示基础模型自身的胜率

此外,研究团队还做了另一组实验:先使用GRPO训练模型,再以该模型为初始模型,用LSP继续训练。结果显示,LSP能在已有基础上进一步提升性能。LSP对Llama-3.2-3B-Instruct的整体胜率从40.9%提升至43.1%。在 Vicuna模型中,LSP-Zero将GRPO的胜率从28.7%提升至36.3%,LSP甚至进一步达到了46.3%。


不过,LSP方法也存在不足:在以聊天机器人用户类型查询为主的Koala数据集中,LSP性能略逊于GRPO。研究团队分析,这是因为LSP生成的查询更偏向结构化、有序的风格,与Koala数据集的松散对话场景匹配度较低,未来工作仍需要优化查询生成的多样性。

无数据训练的新可能

LSP的提出,不仅解决了大模型训练的数据依赖难题,更从技术层面验证了「无数据训练」的可行性,为大模型未来发展带来多重价值。

例如,在训练成本方面,无需大规模收集、清洗、标注数据,大幅减少了数据获取环节的人力与资源投入;在数据稀缺的应用场景下,LSP可让模型在不依赖外部数据的情况下持续优化;而且,通过「自我博弈+自我奖励」机制,模型能够长期自主训练,实现自主进化。

研究团队相信,一旦AI实现「具身」,并能够收集自己的经验数据,这种自我博弈框架在扩展知识方面就有希望显现出巨大潜力。

参考资料:

本文转自学术头条,若二次转载请联系原作者

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
刘备巡视兵营,见一将士深夜擦拭兵器:此人不可重用,速遣离营

刘备巡视兵营,见一将士深夜擦拭兵器:此人不可重用,速遣离营

荔枝人物记
2025-11-11 17:14:20
20岁在俄罗斯圣彼得堡失联女留学生确认已离世,其父发声:案件正在办理,具体细节不便透露

20岁在俄罗斯圣彼得堡失联女留学生确认已离世,其父发声:案件正在办理,具体细节不便透露

极目新闻
2025-11-12 13:28:55
7.2万股民哭晕:“可控核聚变”大牛股,跌懵了!

7.2万股民哭晕:“可控核聚变”大牛股,跌懵了!

看财经show
2025-11-12 16:48:43
抛开杨瀚森,让我告诉你开拓者这个队到底有多烂

抛开杨瀚森,让我告诉你开拓者这个队到底有多烂

史虇的生活科普
2025-11-11 23:33:18
黑龙江肇东两挂车相撞起火,消防称驾驶室都烧没了,一名司机烧伤住院

黑龙江肇东两挂车相撞起火,消防称驾驶室都烧没了,一名司机烧伤住院

大风新闻
2025-11-12 18:28:03
貌合神离!55岁钟丽缇胖到认不出,骑行李箱近200斤,张伦硕全程黑脸

貌合神离!55岁钟丽缇胖到认不出,骑行李箱近200斤,张伦硕全程黑脸

扒星人
2025-10-24 16:11:13
何为籍,何为贯?“籍贯”是什么地方?看完下次可别再填错了!

何为籍,何为贯?“籍贯”是什么地方?看完下次可别再填错了!

长风文史
2025-11-12 14:24:59
连爆2大行业瓜!大花回应只字不提影帝,阔太倒油导演,都不装了

连爆2大行业瓜!大花回应只字不提影帝,阔太倒油导演,都不装了

石场阿鑫
2025-11-13 01:30:34
为何金庸故事渐渐失去市场?本质是“伪君子”意淫,市场下沉后已无需道德面纱

为何金庸故事渐渐失去市场?本质是“伪君子”意淫,市场下沉后已无需道德面纱

齐天候
2025-10-26 12:23:02
意外!徐杰落选新一期国家队名单,全运决赛砍18+7+9获全场最佳

意外!徐杰落选新一期国家队名单,全运决赛砍18+7+9获全场最佳

林小湜体育频道
2025-11-13 03:41:37
快船17分逆转遭5连败,哈登空砍三双,看清3个事实

快船17分逆转遭5连败,哈登空砍三双,看清3个事实

悦君兮君不知
2025-11-13 02:08:56
“续面事件”老板致歉,称将闭店、销号、给当事人赔礼道歉,面馆是5年心血、全部身家,回应被说“卖惨”:我本来就很惨

“续面事件”老板致歉,称将闭店、销号、给当事人赔礼道歉,面馆是5年心血、全部身家,回应被说“卖惨”:我本来就很惨

极目新闻
2025-09-24 18:15:28
女生穿成这样去健身房,真的合适吗??

女生穿成这样去健身房,真的合适吗??

健身厨屋
2025-10-20 12:22:34
大爷大妈尝试同居,24天后分手,大爷:她每次上厕所至少3小时!

大爷大妈尝试同居,24天后分手,大爷:她每次上厕所至少3小时!

游戏收藏指南
2025-11-10 05:20:46
利马面临曼联生涯最大挑战!若再伤阿莫林不得不引援,但人选难觅

利马面临曼联生涯最大挑战!若再伤阿莫林不得不引援,但人选难觅

罗米的曼联博客
2025-11-13 07:20:56
最新!美媒爆出猛料

最新!美媒爆出猛料

环球时报国际
2025-11-12 00:06:39
安切洛蒂:皇马到目前为止成绩出色,还能怎么要求阿隆索呢?

安切洛蒂:皇马到目前为止成绩出色,还能怎么要求阿隆索呢?

懂球帝
2025-11-12 21:43:22
我在广州退休后,在苏州定居的真实感受,全是实话

我在广州退休后,在苏州定居的真实感受,全是实话

小虎新车推荐员
2025-11-09 01:44:28
天呐!巩俐这身材太惊艳了,胸围几乎到肚脐,状态却依旧十分亮眼

天呐!巩俐这身材太惊艳了,胸围几乎到肚脐,状态却依旧十分亮眼

TVB的四小花
2025-10-22 02:25:03
近代日本学者的中国观:唯利是图、气质文弱、善于虚言、民风败坏

近代日本学者的中国观:唯利是图、气质文弱、善于虚言、民风败坏

沈言论
2025-11-10 18:40:03
2025-11-13 07:40:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13852文章数 66245关注度
往期回顾 全部

科技要闻

月之暗面“内涵”奥特曼:钱不知道怎么烧的

头条要闻

邱毅:感觉两岸统一的脚步越来越近了

头条要闻

邱毅:感觉两岸统一的脚步越来越近了

体育要闻

消磨你上千小时的足球游戏,走过第20年

娱乐要闻

再王珞丹和白百何 明白两人"差别"在哪

财经要闻

段永平完整访谈:聊企业经营 投资理念

汽车要闻

7座皆独立座椅/新增5座版 体验第三代吉利豪越L

态度原创

家居
教育
旅游
房产
军事航空

家居要闻

情感之所 生活教会设计

教育要闻

二次函数与韦达定理,一个视频学会!

旅游要闻

嶂石岩景区荣膺“世界旅游名山”称号

房产要闻

海垦城建·鹿城壹号品牌发布会暨美学示范区璀璨启幕

军事要闻

美媒爆出猛料 "北溪"破坏行动由扎卢日内指挥

无障碍浏览 进入关怀版