网易首页 > 网易号 > 正文 申请入驻

Meta超级智能实验室新论文陷争议!被指忽略大量前人研究

0
分享至

henry 发自 凹非寺
量子位 | 公众号 QbitAI

Meta超级智能实验室(MSL)又被送上争议的风口浪尖了。

不过,这次不是人事风波,而是他们的第二篇论文《Language Self-Play For Data-Free Training》被质疑忽视前人研究、缺乏创新



究竟是啥论文?

让模型在博弈中学习

总的来说,MSL这篇新论文的核心思想是通过一种Language Self-Play(LSP)的方法,让大型语言模型在没有额外训练数据的情况下实现自我提升

这一方法旨在应对当前大语言模型高度依赖大规模、高质量训练数据,且训练数据有限所带来的困境。

为此,LSP将模型的学习过程设计成一个博弈框架,让同一个语言模型扮演两个角色进行对抗,从而实现无数据训练。



具体来说,这两个角色分别是:

  • 挑战者:负责生成越来越有挑战性的问题或指令。
  • 解决者:负责回答或执行这些指令。

在对抗过程中,挑战者不断生成越来越刁钻的问题或指令,以降低解决者的预期回报;而解决者则必须努力理解并回答这些指令,以最大化自身回报——这其实就是我们熟悉的极小极大博弈(minimax game)。



通过这样的对抗训练,模型能够在不断博弈中持续改进,逐步提升能力。

此外,与传统对抗训练不同,LSP让单个语言模型同时扮演“挑战者”和“解决者”两个角色,研究人员给模型设计了一个特殊的“挑战者提示”(Challenger Prompt):当接收到该提示时,模型进入挑战者模式,生成难题;否则,它就扮演解决者角色,回答问题。

这种单一模型的设计避免了训练独立对抗模型所带来的额外开销和不稳定性。整个过程完全自主,模型在自我对抗中不断迭代,从而在没有外部数据输入的情况下提升自身能力

为了将这个博弈转化成模型强化学习的过程,研究中采用了GRPO技巧,让模型在每轮训练中进行如下操作:

  • 挑战者生成问题:每轮生成N个问题。
  • 解决者回答问题:对于每个问题,解决者生成一定数量的答案,并分别计算奖励。
  • 计算组价值与优势:把解决者对同一个问题的所有答案的奖励进行平均,得到这个问题整体的难度或表现水平。然后用每个答案的实际奖励减去组价值,判断这个答案比平均水平高还是低。 - 更新挑战者优势:通过计算优势函数获得问题和答案的反馈,优化自己出题的策略。



通过这种奖励机制,挑战者生成的问题会针对解决者的薄弱环节,从而推动模型不断改进。

研究将这一方法称为Language Self-Play Zero(LSP-Zero),其中 Zero 表示零和。

此外,在实践中,研究者发现LSP-Zero有时会退化,例如模型为了获取奖励而生成无意义但能获得高分的内容(即奖励 hacking)。

针对解决这个问题,他们在LSP算法中引入了“自我质量奖励”(RQ),引导博弈朝高质量交互发展,使训练可长期进行。

(注:LSP的具体算法如下表)



最后,为了验证LSP算法的有效性,研究者使用Llama-3.2-3B-Instruct模型在Alpaca Eval基准上进行了两组实验。

实验一将算法与基础模型本身以及一个通过传统强化学习微调的大语言模型进行比较。

实验结果显示,没有使用任何数据的LSP和LSP-Zero和使用了数据的GRPO相当,并且显著优于原始模型。而在 Vicuna这类对话型和开放式指令的数据集上,LSP 的表现远超GRPO。



实验二以实验一中通过数据驱动 RL(GRPO)训练得到的模型为起点,进一步使用 LSP-Zero 和 LSP 进行训练,计算这些模型相对于Llama-3.2-3B-Instruct的胜率,并与初始的 RL 模型进行对比。

实验显示,经过LSP的进一步训练后,模型的整体胜率从40.9%显著提升到了43.1%。

同样的,LSP在Vicuna数据集上的提升尤为明显。这表明 LSP 可以作为一种有效的方法,在数据驱动的训练之后继续挖掘模型潜力。



总的来说,实验结果表明,LSP-Zero和LSP算法能够在无需训练数据的情况下提升预训练LLM的性能,尤其是在对话类任务上表现显著,而这可能意味着AI正在从依赖人类数据过渡到自主学习系统。

网友:感觉忽略了大量前人研究?

虽然(……)但是,LSP一经发布后,在网友们这倒是出了些小插曲。

一位推特网友直言:LSP自称是突破性工作,但实际上忽视了大量前人研究,还顺带翻了一些旧账。

  • 抱歉了,Meta“超级智能”实验室,但 @_AndrewZhao 等人的工作做得更好,而你们却没有引用。其实很多人都做过类似研究(比如 @Benjamin_eecs),无论是联合最大化还是极小极大,不管是验证器还是奖励模型。为什么要把这说成是突破呢?你们在Vicuna上的评测确实做得不错,简直是2023年LLaMA社区的典型操作。



而且,就连失败的模型也大同小异。



评论区有网友表示这可能是一篇老工作,然后拿到MSL发的:



(注:网友提及的论文如下:
[1]Absolute Zero: Reinforced Self-play Reasoning with Zero Data
[2]SPIRAL: Self-Play on Zero-Sum Games Incentivizes Reasoning via Multi-Agent Multi-Turn Reinforcement Learning
[3]Scalable Reinforcement Post-Training Beyond Static Human Prompts)

截至目前,MSL及论文作者尚未对此作出回应。

[1]https://x.com/teortaxesTex/status/1965654111069876296

[2]https://x.com/_akhaliq/status/1965601392187638018

[3]https://x.com/tydsh/status/1965856666580361705

[4]https://arxiv.org/pdf/2404.10642

[5]https://arxiv.org/pdf/2411.00062

[6]https://arxiv.org/pdf/2505.03335

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
西贝公关又翻车了!发布的致歉信偷偷骂顾客,还被网友批改出20多处错误

西贝公关又翻车了!发布的致歉信偷偷骂顾客,还被网友批改出20多处错误

可达鸭面面观
2025-09-15 18:50:51
武汉男子因使用翻墙软件浏览境外网站  被警方行政处罚

武汉男子因使用翻墙软件浏览境外网站 被警方行政处罚

互联网大观
2025-09-15 10:31:34
中方深夜通报全世界,中美马德里谈判传出重磅消息!

中方深夜通报全世界,中美马德里谈判传出重磅消息!

头条爆料007
2025-09-16 05:48:24
横行霸道3年,臭名昭著的杜大妈落网后,天津人的噩梦终于结束

横行霸道3年,臭名昭著的杜大妈落网后,天津人的噩梦终于结束

云舟史策
2025-09-16 07:45:27
罗永浩20年前简历曝光!吊打当下90%应届生...

罗永浩20年前简历曝光!吊打当下90%应届生...

实习僧
2025-09-15 13:47:07
巴萨旧将乌姆蒂蒂宣布退役:是时候说再见了

巴萨旧将乌姆蒂蒂宣布退役:是时候说再见了

体坛周报
2025-09-16 00:27:19
第14次!杜普兰蒂斯毫无悬念夺金,6米30再破撑竿跳世界纪录

第14次!杜普兰蒂斯毫无悬念夺金,6米30再破撑竿跳世界纪录

直播吧
2025-09-15 21:59:33
皇马1.7亿欧巨星暴怒:4轮0次踢满全场 龙哥命他每场至少跑1万步

皇马1.7亿欧巨星暴怒:4轮0次踢满全场 龙哥命他每场至少跑1万步

风过乡
2025-09-15 21:10:25
15:0!全票通过,中俄美三国罕见一致,对以色列的惩罚,到此为止

15:0!全票通过,中俄美三国罕见一致,对以色列的惩罚,到此为止

通文知史
2025-09-15 10:30:07
谷歌靠Nano Banana超越ChatGPT!登顶苹果App Store第一,玩疯了

谷歌靠Nano Banana超越ChatGPT!登顶苹果App Store第一,玩疯了

量子位
2025-09-15 15:36:13
7条中欧班列,全都要经过波兰?19架来历不明的无人机闯大祸了

7条中欧班列,全都要经过波兰?19架来历不明的无人机闯大祸了

历史摆渡
2025-09-15 12:50:03
网友喊话西贝进上海校园,上海网友:我儿子屎都能吃,都觉得午饭难吃

网友喊话西贝进上海校园,上海网友:我儿子屎都能吃,都觉得午饭难吃

可达鸭面面观
2025-09-15 13:00:40
深圳一市民捡到2267.83克巨型金条

深圳一市民捡到2267.83克巨型金条

深圳晚报
2025-09-15 19:38:21
西贝事件再升级!袋装食品曝光,于东来下场,西贝后续操作惹争议

西贝事件再升级!袋装食品曝光,于东来下场,西贝后续操作惹争议

以茶带书
2025-09-13 14:36:58
刚刚,罗永浩决定放弃,并否认受到威胁!多家西贝门店称已收到调整通知,罗永浩称华与华老板已道歉

刚刚,罗永浩决定放弃,并否认受到威胁!多家西贝门店称已收到调整通知,罗永浩称华与华老板已道歉

每日经济新闻
2025-09-15 20:24:45
被人民日报捧上“神坛”的于东来,因力挺西贝,才3天就跌下神坛

被人民日报捧上“神坛”的于东来,因力挺西贝,才3天就跌下神坛

花心电影
2025-09-16 08:28:12
涉毒艺人苏永康将在温州办演唱会,有网友投诉,官方:报批资料合规,暂无不举办的通知

涉毒艺人苏永康将在温州办演唱会,有网友投诉,官方:报批资料合规,暂无不举办的通知

极目新闻
2025-09-15 17:38:42
劝阻工友回家奔丧、逼肺癌同事加班:这哪是劳模,是活阎王

劝阻工友回家奔丧、逼肺癌同事加班:这哪是劳模,是活阎王

常识传播局
2025-09-15 10:33:44
华与华兄弟:卖符号和词语二十年

华与华兄弟:卖符号和词语二十年

晚点LatePost
2025-09-15 20:42:05
江西一光棍娶个疯女人生了8个娃,妻子清醒后十辆豪车开到家门口

江西一光棍娶个疯女人生了8个娃,妻子清醒后十辆豪车开到家门口

夜阑故事集
2025-09-09 17:50:04
2025-09-16 11:47:00
量子位 incentive-icons
量子位
追踪人工智能动态
11323文章数 176272关注度
往期回顾 全部

科技要闻

中国将依法依规开展TikTok技术出口审批

头条要闻

韩海警救中国男子殉职存在"指挥失误" 李在明下令严查

头条要闻

韩海警救中国男子殉职存在"指挥失误" 李在明下令严查

体育要闻

乌姆蒂蒂,为世界杯冠军赔上职业生涯

娱乐要闻

宋祖英事业巅峰隐退?李谷一道破原因

财经要闻

华与华秒怂 罗永浩称已接到对方道歉

汽车要闻

优质智能体验/1.5T增程 别克至境L7正式亮相

态度原创

家居
房产
亲子
本地
公开课

家居要闻

典雅大气 舒适中带童趣

房产要闻

当海口书包房卷向「未来」,这里的孩子和房价,都在高速超车!

亲子要闻

# 二年级# 365天日记积累 每天练一篇#时光学作文 # 时光学金句

本地新闻

云游忻州 | 慢时光!老街逛吃,烟火气超上头~

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版