网易首页 > 网易号 > 正文 申请入驻

与人类偏好对齐,Deepmind联合芝加哥大学提出开放式RLHF框架eva

0
分享至

大语言模型(Large Language Model,LLM)能自己对自己进行优化,与人类的偏好进行对齐吗?

此前,LLM 对齐的主流方法还是通过人类反馈强化学习(Reinforcement Learning from Human Feedback,RLHF)对模型进行微调,但这种方法通常依赖于静态的人工提示分布。随着语言模型的能力不断增强,单纯依赖人工生成的提示数据已经难以满足其自我进化的需求。

这是因为,固定的数据集限制了模型在处理新任务时的适应能力,致使模型在面对新的或复杂的任务时可能表现不佳。并且,人工提示的生成过程费时费力,并且部分提示的有效性较低,导致模型在训练过程中可能会浪费大量资源在无效的提示上,造成计算资源和时间的浪费。

因此,如何更高效地生成和利用提示,成为了提升 RLHF 效率和扩展性的关键。

今年五月,曾提出仅靠自我博弈就能提升大模型性能的微调方法 SPIN (Self-Play Fine-Tuning) 的顾全全教授团队,利用自我博弈的方法,又开发了一种名为自我博弈偏好优化(Self-Play Preference Optimization, SPPO)的对齐技术,使得大模型得以通过左右互搏提高了自身与人类偏好的对齐度 [1]。

然而,由于 SPPO 主要依靠已有偏好数据进行优化,导致泛化能力不足;其对称博弈机制容易让模型陷入局部最优,对模型表现力的依赖也限制了对齐效果。这些问题共同制约了 SPPO 在更复杂任务和广泛应用场景中的实际表现。

于是,为实现更有效的模型对齐,来自 Google DeepMind 和芝加哥大学的研究团队提出了一种称为"Evolving Alignment via Asymmetric Self-Play"(eva)的新型开放式 RLHF 框架,对上述局限进行了改进。

相关论文以《通过非对称自我游戏不断调整偏好——超越人类静态提示的可扩展微调技术》(Evolving Alignment via Asymmetric——Self-Play Scalable Preference Fine-Tuning Beyond Static Human Prompts)为题发表在预印本网站arXiv上 [2]。

芝加哥大学博士生 Ziyu Ye 是第一作者,Deepmind 研究员 Yuan Liu 是通讯作者。

eva 框架的核心思想是将语言模型的对齐过程转化为两个角色之间的不对称博弈(asymmetric self-play),即“生成器”(Creator)和“求解器”(Solver)之间的相互作用。

传统的自训练通常仅在固定的提示集(X)上优化响应生成(Y),即在给定的提示下产生更优质的响应。而 eva 在优化过程中会同时考虑提示生成(Y)和响应生成(Y)两个方面。也就是说,不仅优化模型对固定提示的响应生成能力,还动态调整提示的生成分布,使得模型能够应对更广泛的任务。

在 eva 的框架中,生成器的职责是生成新的提示,以推动模型学习的不断进化。具体而言,生成器通过“估计、采样和进化”这三个步骤来优化提示集:首先,它对每个提示的信息量进行估计,基于模型在某个提示下的最优回答和最差回答的得分差距来确定提示的学习潜力。

接着,生成器会根据这个信息量对提示进行加权采样,选择出更具学习价值的提示子集。

最后,生成器对采样得到的提示进行演化,生成新的、更加复杂或具有更多约束的提示,使得模型在这些新的提示下能够面对更加具有挑战性的任务。

与生成器相对,求解器的职责则是根据生成器生成的提示,学习如何生成更符合人类偏好的回答并优化其生成策略。

求解器在博弈中的角色是通过使用 RLHF 或者其他偏好优化算法(如 DPO 或 SPPO)来不断改进其回答的质量。在每个博弈回合中,生成器生成新的提示,求解器对这些提示进行响应,通过生成多个回答并对其进行奖励评分,从而逐渐学习如何在新提示下生成更优质的回答。

这种博弈过程本质上是一种通过最小化和最大化“后悔值”的方式来达到动态平衡的自我博弈。求解器的目标是尽可能减少生成不佳回答的机会,即最小化后悔值,使得它的回答能够最大程度接近最优。

而生成器的目标则是不断生成更具挑战性和信息量更高的提示,以确保求解器在面对这些提示时不断进步。这种提示生成策略通过奖励信号对比来优化,即通过寻找那些让模型在回答质量上存在显著差距的提示,来激发求解器的学习潜力。

这种博弈类似于对抗学习,但由于生成器和求解器承担着不同的角色和目标,它是一种非对称博弈。在这种机制下,生成器通过不断进化的提示来激发求解器的学习潜力,推动模型在更广泛和复杂的任务中实现自我优化。

实验结果显示,eva 显著提升了模型在多个基准测试上的表现,且在不同的偏好优化算法(如 DPO、SPPO、SimPO 和 ORPO)中均表现出色。例如,在更难的 Arena-Hard 测试中,eva 将采用 SimPO 算法作为求解器的模型胜率从 52.3% 提升至 60.7%,表现甚至超过了接受过额外的人类新提示训练的模型,同时成本更低,效率更高。

值得一提的是,研究团队还对 eva 的持续训练能力进行了验证。在连续多次的增量训练中,eva 展现出持续的性能提升,且在训练过程中其表现超过了直接使用人类新提示的数据进行训练的基线模型。这表明,eva 不仅能够更高效地利用训练数据,还能够不断从演化的提示中获得新的学习机会,实现模型的持续优化。

总结来说,eva 定义了一种新的对齐范式,展示了自我进化在模型对齐中的潜力,并为未来智能体的持续优化提供了新思路。如扩展生成器策略、增加迭代次数、探索自动化对齐以及扩展到推理任务等。此外,探索其他数学指标(如 Fisher 信息)以获得理论上的对齐保证,以及使用更多数据来扩展模型能力,也是值得探索的方向之一。

这篇论文的合作者之一是谷歌大脑研究科学家 Quoc V. Le,他是自然语言处理领域的 doc2vec 和 Seq2Seq 模型模型的共同发明人之一,还发起并领导了谷歌大脑的 AutoML 计划,曾入选 2014 年度《麻省理工科技评论》“35 岁以下 35 名全球科技创新者”。

参考资料:

1.https://arxiv.org/abs/2405.00675

2.https://arxiv.org/abs/2411.00062

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
女子违停竖中指挑衅被撞:正脸被扒已社死,内情流出,司机疑发声

女子违停竖中指挑衅被撞:正脸被扒已社死,内情流出,司机疑发声

社会日日鲜
2026-01-22 00:48:44
向华强曝李亚鹏曾在香港办派对为嫣然天使基金筹款:自己捐了几百万,王菲、刘嘉玲等众星捧场

向华强曝李亚鹏曾在香港办派对为嫣然天使基金筹款:自己捐了几百万,王菲、刘嘉玲等众星捧场

扬子晚报
2026-01-22 21:34:18
特朗普的达沃斯“暴论”看似疯魔,实则藏着清晰的战略意图,千万不可小视!

特朗普的达沃斯“暴论”看似疯魔,实则藏着清晰的战略意图,千万不可小视!

识局Insight
2026-01-22 19:57:22
特朗普为何急转弯?承诺不对格陵兰动武,撤回对欧洲八国关税威胁

特朗普为何急转弯?承诺不对格陵兰动武,撤回对欧洲八国关税威胁

40度观察
2026-01-22 17:51:42
曼联官方:卡塞米罗将在本赛季结束后以自由球员身份离队

曼联官方:卡塞米罗将在本赛季结束后以自由球员身份离队

懂球帝
2026-01-23 01:06:12
丹麦首相:北约秘书长无权代表丹麦谈判

丹麦首相:北约秘书长无权代表丹麦谈判

财联社
2026-01-22 20:18:07
李亚鹏曝明星捐赠:邓超胡军百万,杨恭如千万,王菲超三千万

李亚鹏曝明星捐赠:邓超胡军百万,杨恭如千万,王菲超三千万

最美的巧合
2026-01-22 17:53:34
法媒:历史天平再次向中国倾斜

法媒:历史天平再次向中国倾斜

参考消息
2026-01-21 14:13:48
他就是个下棋的,却被你们当了一辈子鸡血

他就是个下棋的,却被你们当了一辈子鸡血

下岗女神
2026-01-22 17:29:32
央视确认!3家中超争冠队欲签李昊,欧洲队也在关注,身价2000万

央视确认!3家中超争冠队欲签李昊,欧洲队也在关注,身价2000万

我爱英超
2026-01-22 19:24:27
央视曝光毒红薯!商户主动投毒,流窜至全国多地,背后利益链曝光

央视曝光毒红薯!商户主动投毒,流窜至全国多地,背后利益链曝光

阿纂看事
2026-01-22 11:14:33
30元都没人收?马钞“通货”遭集体抛弃,币商这次彻底“不玩了”

30元都没人收?马钞“通货”遭集体抛弃,币商这次彻底“不玩了”

老孟谈钱
2026-01-22 12:05:05
今年多名厅官主动投案!首个投案的是任职8年的州长

今年多名厅官主动投案!首个投案的是任职8年的州长

上观新闻
2026-01-22 14:27:07
女子违停竖中指被撞后续!正脸曝光全网社死,司机发声,警方介入

女子违停竖中指被撞后续!正脸曝光全网社死,司机发声,警方介入

离离言几许
2026-01-22 11:52:29
比亚迪起诉博主“大秦军陕团”一案一审判决:博主被判赔偿201万元;曾编造“方程豹‘豹5’百公里油耗18升”

比亚迪起诉博主“大秦军陕团”一案一审判决:博主被判赔偿201万元;曾编造“方程豹‘豹5’百公里油耗18升”

大风新闻
2026-01-22 15:47:16
U23亚洲杯23日赛程:诞生季军!中国队赛前获喜讯,1-0日本=夺冠

U23亚洲杯23日赛程:诞生季军!中国队赛前获喜讯,1-0日本=夺冠

侃球熊弟
2026-01-23 00:18:00
从“国民妈妈”到1.2亿罚单:闫学晶为何一夜崩盘?

从“国民妈妈”到1.2亿罚单:闫学晶为何一夜崩盘?

社会日日鲜
2026-01-22 12:46:27
载有中国游客的旅游大巴在俄发生事故

载有中国游客的旅游大巴在俄发生事故

新华社
2026-01-22 18:23:37
牢A讲得好:为什么陪读母女一定会被猎艳,是100%,没有例外

牢A讲得好:为什么陪读母女一定会被猎艳,是100%,没有例外

红色少女主播
2026-01-22 17:06:13
俄罗斯发动大规模空袭,导弹中途居然还会转向,基辅一半地区停电

俄罗斯发动大规模空袭,导弹中途居然还会转向,基辅一半地区停电

碳基生物关怀组织
2026-01-20 19:48:05
2026-01-23 02:23:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16165文章数 514519关注度
往期回顾 全部

科技要闻

几千亿只是开胃菜,AI基建还得再砸几万亿

头条要闻

“和平委员会”签约国家名单公布 西欧国家无一参加

头条要闻

“和平委员会”签约国家名单公布 西欧国家无一参加

体育要闻

跑个步而已,他们在燃什么?

娱乐要闻

车银优赚800亿 涉嫌逃税200亿!

财经要闻

西贝拿到“救命钱”,然后呢

汽车要闻

配备多块娱乐屏 极氪8X内饰曝光

态度原创

时尚
旅游
本地
数码
军事航空

这些才是最日常的冬季穿搭!不露腿、不扮嫩,简约舒适又保暖

旅游要闻

广货行天下!从一粒米到一桌年味,广东文旅的“带货”新玩法

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

数码要闻

2026款华硕a豆14 Air笔记本发布,6999元起

军事要闻

普京:愿意向"和平委员会"提供10亿美元

无障碍浏览 进入关怀版