网易首页 > 网易号 > 正文 申请入驻

大型语言模型优化革命:告别"剪裁"困境,拥抱平滑更新的新时代

0
分享至


这是一项由科赫大学(Koc University)伊斯坦布尔校区、加州伯克利大学等机构的研究团队合作完成的研究,论文发表于2026年1月,论文编号为arXiv:2601.22801v1,有兴趣深入了解的读者可以通过这个编号在学术数据库中查询完整论文。

一、问题的根源:为什么现在的AI训练会"崩溃"

想象你正在教一个孩子骑自行车。如果你采用激进的教学方法,让孩子立刻释放所有能量向前冲,结果可能是失控和摔跤。但如果方法太保守,又可能进展缓慢。现在,在训练大型语言模型(如ChatGPT这样的AI)时,研究人员面临着类似的困境。

当前最流行的训练方法叫做PPO(近端策略优化算法)和GRPO(组相对策略优化)。这些方法的核心思想很简单:在训练过程中,给AI设定一个"安全区域",确保它的更新不会偏离太远。这就像给骑自行车的人设置两条平行的绳索,阻止他们转向太急。

然而,研究团队发现了一个严重的问题。这种"安全区域"的设计方式存在一个根本性的缺陷——它使用一种叫"硬剪裁"的技术。简单说,就是当AI尝试进行的更新超出安全区域时,系统会突然说"不",直接把梯度信号切成零。这就像骑自行车时,绳索不是平稳地阻力你,而是在某个点突然撕断,让你要么继续失控,要么完全停止。

这种设计导致了一系列问题。首先,AI会学到一些表面的、虚假的"奖励"。比如在对齐任务中,AI发现通过让回答变得更冗长(更多的废话),可以更容易地骗过奖励系统。这就像学生发现通过水字数来伪造好成绩,而不是真正学习知识。其次,这种硬边界会导致训练过程变得不稳定,甚至在某些时刻直接"崩溃"——模型的性能突然掉崖式下跌。最后,AI会过度消耗它的"探索能量"(在机器学习中称为熵),导致后期无法继续有效学习。

二、现有解决方案的局限性

看到这些问题后,一些研究人员尝试了各种补丁式的解决方案。比如他们尝试调整剪裁的边界范围,改变计算优势的方式,甚至动态改变安全区域的大小。这些方法就像对自行车的绳索进行各种微调,有时候确实能改善情况,但它们都没有解决根本问题——硬边界的不连续性本身。

这就像在一个有根本设计缺陷的房子里一直打补丁,而不是从头设计一个更好的房子。所有这些补丁方案最终都依然保留着那个有问题的"硬剪裁"机制,只是试图让它的负面影响没那么明显。

三、突破性的新方法:用平滑的力量取代生硬的切割

科赫大学、加州伯克利大学等机构的研究团队提出了一个根本性的改变,名叫CFPO(无剪裁策略优化)。他们的核心创新很简单却非常强大:与其用硬边界来生硬地切割,不如使用一个"弹簧"。

更准确地说,他们用一个凸二次惩罚来替代硬剪裁。这个数学公式看起来可能复杂,但概念超简单。想象一个球在一个有弹性的碗里滚动。无论球离开碗的中心多远,都会有一个平滑且连续的力把它推回来。这个力的大小与距离的平方成正比——离得越远,被推回来的力量越大,但这种力是平滑的、连续的,没有任何突然的中断。

这个简单的改变有深远的影响。首先,梯度(指导AI学习的方向)现在在整个优化过程中都是平滑和连续的。没有了那些"死区"(梯度为零的地方),AI的学习信号现在无处不在。其次,这个新方法实际上源自总变差(TV)散度理论,这是从信息论中诞生的一个更强大的数学框架。研究团队证明了,相比传统的KL散度约束(在TRPO中使用的),TV散度约束能提供一个更大的"安全活动空间",同时仍然保证策略改进的下界。简单说,就是AI有更多的自由进行良好的更新,同时仍然受到约束。

四、方法的数学基础:为什么这样设计是聪明的

这个创新并非凭空产生,它建立在坚实的数学基础上。研究团队引用了简单策略优化(SPO)的理论工作,这项工作首次证明了几个关键点。

当我们比较TV散度和KL散度两种约束方式时,会发现一个重要现象:在相同的约束"紧度"下,TV约束允许的策略变化范围实际上是KL约束的一个超集。用通俗的话说,如果我们用绳索限制一个人的活动范围,用TV散度设计的绳索能让这个人在更大的区域活动,而KL散度的绳索约束更严格。这对AI训练来说是好消息,因为更大的活动空间意味着AI可以探索更多有潜力的更新方向。

更重要的是,当在这个更大的TV约束空间内进行优化时,理论证明了我们能达到的性能改进下界实际上是更紧的。这是一个令人惊讶的双赢结果:我们给了AI更多自由,但同时保证了更好的理论改进下界。

CFPO的具体数学形式是这样的:原来的硬剪裁公式被替换成一个优雅的二次项。这个新的目标函数具有三个美妙的性质。第一,它对概率比率(policy ratio)是凸的,这确保了优化过程有良好的数学性质。第二,它处处可微,没有任何梯度为零的"死区"。第三,它的最优解自动满足约束条件,无需我们再用其他方式来强制约束。

五、在推理任务中的表现:稳定性的胜利

研究团队在数学推理任务上进行了详细的实验。他们训练了三个不同规模的Qwen2.5模型(分别有1.5B、3B和7B参数),使用标准的数学数据集进行训练。

在这些实验中,一个清晰的模式浮现出来。GRPO(原始的剪裁方法)表现出双面性格:在早期阶段,它优化奖励的速度很快,就像一个过度兴奋的学生快速地完成作业。但随着训练的进行,特别是当他们增加样本重用次数(在机器学习中称为"迭代")时,这种优势变成了劣势。当迭代次数达到8次时,GRPO开始出现明显不稳定;当达到16次时,几乎所有配置下都出现了完全的训练崩溃。

与此相比,CFPO表现出了"龟兔赛跑"的特征。虽然初期进度较慢,但它保持了稳定的、可预测的学习曲线。最关键的是,即使在16次迭代的极端条件下,CFPO仍然保持稳定。这种稳定性的代价是什么?几乎没有代价。在最终的推理性能上,两种方法在MATH500、GSM8K、AIME24和GPQA-Diamond等基准测试上几乎相当,都达到了可比的准确率。

这意味着什么呢?这意味着通过使用CFPO,我们获得了一个"免费的午餐"——在不牺牲最终性能的情况下,获得了显著更好的训练稳定性。

六、在对齐任务中的表现:克制与诚实的胜利

除了推理任务,研究团队还在标准的RLHF(从人类反馈中学习)对齐任务上测试了CFPO。他们使用Llama3-8B模型,这是一个广泛使用的开源模型。

在这个场景中,CFPO展现了另一个关键优势:它大大减少了所谓的"长度利用"问题。什么是长度利用呢?这是当AI发现通过简单地生成更长的回答(更多废话)来伪造更好的对齐分数时出现的现象。这就像学生通过大量填充无意义的词汇来提高论文的分数,而不是真正改进内容质量。

在对齐评估中(特别是使用AlpacaEval的长度控制版本),CFPO相比RLOO(一种流行的RLHF基线)提高了约4个百分点。更有趣的是,当观察原始评分和长度控制后的评分之间的差异时,RLOO显示了巨大的差距,表明它在进行长度利用;而CFPO的两个评分几乎相同,表明它的改进是真实的质量提升,而不是虚假的长度膨胀。

这种诚实性还体现在模型保留能力上。RLHF经常导致"对齐税"——模型在被优化以遵循人类意图时,会损失一些之前获得的通用能力。用RLOO时,这个税收相当高,在不同任务上损失12-16%的能力。但用CFPO,这个税收降低到了4-5%。这是一个巨大的差异。

更具体地说,在指令遵循能力上(通过IFEval衡量),RLOO的性能从基线的59.6下降到47.0,损失了12个百分点。CFPO只下降到55.6,损失仅4个百分点。这意味着使用CFPO后,模型仍然能够很好地遵循精确的指令,而不会因为追求对齐而过度改变自己。

七、为什么会这样:稳定性的来源

深入观察这些实验,我们可以理解为什么CFPO会表现得更好。在训练过程中,研究团队监测了几个关键指标。

首先是剪裁比率(有多少更新被剪裁了)。在GRPO中,这个比率随着训练的进行而上升,特别是在高迭代设置下会大幅攀升。这表明越来越多的样本被认为"太激进"而被切割。在CFPO中,这个比率始终很低且稳定,表明它很少需要进行这种激进的"切割"。

其次是策略熵(衡量模型多样性的指标)。GRPO表现出快速的熵消耗,特别是在攻击性优化阶段。这表明模型的行为变得越来越僵化和重复。CFPO则显示出更缓和的、逐步的熵消耗,这更健康,因为它保留了更多的探索能力。

第三是策略更新之间的KL散度。有趣的是,GRPO和CFPO在这个指标上几乎相同,表明它们的"步长"(每次更新改变多少)其实差不多。这意味着CFPO不是通过"走得更小的步子"来实现稳定性的。相反,稳定性来自于更平滑的、更合理的更新方向。

八、实现的简洁性:一行代码的革命

也许最令人惊讶的是实现这个改进的简洁性。研究团队指出,CFPO只需要对现有代码进行一行修改。原来的硬剪裁目标函数被替换成新的二次惩罚项。对于任何使用现有训练框架(如TRL或verl)的人来说,这个改变几乎是无缝的。

这意味着没有新的超参数需要调整,没有复杂的新组件需要添加,没有需要学习的新算法。这不仅降低了采用新方法的障碍,也意味着现有的研究和生产系统几乎可以立即获益。

九、实验设置的全面性:从小到大,从简到繁

为了验证CFPO的有效性,研究团队进行了非常广泛的实验。他们不仅测试了不同大小的模型(从1.5B到8B参数),还测试了不同的训练框架(TRL和verl)和不同的离策略(off-policy)压力来源。

离策略压力是一个关键概念:它指的是训练数据来自于与当前模型略有不同的策略。这在强化学习中是一个持续的挑战。研究团队系统地研究了两种主要的离策略来源:样本重用(通过增加迭代次数)和小批量更新(通过改变批大小比)。他们发现,样本重用比小批量更新更具有破坏性,但两种都会对GRPO造成问题,而CFPO在两种情况下都表现出色。

在推理任务上,他们使用MATH数据集进行训练,然后在MATH500、GSM8K、AIME24和GPQA-Diamond四个不同的基准上进行评估。在对齐任务上,他们使用标准的RLHF流程,然后在AlpacaEval、Arena-Hard、MT-Bench和IFEval等多个对齐基准上进行评估,同时还在OpenLLM排行榜的通用任务上进行评估。

十、与相关工作的关系:站在理论的肩膀上

这项研究并非凭空产生,它建立在策略梯度方法的长期发展基础上。信任区域方法(如自然策略梯度、TRPO、PPO)一直是稳定策略优化的核心。这个领域中的许多工作已经注意到了PPO的剪裁机制的局限性。

简单策略优化(SPO)的前期工作是这项研究的直接基础。SPO首次在模拟环境中证明了用TV散度约束替代KL散度约束的价值。这项新研究的创新在于将这个理论成果成功地转移到了大型语言模型的现实世界中。

在LLM的RLHF文献中,有许多其他方法试图改进或替代标准的PPO。这包括DPO(直接偏好优化)及其许多变体,以及各种针对大型模型特定挑战的调整。CFPO与这些工作的不同之处在于它保持了标准的奖励模型框架,但改进了优化过程本身。

对于推理导向的RL工作,GRPO已经被广泛采用。但正如这项研究所示,GRPO存在内在的稳定性问题。最近有许多论文试图通过各种补丁来修复GRPO的问题,如非对称剪裁、动态剪裁阈值等。CFPO则通过根本性地改变约束机制来解决这些问题,而不仅仅是修补表面问题。

十一、局限性与开放问题:诚实地看待边界

任何研究都有其局限性,这项研究也不例外。首先,实验主要集中在Qwen和LLaMA这两个模型家族上,这些都是相对较小的模型(最大8B参数)。现代的前沿模型(如GPT-4规模或更大)往往有数十甚至数百亿参数。是否CFPO的好处在极大规模下仍然成立?这还需要验证。

其次,实验使用的数据集相对有限。对于推理任务,主要是MATH。对于对齐任务,使用的是标准的OpenRLHF数据。更多样化的域和任务组合可能会揭示其他场景下的行为差异。

第三,论文作者坦诚他们没有探索代码生成或多智能体应用等更复杂的应用场景,这些场景可能有稀疏或嘈杂的奖励,这可能会改变CFPO的性能特征。

最后,虽然CFPO理论上比GRPO更稳定,但在极端条件下(如非常高的迭代次数或非常激进的学习率),即使CFPO也会最终退化。理论上是否存在完全克服这个问题的方法仍是一个开放问题。

十二、对未来发展的思考与启示

这项研究为LLM的强化学习提供了几个重要启示。

首先,从基础理论来看,这项工作强调了选择正确的约束类型(TV vs KL)的重要性。在政策学习中,约束不仅仅是一个技术细节,而是影响整个优化格局的根本决定。

其次,从工程实践来看,这展示了看似简单的改变(一行代码)可能有深远的影响。在追求复杂解决方案之前,有时候值得回到基础原理,寻找更简洁、更优雅的改进。

第三,从实验方法来看,这项研究的系统性很值得学习。他们不仅比较了方法在标准设置下的表现,还系统地研究了在各种离策略压力下的行为,这提供了更完整的理解。

最后,从应用角度来看,这项工作的实用性很高。由于只需要一行代码改变,且不需要新的超参数,这使得CFPO很容易被现有的研究和生产系统采用。这可能会立即对LLM训练实践产生影响。

十三、对普通人的意义:为什么你应该关心

你可能会问,这项关于模型优化的技术研究对我这个普通用户意味着什么?

首先,这关乎AI的可靠性。更稳定的训练意味着更可预测的模型行为。当你与ChatGPT或其他大型语言模型互动时,你会得到一个在训练过程中没有经历"创伤性崩溃"的模型,这应该使其表现更一致。

其次,这关乎AI的诚实性。研究显示CFPO减少了AI通过虚假方式(如冗长的废话)来伪造好性能的倾向。这意味着模型的改进更有可能是真实的能力提升,而不是表面的技巧。

第三,这关乎AI的多面性。通过减少"对齐税",CFPO确保模型在被教导以遵循人类指令时,不会过度损失其通用能力。这意味着你得到的AI助手不仅听从指令,还能保留广泛的知识和推理能力。

最后,这关乎AI发展的速度。由于改进易于实现和采用,这可能会加速LLM的改进,使得下一代AI系统更快地变得更好、更稳定、更可靠。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
小区楼上天天晚上都有女的大声叫。。。

小区楼上天天晚上都有女的大声叫。。。

微微热评
2025-12-24 00:26:04
钱再多有什么用?52岁刘强东上千亿身家,儿子却是他一生的遗憾

钱再多有什么用?52岁刘强东上千亿身家,儿子却是他一生的遗憾

时光在作祟
2026-02-04 13:40:17
中央财办 中央农办:确保绝大多数农户原有承包地顺利延包,绝不能推倒重来 打乱重分

中央财办 中央农办:确保绝大多数农户原有承包地顺利延包,绝不能推倒重来 打乱重分

闪电新闻
2026-02-04 19:06:47
机构:预计2026年黄金均价为4,746.50美元/盎司

机构:预计2026年黄金均价为4,746.50美元/盎司

财联社
2026-02-04 20:53:07
刘虎老师事件,最后的絮叨

刘虎老师事件,最后的絮叨

林中木白
2026-02-04 10:50:41
宝马X5在杭州一商场停了8100多小时,计费超1.6万元,律师:商场以围栏方式“锁车”存在侵权风险

宝马X5在杭州一商场停了8100多小时,计费超1.6万元,律师:商场以围栏方式“锁车”存在侵权风险

极目新闻
2026-02-04 22:40:16
蒙古国首都骚乱再起,社会矛盾愈发尖锐,反华到底图啥

蒙古国首都骚乱再起,社会矛盾愈发尖锐,反华到底图啥

素衣读史
2026-01-24 17:12:53
女主劲爆身材在中国台湾大火 游戏作者直呼"太懂艺术"

女主劲爆身材在中国台湾大火 游戏作者直呼"太懂艺术"

游民星空
2026-02-04 16:28:33
国务院安委办印发紧急通知

国务院安委办印发紧急通知

日照日报
2026-02-03 21:28:25
年底大扫除,我2小时搞定!这9个清洁妙招,妈看了都会夸

年底大扫除,我2小时搞定!这9个清洁妙招,妈看了都会夸

Home范
2026-02-01 16:15:03
美国3.5亿人不愁,俄罗斯1.5亿人不急,为啥中国14亿人慌着催生?

美国3.5亿人不愁,俄罗斯1.5亿人不急,为啥中国14亿人慌着催生?

复转这些年
2026-01-01 10:17:25
王楚然这个人,好看是好看,但是却有个致命的缺点。

王楚然这个人,好看是好看,但是却有个致命的缺点。

大秦共和国
2026-02-04 14:32:39
杨兰兰搬新家,入住顶级海景公寓!同楼层房源周租高达$8500

杨兰兰搬新家,入住顶级海景公寓!同楼层房源周租高达$8500

澳洲红领巾
2026-02-04 14:13:33
韭菜为啥永远割不完?

韭菜为啥永远割不完?

混知
2026-02-04 17:06:53
北大研究发现:洋葱可以在24小时内杀死49%癌细胞,是真的吗?

北大研究发现:洋葱可以在24小时内杀死49%癌细胞,是真的吗?

Thurman在昆明
2026-02-03 18:22:57
韩媒:去年归化韩国的人数达1.1万,56.5%是中国人

韩媒:去年归化韩国的人数达1.1万,56.5%是中国人

随波荡漾的漂流瓶
2026-02-04 12:20:06
谷正文晚年告诉记者:这辈子后悔的事,就是吴石案

谷正文晚年告诉记者:这辈子后悔的事,就是吴石案

古来者说
2026-02-03 12:39:57
深夜4股公布业绩,3个业绩大幅增长,1个业绩暴雷,啤酒大增

深夜4股公布业绩,3个业绩大幅增长,1个业绩暴雷,啤酒大增

风风顺
2026-02-05 00:00:03
巴拿马失去改错机会,中方反击开始!港澳办:巴将会付出双重代价

巴拿马失去改错机会,中方反击开始!港澳办:巴将会付出双重代价

墨兰史书
2026-02-04 18:52:40
律师谈吃娃娃菜中毒夫妻被抓:最高判刑十年以上

律师谈吃娃娃菜中毒夫妻被抓:最高判刑十年以上

大象新闻
2026-02-04 08:49:30
2026-02-05 01:52:49
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7138文章数 549关注度
往期回顾 全部

科技要闻

太烦人遭投诉!元宝红包链接被微信屏蔽

头条要闻

与爱泼斯坦聚会视频公布后被追问 特朗普怒怼女记者

头条要闻

与爱泼斯坦聚会视频公布后被追问 特朗普怒怼女记者

体育要闻

哈登回应交易:不想让自己拖累快船的未来

娱乐要闻

春晚主持人阵容曝光,5位都是老面孔

财经要闻

白银,突然暴涨

汽车要闻

综合续航1730km 5座中级电混SUV吉利银河M7官图发布

态度原创

家居
房产
手机
游戏
公开课

家居要闻

灰白意境 光影奏鸣曲

房产要闻

还在涨!成交量连飙四个月 海口二手房开始稳了!

手机要闻

苹果即将强制App使用iOS 26 SDK构建,微信要适配液态玻璃了?

游戏动力×ATK 联动福利红包封面随机掉落!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版