小红书技术团队VESPO：大语言模型实现过时信息稳定学习|算法|序列|知名企业|vespo

分享至

这项由小红书公司技术团队主导的研究成果于2026年2月发表在预印本平台arXiv上，论文编号为2602.10693v1。该研究针对大语言模型强化学习训练中的稳定性难题，提出了一种全新的优化算法VESPO，为解决模型训练过程中的"信息过时"问题提供了创新性解决方案。

想象你正在学习一门新技能，比如学做菜。通常情况下，你会根据最新的菜谱和最新的烹饪技巧来调整自己的手法。但如果你手头只有一本过时的菜谱，而你又想学会最新的烹饪方法，这时候就会遇到问题。大语言模型在强化学习过程中面临的挑战与此非常相似。

在大语言模型的训练过程中，研究人员经常会遇到一个棘手的问题：模型需要从过去生成的文本中学习，但这些文本是基于旧版本的模型产生的。这就好比一个学生在用昨天的错误答案来学习今天的正确方法，结果越学越糊涂。这种现象在技术上被称为"策略陈旧性"，是导致模型训练不稳定甚至崩溃的主要原因之一。

小红书的研究团队发现，现有的解决方案就像给过时信息打补丁，虽然能暂时缓解问题，但缺乏理论基础，效果也不够理想。于是他们决定从根本上重新审视这个问题，开发出了一种名为VESPO的新算法。

VESPO的核心思想可以用调色的比喻来理解。当画家需要调出特定的颜色时，不同颜料的重要性是不同的。有些颜料占主导地位，有些只是起辅助作用。VESPO算法就像一个智能的调色师，它会根据每种"颜料"（训练数据）的新旧程度和质量，自动调整它们在"调色过程"（模型训练）中的分量。

传统的解决方案往往采用简单粗暴的方式，要么直接丢弃过时的信息，要么对所有信息一视同仁。这就像一个厨师要么扔掉所有昨天的食材，要么把新鲜食材和过期食材混在一起烹饪，结果自然不理想。VESPO则更像一个经验丰富的大厨，它会根据每种食材的新鲜程度，巧妙地调整用量，让整道菜的味道达到最佳平衡。

一、从数学原理到实际应用：VESPO的理论基础

要理解VESPO算法的创新之处，我们需要先了解它解决的核心问题。在大语言模型的训练过程中，研究人员通常会采用一种叫做"重要性采样"的技术。这个概念可以用投票来类比：当我们想了解全国人民对某个问题的看法时，如果只能访问到某个特定地区的人群，我们就需要根据这个地区的特点来调整投票结果的权重，以便推断出全国的真实情况。

在模型训练中，"重要性采样"扮演着类似的角色。当模型从过时的数据中学习时，算法需要知道这些数据与当前模型状态的匹配程度，然后相应地调整它们在学习过程中的重要性。问题在于，对于长文本序列，这种重要性的计算会变得极其复杂和不稳定。

传统的解决方案大致分为两类。第一类是在词汇层面进行调整，就像给文章中的每个单词分别贴上重要性标签。这种方法的问题是，它忽略了单词之间的相互依赖关系，就好比只看树叶的颜色而忽略了整棵树的健康状态。第二类方法试图在句子或段落层面进行调整，但往往需要引入长度归一化，这会带来新的偏差问题。

VESPO的创新在于提出了一个全新的理论框架。研究团队将重要性权重的调整问题转化为一个"变分优化"问题。这听起来很学术化，但实际上可以用寻找最佳配方的比喻来理解。

假设你是一个调酒师，需要调制一杯完美的鸡尾酒。你有多种酒类可以选择，每种酒都有不同的特点和价格。你的目标是在控制成本的同时，调出最接近理想口味的鸡尾酒。VESPO做的事情与此类似：它在保持训练稳定性（控制成本）的约束下，寻找最优的数据权重配置（调酒配方），使得训练效果最接近理想状态。

通过这种变分优化的方法，VESPO能够自动推导出一个数学上优雅的解决方案。这个解决方案具有两个关键特征：一个幂函数项和一个指数衰减项。幂函数项负责放大重要的信息，而指数衰减项负责抑制过于极端的权重。这种组合就像音响设备中的均衡器，既能增强需要的频率，又能抑制杂音。

更重要的是，VESPO的解决方案是在序列层面直接工作的，不需要进行长度归一化。这意味着它能够保持长文本中单词之间的相互依赖关系，就像保持一首交响乐中各个乐器之间的和谐配合。

二、实验验证：在数学推理任务中的卓越表现

为了验证VESPO算法的有效性，研究团队在数学推理任务上进行了大量实验。他们选择数学推理作为测试场景并非偶然，因为数学推理需要模型具备逻辑推导能力，对训练稳定性的要求特别高。这就像测试一个学生的综合能力，数学题往往是最好的选择，因为它需要严谨的逻辑思维和准确的计算能力。

实验设置巧妙地模拟了实际应用中的挑战。研究团队使用了三个不同规模的模型：Llama-3.2-3B、Qwen3-8B和Qwen3-30B。这些模型就像三个不同年级的学生，从小学生到大学生，用来测试VESPO在不同复杂度下的表现。

在策略陈旧性的测试中，研究团队创造性地使用了一个叫做"陈旧比例"的指标。他们将训练数据分成若干个小批次，然后让模型依次处理这些批次。随着处理过程的进行，后面的批次相对于当前模型状态就会变得"陈旧"。这个陈旧比例从4倍一直增加到64倍，就像让学生用越来越过时的教材来学习最新的知识。

实验结果令人印象深刻。在所有测试条件下，VESPO都表现出了卓越的稳定性。当陈旧比例达到64倍时，其他算法要么性能急剧下降，要么完全崩溃，而VESPO依然能够保持稳定的训练过程和良好的最终性能。这就像一个优秀的学生即使拿到过时的教材，依然能够学到核心知识并取得好成绩。

特别值得注意的是VESPO在混合专家模型上的表现。混合专家模型是一种特殊的模型架构，可以想象成一个由多个专家组成的咨询团队。在处理不同问题时，系统会自动选择最合适的专家来回答。这种架构的优势是能够用相对较少的计算资源处理复杂任务，但挑战在于专家选择的一致性。在训练和推理阶段，如果专家选择出现偏差，就会导致严重的性能问题。

VESPO在混合专家模型上的表现尤为出色，这主要得益于它对极端权重的软抑制机制。当某些训练样本的重要性权重变得过大时，传统方法往往采用硬截断的方式，就像用剪刀直接切断过长的树枝。这种做法虽然简单，但容易造成信息的突然丢失。VESPO则采用渐进式的抑制方法，就像用柔软的绳子逐渐引导树枝生长方向，既保持了信息的连续性，又避免了极端情况。

研究团队还测试了完全异步训练的场景。在这种设置下，数据生成和模型训练是完全分离的，就像一个工厂的生产线和质检部门分别在不同的地方工作。数据生成使用的是旧版本的模型，而模型训练则基于最新的参数。这种设置下的陈旧性问题更加严重，因为陈旧程度是不可预测和动态变化的。

在异步训练实验中，VESPO再次展现出了出色的适应能力。其他算法在面对这种不确定性时往往表现不稳定，训练曲线出现剧烈波动，有些甚至出现训练崩溃的情况。而VESPO的训练曲线始终平滑稳定，就像一个经验丰富的船长在波涛汹涌的海面上依然能够稳定掌舵。

三、技术细节：算法设计的精妙之处

VESPO算法的技术实现体现了研究团队的深厚功底。算法的核心是一个重塑核函数，其数学形式为W^c1 × exp(c2(1-W))。这个公式看起来抽象，但它的设计思想非常直观。

W代表重要性权重，反映了训练样本与当前模型状态的匹配程度。当W接近1时，说明样本与当前状态高度匹配；当W偏离1时，说明存在不匹配的情况。c1和c2是两个可调参数，分别控制幂函数和指数函数的强度。

这个公式的巧妙之处在于它的自适应特性。当W接近1时，重塑函数的值也接近1，对原始权重几乎不做修改。这就像一个温和的老师对表现良好的学生不会过多干预。当W显著偏离1时，指数项开始发挥作用，对权重进行平滑的抑制。这种抑制不是突然的截断，而是渐进的调整，保持了训练过程的连续性。

研究团队还发现，对于正向和负向的优势样本，需要使用不同的参数设置。这个发现来自于对训练动态的深入分析。正向优势样本是那些表现好于平均水平的样本，负向优势样本则相反。两类样本在训练过程中扮演不同的角色，因此需要差异化的处理策略。

对于正向优势样本，算法倾向于保留更多的学习信号，因为这些样本代表了模型应该强化的行为。对于负向优势样本，算法则更谨慎，特别是当这些样本来自陈旧的策略时，需要更强的抑制以避免误导训练过程。这种不对称的处理方式体现了算法设计的精细化程度。

从实现角度来看，VESPO具有优秀的数值稳定性。所有计算都在对数空间进行，避免了指数运算可能导致的数值溢出问题。这就像在处理天文数字时使用科学计数法一样，保证了计算的精确性和稳定性。

算法的内存开销也得到了很好的控制。与一些需要额外存储历史信息的方法不同，VESPO只需要存储当前和行为策略的对数概率，内存需求与标准的重要性采样方法相当。这使得它能够轻松应用于大规模模型的训练。

四、与现有方法的对比：优势何在

为了更好地理解VESPO的创新性，研究团队将其与三种主流方法进行了详细对比。这三种方法分别代表了当前解决策略陈旧性问题的不同思路。

第一种是GRPO方法，它采用词汇级别的重要性调整。这种方法的思路是为文本中的每个单词分别计算重要性权重，然后使用类似PPO的截断策略来控制权重的范围。这种方法的优点是简单直接，容易理解和实现。但缺点是破坏了句子层面的语义连贯性，就像把一幅画拆散成单独的颜色点来处理一样。

实验结果显示，GRPO在面对高陈旧比例时容易出现训练饱和的问题。训练奖励在达到某个水平后就停止增长，无法进一步提升。这种现象的根本原因是词汇级别的处理丢失了长程依赖信息，限制了模型学习复杂模式的能力。

第二种是GSPO方法，它尝试在序列级别进行处理，但引入了长度归一化。具体来说，它使用几何平均值来计算序列级别的重要性权重，即将所有单词的重要性权重相乘后开T次方根，其中T是序列长度。这种做法的初衷是控制权重的方差，避免长序列带来的不稳定性。

然而，长度归一化引入了新的偏差问题。研究团队通过理论分析证明，这种归一化会导致相同平均质量但不同长度的序列获得相同的重要性权重，这在数学上是不合理的。实验中，GSPO在某些条件下出现了灾难性的训练崩溃，特别是当陈旧比例为4时，训练奖励在1200步左右突然降为零。

第三种是SAPO方法，它使用自适应门控机制来调整重要性权重。这种方法试图通过学习一个门控函数来动态决定每个样本的重要性。理论上，这种自适应机制应该能够更好地处理复杂的训练场景。

但实验结果表明，SAPO的稳定性最差。在陈旧比例较低时，它还能维持基本的训练效果，但随着陈旧比例增加，训练过程变得极不稳定，经常出现完全崩溃的情况。分析发现，SAPO对负优势样本的处理不够恰当，容易导致训练过程中的正反馈循环被破坏。

相比之下，VESPO在所有测试条件下都表现出了出色的稳定性和性能。它成功地结合了序列级别处理的优势和软截断的稳定性，在不引入长度偏差的前提下有效控制了权重的方差。更重要的是，VESPO的性能随着陈旧比例的增加几乎没有显著下降，这在实际应用中具有重要价值。

五、实际应用价值：解决现实世界的挑战

VESPO算法的价值不仅体现在理论创新上，更重要的是它解决了大语言模型训练中的实际问题。在现实世界的应用中，策略陈旧性几乎是不可避免的。

在大规模模型训练中，研究团队通常会将一个大的训练批次分解成多个小批次来处理，这是由计算资源和内存限制决定的。随着处理过程的进行，后面的小批次基于的模型参数已经过时，这就产生了策略陈旧性。VESPO能够有效处理这种陈旧性，使得大批次训练变得更加稳定可靠。

异步训练是另一个重要的应用场景。在分布式训练环境中，数据生成和模型更新往往在不同的节点上进行，两者之间存在天然的时间差。这种异步性能够提高系统的吞吐量和资源利用效率，但也带来了策略陈旧性的挑战。VESPO在异步训练场景下的出色表现为大规模分布式训练提供了新的可能性。

训练与推理引擎之间的不匹配是第三个重要场景。在实际部署中，训练和推理往往使用不同的软件框架和优化策略。这些差异会导致相同的模型参数在不同环境下产生微妙的输出差异。对于混合专家模型来说，这种差异会因为专家选择的不一致而放大。VESPO的软抑制机制能够很好地处理这类不匹配问题。

研究团队还探索了VESPO与其他技术的结合。他们发现VESPO可以与路由重放技术相结合，进一步提升在混合专家模型上的性能。路由重放是一种确保训练和推理阶段专家选择一致性的技术，而VESPO的加入使得这种一致性的维护变得更加稳定。

从工程实现的角度来看，VESPO具有良好的易用性。它不需要修改现有的训练框架，只需要在计算策略梯度时替换重要性权重的计算方法即可。这种即插即用的特性大大降低了算法的部署门槛。

六、未来展望：技术演进的方向

VESPO算法的成功为大语言模型训练开辟了新的研究方向。研究团队在论文中提出了几个值得继续探索的领域。

首先是扩展到更大规模的异步集群。当前的实验主要在中等规模的分布式环境中进行，未来的挑战是如何将VESPO应用到拥有数千个节点的超大规模训练集群中。在这种规模下，策略陈旧性的复杂度会进一步增加，需要更精细的处理策略。

其次是智能体强化学习的应用。目前的实验主要集中在文本生成任务上，但大语言模型正在向多轮对话和工具使用等更复杂的智能体行为发展。在这些场景中，模型需要处理长期的行动序列和复杂的奖励信号，VESPO的序列级别处理优势可能会发挥更大的作用。

第三个方向是在线策略蒸馏和离线训练。随着模型规模的增长，直接训练变得越来越昂贵。一种可能的解决方案是使用大模型生成训练数据，然后用这些数据训练较小的模型。VESPO的重要性权重调整机制可能在这种蒸馏过程中发挥重要作用。

从理论角度来看，研究团队还在探索VESPO的数学性质。他们希望建立更严格的收敛性保证和性能边界，为算法的进一步优化提供理论指导。同时，他们也在研究如何将变分优化的框架扩展到其他机器学习问题中。

在实际应用中，一个重要的方向是自适应超参数调整。目前VESPO需要手工设置c1和c2参数，虽然算法对这些参数相对不敏感，但自动调整仍然是一个有价值的研究方向。通过在线监测训练状态并动态调整参数，可能进一步提升算法的性能和易用性。

说到底，VESPO算法代表了大语言模型训练技术的一个重要进步。它不仅解决了策略陈旧性这个长期困扰研究者的问题，更重要的是提供了一个优雅的理论框架来处理复杂的权重调整问题。随着大语言模型在各个领域的广泛应用，稳定可靠的训练算法变得越来越重要。VESPO为这一领域的发展提供了新的工具和思路，有望推动更强大、更稳定的人工智能系统的诞生。对于那些希望深入了解这项技术细节的读者，可以通过论文编号arXiv:2602.10693v1查询完整的研究报告。

Q&A

Q1：VESPO算法主要解决什么问题？

A：VESPO主要解决大语言模型强化学习训练中的"策略陈旧性"问题。简单来说，就是当模型需要从过时的训练数据中学习时，如何避免训练不稳定甚至崩溃的问题。这种情况在实际应用中很常见，比如分批处理大量训练数据时，后面的批次基于的模型参数已经过时了。

Q2：VESPO相比传统方法有什么优势？

A：VESPO的主要优势在于它能在序列层面直接处理重要性权重，不需要长度归一化，避免了传统方法的偏差问题。它使用软抑制机制而不是硬截断，保持了训练过程的平滑性。实验显示，即使在64倍陈旧比例的极端条件下，VESPO依然能保持稳定训练，而其他方法往往会出现性能下降或崩溃。

Q3：普通开发者如何使用VESPO算法？

A：VESPO具有很好的易用性，不需要修改现有的训练框架。开发者只需要在计算策略梯度时，将传统的重要性权重计算方法替换为VESPO的重塑核函数即可。算法提供了完整的伪代码实现，支持即插即用的部署方式，大大降低了使用门槛。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.