美团破解AI训练中的"长短不一"难题：让人工智能回答更均衡稳定|算法|数学|推理|模态|ai训练|超级智能|知名企业

分享至

这项由美团公司研究团队开展的研究发表于2026年2月的arXiv预印本平台，论文编号为arXiv:2602.05261v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当我们和ChatGPT这样的人工智能聊天时，你有没有注意到一个有趣的现象：有时它的回答特别详细冗长，有时又异常简短？这种现象背后其实隐藏着人工智能训练过程中的一个重要技术问题。美团的研究团队最近发现了这个问题的根源，并提出了一个巧妙的解决方案。

这个问题就像是教一个学生写作文。传统的人工智能训练方法就好比这样一位老师：当学生写对题目时，老师更喜欢简洁的答案，会给简短正确的作文更高的分数；但当学生写错时，老师反而对冗长的错误答案比较宽容。这种不一致的评分标准导致学生越来越困惑，不知道该写长文章还是短文章。

更具体地说，目前主流的人工智能训练方法叫做"强化学习"，就像训练一只宠物一样，通过奖励和惩罚来塑造它的行为。然而现有的两种主流训练算法GRPO和GSPO都存在一个隐蔽的偏见：它们在评估答案质量时，会不自觉地受到答案长度的影响。这就像一位偏心的老师，不是纯粹根据内容质量打分，而是暗中考虑了文章的长短。

美团的研究人员通过深入分析发现，这个问题的核心在于训练算法的数学公式设计存在缺陷。他们发现GSPO算法尤其容易导致"回答长度坍塌"现象，也就是说，随着训练的进行，人工智能的回答会变得越来越短，最终影响其推理能力和回答质量。

为了解决这个问题，研究团队提出了一种名为"长度无偏序列策略优化"（LUSPO）的新方法。这个方法的核心思想非常简单而巧妙：在计算每个回答的重要性时，将其乘以回答的长度。这就像给每个学生的作文按字数给予相应的关注度，确保长文章和短文章都能得到公平的评判。

一、为什么回答长度如此重要？

要理解这个问题，我们需要先了解人工智能是如何"思考"复杂问题的。就像人类解决数学难题时需要在草稿纸上写下推理过程一样，人工智能处理复杂推理任务时也需要"展开思路"。这个展开的过程通常体现为较长的回答，其中包含了逐步的推理链条。

当人工智能面对一道复杂的数学题时，一个高质量的回答可能包括：问题理解、解题思路分析、具体计算步骤、结果验证等多个环节。这样的回答自然会比简单的"答案是5"要长得多，但也更有价值，因为它展示了完整的推理过程。

然而，传统的训练方法在评估这类回答时存在系统性偏见。研究团队发现，GRPO算法在处理正确答案时会倾向于奖励较短的回答，而在处理错误答案时反而对较长的回答更宽容。这种不一致的标准就像一个摇摆不定的天平，无法给人工智能提供清晰的学习信号。

GSPO算法的问题更加严重。它采用了"序列级裁剪"机制，这个机制会导致更多的训练样本被丢弃，而且由于"裁剪更高"策略的影响，负面样本（错误答案）被删除的比例更大。这种不平衡进一步加剧了长度偏见，使得人工智能越来越倾向于生成简短的回答。

研究团队通过实验清楚地展示了这个问题。他们训练了两组相同的人工智能模型，一组使用GRPO方法，另一组使用GSPO方法，其他条件完全相同。结果发现，使用GRPO训练的模型回答长度逐渐增加，而使用GSPO训练的模型回答长度急剧下降，从训练初期的400多个词逐渐缩短到200多个词。

这种回答长度的坍塌不仅仅是表面现象，它实际上反映了人工智能推理能力的退化。当模型被迫生成越来越短的回答时，它失去了展开复杂推理的空间，就像要求一个学生在只有一行的纸上解决复杂的数学证明题一样。

二、LUSPO方法的巧妙设计

面对这个问题，美团研究团队提出的LUSPO方法体现了工程上的优雅。这个解决方案的核心思想可以用一个简单的比喻来理解：如果说传统方法是在用同样大小的放大镜观察所有文章，那么LUSPO就是根据文章长度调整放大镜的倍数，确保每个文章都能得到适当的关注。

具体来说，LUSPO方法在计算损失函数时，将每个序列的损失乘以其自身的长度。这个看似简单的调整却产生了深远的影响。通过这种方式，长回答和短回答在训练过程中获得了平等的"发言权"，消除了原有算法中隐含的长度偏见。

从数学角度来看，这个调整非常巧妙地解决了梯度分布不均匀的问题。在原来的GSPO方法中，长回答的每个词对整体损失的贡献被稀释了，因为损失值需要除以回答长度。而LUSPO通过乘以长度因子，恰好抵消了这种稀释效应，使得每个词的贡献变得均匀。

研究团队通过严格的数学推导证明了这种调整的合理性。他们计算了LUSPO和GSPO的梯度公式，清楚地展示了两者的区别。在GSPO中，梯度计算包含了一个隐含的长度归一化项，这个项导致了长度偏见。而LUSPO通过显式地乘以长度因子，完全消除了这个偏见源。

这种设计的美妙之处在于它的简洁性和有效性。研究团队没有复杂地重新设计整个训练框架，而是通过一个精准的数学调整解决了根本问题。这就像修理一台精密仪器时，不需要拆解整台机器，只需要调整一个关键的螺丝就能让一切正常运转。

三、实验验证：从理论到实践的完美转化

为了验证LUSPO方法的有效性，研究团队设计了一系列全面的实验。这些实验就像一场严格的药物临床试验，需要在不同的"病人"（模型）、不同的"病症"（任务）上测试新"药物"（LUSPO方法）的效果。

实验涵盖了多种不同类型的人工智能模型。对于文本模型，研究团队使用了Qwen2.5-7B-Base这样的密集型模型和Qwen3-30B-A3B-Instruct这样的混合专家模型。对于多模态模型，他们使用了能够同时处理文字和图像的Qwen2.5-VL-7B-Instruct模型。这种全面的测试就像在不同的土壤、不同的气候条件下种植同一种作物，确保新方法具有广泛的适用性。

在数学推理任务上，LUSPO展现出了显著的优势。在AMC23、AIME24、AIME25等标准化数学竞赛题目上，使用LUSPO训练的模型表现明显优于使用GSPO训练的同类模型。以Qwen2.5-7B-Base模型为例，在AIME24任务上，LUSPO比GSPO提高了2.9%的准确率，在MATH500任务上提高了7.4%的准确率。这些提升看似不大，但在人工智能领域，几个百分点的提升往往意味着质的飞跃。

更令人惊喜的是，在混合专家模型Qwen3-30B-A3B-Instruct上，LUSPO的优势更加明显。在AIME24任务上，LUSPO比GSPO提高了6.9%的准确率，在AIME25任务上甚至提高了17.1%的准确率。这种显著的提升证明了LUSPO方法在复杂模型架构上的优越性。

在多模态推理任务上，LUSPO同样表现出色。在MathVista-mini、MathVision等需要同时理解文字和图像的复杂任务上，LUSPO不仅超越了GSPO，甚至在某些任务上也优于GRPO。特别是在WeMath和LogicVista这两个测试逻辑推理能力的任务上，LUSPO分别比GSPO提高了5.1%和6.0%的准确率。

四、训练动态：看得见的改善过程

通过观察训练过程中的各项指标变化，研究团队清楚地展示了LUSPO方法带来的积极影响。这个观察过程就像医生监测病人康复进程一样，通过多个生命体征的变化来判断治疗效果。

最直观的变化体现在回答长度上。在使用GSPO训练时，Qwen2.5-VL-7B-Instruct模型的平均回答长度从训练初期的450个词急剧下降到最后的200多个词，呈现出明显的"坍塌"趋势。而使用LUSPO训练时，回答长度不仅没有下降，反而稳步上升，最终稳定在500多个词的水平。这种差异就像两个学生的写作能力发展轨迹：一个越写越少，词不达意；另一个表达越来越丰富，逻辑越来越清晰。

准确率的变化同样令人鼓舞。在训练过程中，使用LUSPO的模型在准确率提升方面始终领先于使用GSPO的模型。更重要的是，这种提升是持续稳定的，没有出现波动或倒退现象，说明LUSPO提供了更加稳定的学习环境。

验证集上的表现进一步证实了LUSPO的优势。研究团队定期在AIME24数学题目上测试模型表现，结果显示LUSPO训练的模型不仅在训练数据上表现更好，在未见过的测试数据上也保持了优势，证明了其良好的泛化能力。

平均回答长度的对比数据更是说明问题：GSPO训练的Qwen2.5-7B-Base模型平均回答长度为2611个字符，而LUSPO训练的同类模型平均回答长度达到3940个字符，提升了50%以上。在更大的Qwen3-30B-A3B-Instruct模型上，这个差异更加明显：GSPO为6757个字符，LUSPO为11014个字符，几乎提升了一倍。

五、深层原理：为什么LUSPO如此有效？

LUSPO方法的成功不是偶然的，它背后有着深刻的理论基础。要理解这个原理，我们可以把人工智能的训练过程比作一个复杂的生态系统，其中每种"物种"（不同长度的回答）都需要适当的"生存空间"。

在原来的GSPO系统中，这个生态系统是失衡的。短回答就像是繁殖能力强、适应性好的杂草，在竞争中占据优势；而长回答则像是需要更多资源、生长周期更长的珍贵植物，在不公平的竞争环境中逐渐消失。这种失衡最终导致整个生态系统的单一化和贫瘠化。

LUSPO的调整就像是为不同的"物种"提供了公平的生存条件。通过给每个回答乘以其长度因子，LUSPO确保了长回答和短回答在训练过程中获得相等的"营养"（梯度更新）。这种平衡机制让人工智能能够学会在适当的时候给出详细的回答，在需要时也能保持简洁。

从信息论的角度来看，长回答通常包含更多的信息量。当一个人工智能模型能够生成较长的、逻辑连贯的回答时，它实际上展示了对问题的深度理解和复杂推理能力。LUSPO方法保护了这种高信息量回答的生存空间，使得模型能够发展出更加复杂和精妙的推理能力。

研究团队还发现，LUSPO方法在不同类型的模型架构上都表现出色，说明其解决的是一个根本性问题。无论是密集型模型还是混合专家模型，无论是纯文本模型还是多模态模型，都能从LUSPO的调整中受益。这种普适性证明了方法的理论基础是扎实的。

此外，LUSPO方法的另一个重要优势是其稳定性。传统的GRPO方法虽然没有GSPO那样严重的长度偏见问题，但在混合专家模型上训练时会出现不稳定现象。而LUSPO不仅解决了长度偏见问题，还继承了GSPO在稳定性方面的优势，可以说是两全其美。

六、实际应用：从实验室到现实世界

LUSPO方法的成功不仅仅是学术上的突破，更有着重要的实际应用价值。这个方法就像是人工智能训练工具箱中新增的一个精密仪器，能够帮助研发人员构建更加均衡和稳定的人工智能系统。

在数学教育领域，使用LUSPO训练的人工智能助教能够提供更加详细和有逻辑的解题过程。这些AI助教不再只是简单地给出答案，而是能够像优秀的人类老师一样，逐步引导学生理解问题、分析思路、执行计算、验证结果。这种详细的解释对学生的学习帮助巨大，特别是在复杂的数学概念理解上。

在客服和咨询服务领域，LUSPO训练的人工智能能够提供更加全面和有用的回答。当用户咨询复杂的技术问题或服务流程时，AI不会因为训练偏见而给出过于简短的回答，而是能够提供详细的步骤指导和背景解释，显著提升用户体验。

在内容创作领域，LUSPO方法有助于开发能够产生高质量长文本的人工智能写作助手。这些助手在帮助用户撰写报告、文章或其他需要深度分析的内容时，能够保持适当的详细程度，而不会因为训练偏见而产生过于简洁、缺乏深度的内容。

更重要的是，LUSPO方法为整个人工智能训练领域提供了一个重要的启示：看似微小的算法调整可能解决根本性的问题。这鼓励研究人员更加仔细地审视现有训练方法中可能存在的隐性偏见，推动整个领域向更加公平和有效的方向发展。

研究团队还进行了鲁棒性测试，在不同的数据集组合上验证LUSPO的效果。他们发现，即使在不会导致回答长度坍塌的数据集上，LUSPO仍然能够带来性能提升，说明这个方法的价值不仅仅在于解决特定问题，更在于提供了一个普遍更好的训练范式。

归根结底，美团团队这项研究解决了人工智能训练中一个重要而隐蔽的问题。通过一个简洁而巧妙的数学调整，LUSPO方法让人工智能能够更加公平地学习处理不同长度的回答，从而在复杂推理任务上表现得更加出色。这就像是给人工智能戴上了一副"公平眼镜"，让它能够更准确地看待和学习各种类型的知识。

这项研究的意义不仅在于提供了一个新的训练方法，更在于揭示了人工智能训练过程中可能存在的微妙但重要的偏见。它提醒我们，在追求人工智能性能提升的道路上，我们需要更加细致地关注训练过程的每一个细节，确保我们构建的AI系统能够真正公平、均衡地处理各种类型的任务和挑战。随着人工智能技术在各个领域的广泛应用，这种对公平性和均衡性的关注将变得越来越重要。

Q&A

Q1：LUSPO相比GSPO有什么主要改进？

A：LUSPO的核心改进是在计算损失函数时将每个序列的损失乘以其长度，这样消除了GSPO中存在的长度偏见。GSPO会让AI的回答越来越短，而LUSPO确保长短回答都能得到公平对待，让AI能够在需要时给出详细的推理过程。

Q2：为什么回答长度对AI推理能力这么重要？

A：就像人类解决复杂数学题需要在草稿纸上写下推理过程一样，AI处理复杂问题也需要足够的"思考空间"。较长的回答通常包含完整的推理链条，包括问题分析、解题步骤、结果验证等环节。如果AI被迫只能给出简短回答，就失去了展开复杂推理的能力。

Q3：LUSPO方法在实际应用中效果如何？

A：实验结果显示LUSPO在多个任务上都有显著提升。在数学推理任务AIME24上，LUSPO比GSPO提高了2.9-6.9%的准确率；在多模态推理任务上，在WeMath和LogicVista任务上分别提高了5.1%和6.0%。同时，使用LUSPO训练的模型平均回答长度比GSPO长50%以上。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.