大型语言模型中过度训练的灾难性|序列|预训练|人工智能

大型语言模型中过度训练的灾难性

2025-04-04 06:10:05　来源: Ai时代前沿

北京举报

分享至

构建更大语言模型的竞赛是由这样一种假设推动的：即更多的预训练数据意味着更好的性能。毫不奇怪，人工智能公司一直在争先恐后地寻找足够高质量的数据来训练他们的人工智能模型，经常诉诸于创建合成数据来构建和微调人工智能模型。但如果这个核心如果有缺陷呢？

一项新的研究警告说，更多的预训练数据可能并不总是能带来更好的人工智能模型。卡内基梅隆大学、斯坦福大学、哈佛大学和普林斯顿大学等顶尖大学的研究人员强调了“灾难性过度训练”现象。他们最近对这一问题的研究表明，延长预训练实际上会降低模型的有效微调能力，导致在现实世界应用中的性能较差。

研究人员在训练人工智能模型时挑战了“越多越好”的信念。作者在arXiv上发表的研究中写道：“与普遍看法相反，更长的预训练并不总是能带来更好的模型。”“我们已经证明，这是一个更广泛的潜在现象的结果，在这个现象中，模型对扰动变得更加敏感，因为它们在更多的令牌（Token）上进行了预训练。”

为什么人工智能模型需要预先训练？人工智能公司使用预培训来教授与其任务相关的人工智能系统基础技能。这可以是理解语言、分析图像、预测序列或识别数据中的模式。

预训练起着重要作用，因为它允许模型概括知识，适应不同的环境，并在广泛的任务中有效地执行。需要明确的是，研究人员并不拒绝预训练，但建议开发人员在预训练的程度上需要更具战略性尺度。

为了了解预训练将如何影响AI模型，研究人员比较了Ai2开源OLMo-1B模型的两个版本。一个是在2.3万亿个Token上训练的，另一个是3万亿个Token。令人惊讶的是，在微调后，在更多数据上训练的模型表现较差。它在ARC Challenge、PIQA和AlpacaEval等标准基准测试中的准确率降低了2-3%。

作者通过他们所谓的“渐进敏感性”来解释这种性能下降。随着模型训练时间的延长，它们的内部参数对变化越来越敏感，例如在微调过程中调整模型或添加更多数据。这种更高的灵敏度意味着，即使数据中的微小调整或少量噪声也会严重破坏模型已经学习到的内容。

该研究通过多个角度的证据支持其发现。当研究人员将高斯噪声添加到预训练模型中时，他们发现随着预训练Token的增加，性能明显变差。此外，他们使用一种不同的设置来验证他们的结果，该设置涉及微调的基准，并产生了类似的结果。

研究人员承认，他们的研究并不普遍，因为他们的研究表明，在较小的模型上，灾难性过度训练的风险更高。他们还强调，如果任务没有很好地协调一致，即使有好的技术，过度训练也不总是可以解决的。

研究人员分享道：“即使微调过程被规范化，灾难性的过度训练也可能是不可避免的，尤其是在预训练和微调任务不一致的情况下。”这突显了确保培训和微调目标之间保持一致的重要性。

人工智能模型预训练是开发过程中的关键组成部分。然而，该研究的结果突显了过度训练的风险。那么，最佳点是什么？研究人员表示，这涉及到在基础模型质量和训练后适应性之间取得平衡。

开发人员可能需要重新思考构建人工智能模型的方法。正如研究人员所建议的那样，重点应该从简单地扩大数据和模型大小转向优化整个训练管道。研究人员强调：“我们的研究结果要求重新关注考虑整个训练管道的模型缩放。”

作者强调，需要进一步的研究来探索决定灾难性过度训练何时以及如何发生的因素。然而，他们的研究得出的一个关键结论是，通过采用更智能的人工智能开发策略，有时可以做到少即是多。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.