网易首页 > 网易号 > 正文 申请入驻

大型语言模型中过度训练的灾难性

0
分享至

构建更大语言模型的竞赛是由这样一种假设推动的:即更多的预训练数据意味着更好的性能。毫不奇怪,人工智能公司一直在争先恐后地寻找足够高质量的数据来训练他们的人工智能模型,经常诉诸于创建合成数据来构建和微调人工智能模型。但如果这个核心如果有缺陷呢?

一项新的研究警告说,更多的预训练数据可能并不总是能带来更好的人工智能模型。卡内基梅隆大学、斯坦福大学、哈佛大学和普林斯顿大学等顶尖大学的研究人员强调了“灾难性过度训练”现象。他们最近对这一问题的研究表明,延长预训练实际上会降低模型的有效微调能力,导致在现实世界应用中的性能较差。

研究人员在训练人工智能模型时挑战了“越多越好”的信念。作者在arXiv上发表的研究中写道:“与普遍看法相反,更长的预训练并不总是能带来更好的模型。”“我们已经证明,这是一个更广泛的潜在现象的结果,在这个现象中,模型对扰动变得更加敏感,因为它们在更多的令牌(Token)上进行了预训练。”

为什么人工智能模型需要预先训练?人工智能公司使用预培训来教授与其任务相关的人工智能系统基础技能。这可以是理解语言、分析图像、预测序列或识别数据中的模式。

预训练起着重要作用,因为它允许模型概括知识,适应不同的环境,并在广泛的任务中有效地执行。需要明确的是,研究人员并不拒绝预训练,但建议开发人员在预训练的程度上需要更具战略性尺度。

为了了解预训练将如何影响AI模型,研究人员比较了Ai2开源OLMo-1B模型的两个版本。一个是在2.3万亿个Token上训练的,另一个是3万亿个Token。令人惊讶的是,在微调后,在更多数据上训练的模型表现较差。它在ARC Challenge、PIQA和AlpacaEval等标准基准测试中的准确率降低了2-3%。

作者通过他们所谓的“渐进敏感性”来解释这种性能下降。随着模型训练时间的延长,它们的内部参数对变化越来越敏感,例如在微调过程中调整模型或添加更多数据。这种更高的灵敏度意味着,即使数据中的微小调整或少量噪声也会严重破坏模型已经学习到的内容。

该研究通过多个角度的证据支持其发现。当研究人员将高斯噪声添加到预训练模型中时,他们发现随着预训练Token的增加,性能明显变差。此外,他们使用一种不同的设置来验证他们的结果,该设置涉及微调的基准,并产生了类似的结果。

研究人员承认,他们的研究并不普遍,因为他们的研究表明,在较小的模型上,灾难性过度训练的风险更高。他们还强调,如果任务没有很好地协调一致,即使有好的技术,过度训练也不总是可以解决的。

研究人员分享道:“即使微调过程被规范化,灾难性的过度训练也可能是不可避免的,尤其是在预训练和微调任务不一致的情况下。”这突显了确保培训和微调目标之间保持一致的重要性。

人工智能模型预训练是开发过程中的关键组成部分。然而,该研究的结果突显了过度训练的风险。那么,最佳点是什么?研究人员表示,这涉及到在基础模型质量和训练后适应性之间取得平衡。

开发人员可能需要重新思考构建人工智能模型的方法。正如研究人员所建议的那样,重点应该从简单地扩大数据和模型大小转向优化整个训练管道。研究人员强调:“我们的研究结果要求重新关注考虑整个训练管道的模型缩放。”

作者强调,需要进一步的研究来探索决定灾难性过度训练何时以及如何发生的因素。然而,他们的研究得出的一个关键结论是,通过采用更智能的人工智能开发策略,有时可以做到少即是多。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
48小时接连3大丑闻,特朗普进退两难,第一个反水的竟是身边人

48小时接连3大丑闻,特朗普进退两难,第一个反水的竟是身边人

笑谈历史阿晡
2026-03-19 00:39:28
为啥说小孩子的话总是口无遮拦?网友:妈妈坐在爸爸身上拉屎!

为啥说小孩子的话总是口无遮拦?网友:妈妈坐在爸爸身上拉屎!

三年的老核桃
2026-03-18 07:20:03
40岁C罗没有特权!无缘葡萄牙大名单 主帅:先在俱乐部踢上球再说

40岁C罗没有特权!无缘葡萄牙大名单 主帅:先在俱乐部踢上球再说

风过乡
2026-03-19 08:07:33
“龙抬头4不吃,一年不惹祸”,4不吃指啥?尊重传统,免得闹笑话

“龙抬头4不吃,一年不惹祸”,4不吃指啥?尊重传统,免得闹笑话

小茉莉美食记
2026-03-19 01:30:03
徐威也没想到,被张怡宁辛苦养大的女儿,如今成为他们最大的骄傲

徐威也没想到,被张怡宁辛苦养大的女儿,如今成为他们最大的骄傲

民宿体验志
2026-03-19 11:58:17
国民党文传会主委尹乃菁今天表示,卢秀燕的立场就是国民党的立场

国民党文传会主委尹乃菁今天表示,卢秀燕的立场就是国民党的立场

安安说
2026-03-19 11:37:59
最强三巨头!湖人成联盟唯一三人场均20+球队,剑指总冠军!

最强三巨头!湖人成联盟唯一三人场均20+球队,剑指总冠军!

田先生篮球
2026-03-19 06:21:03
现在高价卖掉房子的人,都将后悔?中央定调,2026年或开始洗牌

现在高价卖掉房子的人,都将后悔?中央定调,2026年或开始洗牌

巢客HOME
2026-03-19 06:45:03
全球约一半肝癌在中国!再三提醒:家里的5种食物,尽快撤下餐桌

全球约一半肝癌在中国!再三提醒:家里的5种食物,尽快撤下餐桌

DrX说
2026-03-18 14:39:50
1977年左宗棠陵墓被毁,尸骨散落荒野,王震得知后拍桌怒斥

1977年左宗棠陵墓被毁,尸骨散落荒野,王震得知后拍桌怒斥

磊子讲史
2026-03-17 16:49:47
别再拿梅西对比亚马尔!小罗一针见血:他俩根本不是一个维度

别再拿梅西对比亚马尔!小罗一针见血:他俩根本不是一个维度

体育闲话说
2026-03-19 13:55:21
特朗普又开始作了!这次他把枪口对准了法国,说的话那叫一个扎心

特朗普又开始作了!这次他把枪口对准了法国,说的话那叫一个扎心

阿七说史
2026-03-18 15:28:57
澳女患湿疹20年不好, 最后竟被这药治愈了! 政府官宣: 只要几块钱! 百万人受益

澳女患湿疹20年不好, 最后竟被这药治愈了! 政府官宣: 只要几块钱! 百万人受益

澳微Daily
2026-03-18 14:37:34
19岁临危接指挥!带21人绝境突围,泽连斯基亲授乌克兰英雄

19岁临危接指挥!带21人绝境突围,泽连斯基亲授乌克兰英雄

老马拉车莫少装
2026-03-19 00:34:50
这才是地球禁区!30秒毁全身细胞,剧毒万年不散,内部画面罕曝光

这才是地球禁区!30秒毁全身细胞,剧毒万年不散,内部画面罕曝光

历史的烟火
2026-03-16 17:16:46
美国解除对俄罗斯石油禁令仅一周 印度炼油商抢购约3000万桶俄石油

美国解除对俄罗斯石油禁令仅一周 印度炼油商抢购约3000万桶俄石油

财联社
2026-03-19 15:22:12
从600万到30万,曾繁日一拳打出百万身价 杜锋那句软蛋成真预言?

从600万到30万,曾繁日一拳打出百万身价 杜锋那句软蛋成真预言?

削桐作琴
2026-03-19 12:27:53
快船遭鹈鹕18分逆转吞3连败 小卡复出25+8连46场20+队史第一

快船遭鹈鹕18分逆转吞3连败 小卡复出25+8连46场20+队史第一

醉卧浮生
2026-03-19 10:18:40
亚足联:U23亚洲杯中国球迷伪造证件进入媒体看台,中国足协被罚3750美元

亚足联:U23亚洲杯中国球迷伪造证件进入媒体看台,中国足协被罚3750美元

懂球帝
2026-03-19 12:49:05
粟裕全歼张灵甫74师,毛主席听完战报沉默半晌:连我都没料到他敢这么打

粟裕全歼张灵甫74师,毛主席听完战报沉默半晌:连我都没料到他敢这么打

史海孤雁
2026-03-18 18:18:12
2026-03-19 17:12:49
Ai时代前沿
Ai时代前沿
人工智能新闻动态及应用案例。
1682文章数 511关注度
往期回顾 全部

科技要闻

机器人租赁:成立不到3月,估值破30亿

头条要闻

媒体:若伊朗战争失控 会发生让欧洲人想起来都怕的事

头条要闻

媒体:若伊朗战争失控 会发生让欧洲人想起来都怕的事

体育要闻

他们专卖“老头鞋”,却能签下19岁NBA未来门面?

娱乐要闻

戴军55岁再翻红!与何炅传闻意难平

财经要闻

伊朗战争会是"美国金融危机"导火索吗?

汽车要闻

不到10万还有激光雷达 零跑A10体验超预期

态度原创

时尚
本地
艺术
游戏
公开课

女人过了60岁千万别服老,看看这些日常穿搭,减龄舒适又耐看

本地新闻

春色满城关不住|绍兴春日顶流,这片樱花海藏不住了

艺术要闻

2025年第八届全国青年美展 | 油画作品选刊(三)

主打美女多的《立方救赎》Steam上线好评率仅20%

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版