网易首页 > 网易号 > 正文 申请入驻

大型语言模型中过度训练的灾难性

0
分享至

构建更大语言模型的竞赛是由这样一种假设推动的:即更多的预训练数据意味着更好的性能。毫不奇怪,人工智能公司一直在争先恐后地寻找足够高质量的数据来训练他们的人工智能模型,经常诉诸于创建合成数据来构建和微调人工智能模型。但如果这个核心如果有缺陷呢?

一项新的研究警告说,更多的预训练数据可能并不总是能带来更好的人工智能模型。卡内基梅隆大学、斯坦福大学、哈佛大学和普林斯顿大学等顶尖大学的研究人员强调了“灾难性过度训练”现象。他们最近对这一问题的研究表明,延长预训练实际上会降低模型的有效微调能力,导致在现实世界应用中的性能较差。

研究人员在训练人工智能模型时挑战了“越多越好”的信念。作者在arXiv上发表的研究中写道:“与普遍看法相反,更长的预训练并不总是能带来更好的模型。”“我们已经证明,这是一个更广泛的潜在现象的结果,在这个现象中,模型对扰动变得更加敏感,因为它们在更多的令牌(Token)上进行了预训练。”

为什么人工智能模型需要预先训练?人工智能公司使用预培训来教授与其任务相关的人工智能系统基础技能。这可以是理解语言、分析图像、预测序列或识别数据中的模式。

预训练起着重要作用,因为它允许模型概括知识,适应不同的环境,并在广泛的任务中有效地执行。需要明确的是,研究人员并不拒绝预训练,但建议开发人员在预训练的程度上需要更具战略性尺度。

为了了解预训练将如何影响AI模型,研究人员比较了Ai2开源OLMo-1B模型的两个版本。一个是在2.3万亿个Token上训练的,另一个是3万亿个Token。令人惊讶的是,在微调后,在更多数据上训练的模型表现较差。它在ARC Challenge、PIQA和AlpacaEval等标准基准测试中的准确率降低了2-3%。

作者通过他们所谓的“渐进敏感性”来解释这种性能下降。随着模型训练时间的延长,它们的内部参数对变化越来越敏感,例如在微调过程中调整模型或添加更多数据。这种更高的灵敏度意味着,即使数据中的微小调整或少量噪声也会严重破坏模型已经学习到的内容。

该研究通过多个角度的证据支持其发现。当研究人员将高斯噪声添加到预训练模型中时,他们发现随着预训练Token的增加,性能明显变差。此外,他们使用一种不同的设置来验证他们的结果,该设置涉及微调的基准,并产生了类似的结果。

研究人员承认,他们的研究并不普遍,因为他们的研究表明,在较小的模型上,灾难性过度训练的风险更高。他们还强调,如果任务没有很好地协调一致,即使有好的技术,过度训练也不总是可以解决的。

研究人员分享道:“即使微调过程被规范化,灾难性的过度训练也可能是不可避免的,尤其是在预训练和微调任务不一致的情况下。”这突显了确保培训和微调目标之间保持一致的重要性。

人工智能模型预训练是开发过程中的关键组成部分。然而,该研究的结果突显了过度训练的风险。那么,最佳点是什么?研究人员表示,这涉及到在基础模型质量和训练后适应性之间取得平衡。

开发人员可能需要重新思考构建人工智能模型的方法。正如研究人员所建议的那样,重点应该从简单地扩大数据和模型大小转向优化整个训练管道。研究人员强调:“我们的研究结果要求重新关注考虑整个训练管道的模型缩放。”

作者强调,需要进一步的研究来探索决定灾难性过度训练何时以及如何发生的因素。然而,他们的研究得出的一个关键结论是,通过采用更智能的人工智能开发策略,有时可以做到少即是多。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
随着武汉三镇4-1,中超最新积分榜出炉:仍有9队积分为负数

随着武汉三镇4-1,中超最新积分榜出炉:仍有9队积分为负数

侧身凌空斩
2026-03-13 21:43:13
伊朗宣布与真主党发动联合导弹行动

伊朗宣布与真主党发动联合导弹行动

参考消息
2026-03-12 20:49:05
王思懿在采访里亲口承认,当年拍水浒时和演武松的丁海峰真动了心

王思懿在采访里亲口承认,当年拍水浒时和演武松的丁海峰真动了心

老吴教育课堂
2026-03-12 00:43:30
安切洛蒂点兵!巴西18人基本确定出战世界杯:内马尔悬了

安切洛蒂点兵!巴西18人基本确定出战世界杯:内马尔悬了

叶青足球世界
2026-03-13 09:08:43
美国向中国下最后通牒:不同意就打?美国这是蹬鼻子上脸!

美国向中国下最后通牒:不同意就打?美国这是蹬鼻子上脸!

南权先生
2026-03-13 15:53:58
对比古龙小说与金庸、梁羽生小说的开头,真如萤火之光比日月之辉

对比古龙小说与金庸、梁羽生小说的开头,真如萤火之光比日月之辉

青霄
2026-03-13 18:22:23
巧合?伊朗最高领袖刚发表首份声明,美军就掉了一架大型加油机

巧合?伊朗最高领袖刚发表首份声明,美军就掉了一架大型加油机

枢密院十号
2026-03-13 18:49:02
行程有变,特朗普访华规格缩水,中方对美说不,美国先遣队已离京

行程有变,特朗普访华规格缩水,中方对美说不,美国先遣队已离京

起喜电影
2026-03-13 17:25:32
2026女足亚洲杯赛后评球,八强赛澳大利亚vs朝鲜

2026女足亚洲杯赛后评球,八强赛澳大利亚vs朝鲜

酷马西者野
2026-03-13 21:37:17
香港地勤人员被举报歧视普通话乘客,身份曝光,亚航通报:已解雇

香港地勤人员被举报歧视普通话乘客,身份曝光,亚航通报:已解雇

一盅情怀
2026-03-12 17:42:56
广州大学人工智能学院院长杨春生病逝!同事悼念称“很突然”

广州大学人工智能学院院长杨春生病逝!同事悼念称“很突然”

南方都市报
2026-03-13 19:06:12
G联赛:杨瀚森背靠背16+13+2+1帽 难阻混音遭快船双杀

G联赛:杨瀚森背靠背16+13+2+1帽 难阻混音遭快船双杀

醉卧浮生
2026-03-13 12:33:30
委内瑞拉代总统访问邻国计划突然取消

委内瑞拉代总统访问邻国计划突然取消

每日经济新闻
2026-03-13 16:10:20
新加坡终于知道怕了,退居二线的李显龙,给自己的继任者敲响警钟

新加坡终于知道怕了,退居二线的李显龙,给自己的继任者敲响警钟

壹知眠羊
2026-03-13 07:22:27
上海市中心正在“悄悄转移”这3个地方,正在变成“新中心”!

上海市中心正在“悄悄转移”这3个地方,正在变成“新中心”!

我不叫阿哏
2026-03-12 19:40:23
90年中越和谈,武元甲来华想见杨得志,杨却严肃道:我不可能见他

90年中越和谈,武元甲来华想见杨得志,杨却严肃道:我不可能见他

元哥说历史
2026-03-12 14:25:04
美团王兴说努力减少登味,让内部不要再叫兴哥,“叫我王兴就好”

美团王兴说努力减少登味,让内部不要再叫兴哥,“叫我王兴就好”

潇湘晨报
2026-03-13 17:15:13
陈鲁豫:56岁的单身启示录——两段婚姻、半生挣扎与一场自我救赎

陈鲁豫:56岁的单身启示录——两段婚姻、半生挣扎与一场自我救赎

ENEN娱乐地图
2026-02-16 18:17:59
成都夫妻遭代驾套路!几句话点醒众人,喝酒开车有多险?

成都夫妻遭代驾套路!几句话点醒众人,喝酒开车有多险?

今日搞笑分享
2026-03-13 15:42:14
火箭休赛期计划和鹈鹕完成4换5大交易!17+5后卫将加盟休斯顿!

火箭休赛期计划和鹈鹕完成4换5大交易!17+5后卫将加盟休斯顿!

去山野间追风
2026-03-13 14:26:19
2026-03-13 22:35:00
Ai时代前沿
Ai时代前沿
人工智能新闻动态及应用案例。
1677文章数 511关注度
往期回顾 全部

科技要闻

龙虾热卷到AI硬件 “无脑”硬件或被淘汰

头条要闻

特朗普鼓动油轮"大胆"过霍尔木兹海峡:伊朗没有海军

头条要闻

特朗普鼓动油轮"大胆"过霍尔木兹海峡:伊朗没有海军

体育要闻

叕战奥运,张雨霏要做回“小将”

娱乐要闻

小S复工录制 感谢贾永婕陪大S走到最后

财经要闻

中小银行定存利率落入“1”时代

汽车要闻

置换补贴价8.68万 五菱缤果S 525km旗舰款上市

态度原创

家居
艺术
数码
游戏
军事航空

家居要闻

艺术之家 法式优雅

艺术要闻

吴冠中:历代画竹大都缺乏厚度与深度

数码要闻

开源鸿蒙抢滩智慧家庭 电商巨头激战科技消费|直击AWE

《Exodus》《术士》分别于2027上半年和下半年发售

军事要闻

伊朗称袭击"林肯"号航母致其撤走

无障碍浏览 进入关怀版