网易首页 > 网易号 > 正文 申请入驻

新方法大幅提升大语言模型训练效率

0
分享至


推理大语言模型通过将复杂问题分解为一系列较小步骤来解决难题。这些强大的模型在高级编程和多步规划等具有挑战性的任务上表现出色。

但是,开发推理模型需要巨大的计算量和能耗,这是由于训练过程中的低效率造成的。当少数高性能处理器持续处理复杂查询时,群组中的其他处理器却处于闲置状态。

来自MIT等机构的研究人员找到了一种利用这些计算空闲时间来有效加速推理模型训练的方法。

他们的新方法能够自动训练一个更小、更快的模型来预测较大推理大语言模型的输出,然后由较大模型进行验证。这减少了推理模型必须完成的工作量,从而加速了训练过程。

该系统的关键在于能够自适应地训练和部署较小的模型,使其仅在某些处理器空闲时才介入工作。通过利用原本会被浪费的计算资源,它在不产生额外开销的情况下加速了训练。

在多个推理大语言模型上进行测试时,该方法在保持准确性的同时将训练速度提高了一倍。这可以降低成本并提高开发高级大语言模型的能源效率,这些模型可应用于金融趋势预测或电网风险检测等领域。

MIT博士后、该技术论文的共同第一作者胡庆豪表示:"人们希望模型能够处理更复杂的任务。但如果这是模型开发的目标,那么我们需要优先考虑效率。我们找到了这个问题的无损解决方案,然后开发了一个能够在实践中实现相当显著加速的全栈系统。"

该论文的其他作者包括共同第一作者、电子工程与计算机科学研究生杨尚;电子工程与计算机科学研究生郭俊贤;资深作者、电子工程与计算机科学副教授、电子研究实验室成员及NVIDIA杰出科学家韩松,以及来自NVIDIA、苏黎世联邦理工学院、MIT-IBM Watson人工智能实验室和马萨诸塞大学阿默斯特分校的其他研究人员。该研究将在ACM编程语言和操作系统架构支持国际会议上发表。

训练瓶颈

开发人员希望推理大语言模型能够识别并纠正其批判性思维过程中的错误。这种能力使它们能够处理会困扰标准大语言模型的复杂查询。

为了教授这项技能,开发人员使用一种称为强化学习的技术来训练推理大语言模型。模型为查询生成多个潜在答案,为最佳候选答案获得奖励,并根据最佳答案进行更新。这些步骤重复数千次,模型在此过程中学习。

但研究人员发现,生成多个答案的过程(称为rollout)可能消耗强化学习训练所需执行时间的多达85%。

胡庆豪说:"相比之下,更新模型——这才是实际的'训练'部分——消耗的时间很少。"

这个瓶颈出现在标准强化学习算法中,因为训练组中的所有处理器必须完成其响应后才能进入下一步。由于某些处理器可能正在处理很长的响应,而生成较短响应的其他处理器则等待它们完成。

胡庆豪补充说:"我们的目标是将这种空闲时间转化为加速,而不产生任何浪费的成本。"

他们试图使用一种称为推测解码的现有技术来加速过程。推测解码涉及训练一个称为草案模型的较小模型来快速猜测较大模型的未来输出。

较大模型验证草案模型的猜测,其接受的响应用于训练。

因为较大模型可以一次验证草案模型的所有猜测,而不是按顺序生成每个输出,所以它加速了过程。

自适应解决方案

但在推测解码中,草案模型通常只训练一次并保持静态。这使得该技术对强化学习不可行,因为推理模型在训练期间会更新数千次。

静态草案模型在几步之后很快就会变得过时和无用。

为了克服这个问题,研究人员创建了一个名为"驯服长尾"(TLT)的灵活系统。

TLT的第一部分是自适应草案训练器,它利用空闲处理器的空闲时间来动态训练草案模型,使其与目标模型保持良好对齐,而不使用额外的计算资源。

第二个组件是自适应rollout引擎,管理推测解码以自动为每批新输入选择最优策略。该机制根据训练工作负载特征改变推测解码配置,如草案模型处理的输入数量和验证期间目标模型接受的输入数量。

此外,研究人员将草案模型设计得轻量化,以便可以快速训练。TLT重用推理模型训练过程的一些组件来训练草案模型,从而获得额外的加速收益。

胡庆豪说:"一旦某些处理器完成了短查询并变得空闲,我们立即切换它们使用相同的数据进行草案模型训练,这些数据也用于rollout过程。关键机制是我们的自适应推测解码——没有它这些收益是不可能的。"

他们在使用真实世界数据集训练的多个推理大语言模型上测试了TLT。该系统在保持每个模型准确性的同时,将训练速度提高了70%到210%。

作为额外的好处,小型草案模型可以作为免费副产品用于高效部署。

未来,研究人员希望将TLT集成到更多类型的训练和推理框架中,并找到可以使用这种方法加速的新强化学习应用。

韩松说:"随着推理继续成为驱动推理需求的主要工作负载,庆豪的TLT是应对训练这些推理模型计算瓶颈的出色工作。我认为这种方法在高效AI计算的背景下将非常有用。"

这项工作由MIT-IBM Watson人工智能实验室、MIT AI硬件项目、MIT亚马逊科学中心、现代汽车公司和美国国家科学基金会资助。

Q&A

Q1:TLT方法是什么?它如何提升大语言模型训练效率?

A:TLT(驯服长尾)是MIT研究人员开发的新方法,它通过训练一个较小的草案模型来预测大语言模型的输出,然后由大模型验证。关键是利用空闲处理器的计算时间来自适应训练草案模型,将原本浪费的计算资源转化为训练加速,在不增加额外开销的情况下将训练速度提高70%到210%。

Q2:为什么推理大语言模型训练会出现效率瓶颈?

A:瓶颈主要出现在强化学习的rollout过程中,这个过程需要生成多个潜在答案,可能消耗高达85%的执行时间。由于所有处理器必须等待最慢的处理器完成长响应后才能进入下一步,导致处理短响应的处理器长时间闲置,造成计算资源浪费。

Q3:TLT方法与传统推测解码有什么不同?

A:传统推测解码中的草案模型是静态的,只训练一次,在强化学习中会快速变得过时无用。TLT的创新在于自适应特性:它包含自适应草案训练器,能在训练过程中动态更新草案模型;还有自适应rollout引擎,能根据工作负载特征自动选择最优策略配置。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美以伊冲突,巴基斯坦这次为何能充当“关键角色” | 京酿馆

美以伊冲突,巴基斯坦这次为何能充当“关键角色” | 京酿馆

新京报评论
2026-04-17 12:20:46
李昀锐弃剧实锤?《冰湖重生》宣传停更:早知道不接碰瓷剧了

李昀锐弃剧实锤?《冰湖重生》宣传停更:早知道不接碰瓷剧了

乐悠悠娱乐
2026-04-17 10:09:41
新来的大学生修好进口设备,老板反手开除,3天后跪求他回来

新来的大学生修好进口设备,老板反手开除,3天后跪求他回来

奶茶麦子
2026-04-14 10:55:20
华为突然官宣,折叠屏新机直降4000元!

华为突然官宣,折叠屏新机直降4000元!

科技堡垒
2026-04-17 14:35:36
核桃立大功!国际顶刊证实:可降低全身炎症,4周寿命延长45%

核桃立大功!国际顶刊证实:可降低全身炎症,4周寿命延长45%

邹小蘑菇
2026-03-31 12:02:26
攻下兰州,彭总走进马步芳指挥室,意味深长:马步芳办了件大好事

攻下兰州,彭总走进马步芳指挥室,意味深长:马步芳办了件大好事

莫地方
2026-04-17 17:51:24
追梦如何防住了莱纳德——在后者打出巅峰赛季后?

追梦如何防住了莱纳德——在后者打出巅峰赛季后?

张佳玮写字的地方
2026-04-17 11:55:31
C罗距创造历史仅一步之遥!利雅得胜利赢球后8分领跑

C罗距创造历史仅一步之遥!利雅得胜利赢球后8分领跑

星耀国际足坛
2026-04-16 23:41:56
这3个国家最不欢迎中国人,满脸都是嫌弃,却总有国人上赶着去

这3个国家最不欢迎中国人,满脸都是嫌弃,却总有国人上赶着去

小兰聊历史
2026-04-01 07:00:02
每体:巴萨关注药厂后卫格里马尔多,转会费可能低于1200万欧

每体:巴萨关注药厂后卫格里马尔多,转会费可能低于1200万欧

兰亭墨未干
2026-04-17 18:04:22
进化史上的BUG,4亿年不变的鳄鱼,是地球史上最成功的物种?

进化史上的BUG,4亿年不变的鳄鱼,是地球史上最成功的物种?

观察宇宙
2026-04-16 20:55:02
王珞丹现状:搬进深山生活,母亲不再催婚,41岁和两只狗相依为命

王珞丹现状:搬进深山生活,母亲不再催婚,41岁和两只狗相依为命

胡一舸南游y
2026-04-14 22:06:07
北京国际电影节开幕,韩红幽默点评:我不知道李乃文是不是真的他唱的

北京国际电影节开幕,韩红幽默点评:我不知道李乃文是不是真的他唱的

乡野小珥
2026-04-17 09:13:02
张子宇新秀合同或超50万!预计榜眼入WNBA 女篮2.2米王牌前途无量

张子宇新秀合同或超50万!预计榜眼入WNBA 女篮2.2米王牌前途无量

颜小白的篮球梦
2026-04-17 12:20:00
伊朗为何不敢从地面发起反攻?因为35年前伊拉克先胜后败输得太惨

伊朗为何不敢从地面发起反攻?因为35年前伊拉克先胜后败输得太惨

装甲铲史官
2026-04-16 12:21:56
马斯克突然断网:1.5亿用户平台说关就关

马斯克突然断网:1.5亿用户平台说关就关

晚风也遗憾
2026-04-17 08:20:05
树倒猢狲散!峰学未来翻天了, 大鹏高调离职反踩一脚, 张姩菡不忍

树倒猢狲散!峰学未来翻天了, 大鹏高调离职反踩一脚, 张姩菡不忍

阿凫爱吐槽
2026-04-16 06:07:04
后续!孕妇200买水果被老公骂:已去医院终止妊娠 老公发怒砸东西

后续!孕妇200买水果被老公骂:已去医院终止妊娠 老公发怒砸东西

小鋭有话说
2026-04-14 08:37:44
古力娜扎:真空上阵是放飞自我还是资本博弈?

古力娜扎:真空上阵是放飞自我还是资本博弈?

娱乐领航家
2026-04-02 21:00:03
你敢断供,我就换供应商,安世中国话音刚落,新供应链突然上马!

你敢断供,我就换供应商,安世中国话音刚落,新供应链突然上马!

奇思妙想生活家
2026-04-17 18:12:20
2026-04-17 20:12:49
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
17749文章数 49699关注度
往期回顾 全部

科技要闻

7家头部平台被罚没35.97亿元

头条要闻

"封锁"行动升级 美军:在全球公海追捕所有"涉伊"船只

头条要闻

"封锁"行动升级 美军:在全球公海追捕所有"涉伊"船只

体育要闻

遭网暴后,22岁大满贯冠军反击:我的头发足够好

娱乐要闻

刘德华挚友潘宏彬离世 曾一起租房住

财经要闻

"影子万科"2.0:管理层如何吸血万物云?

汽车要闻

又快又稳的开挂动力! 阿维塔06T全系搭分布式电驱

态度原创

本地
时尚
亲子
家居
公开课

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

直播|| 小预算也能买到好看又能装的上班包

亲子要闻

“孩子在童年接触的高雅事物越多,成年后,低俗的事物就越难进入孩子的生命”,男子:童年的审美土壤决定了孩子一生的精神底色

家居要闻

法式线条 时光静淌

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版