网易首页 > 网易号 > 正文 申请入驻

新方法大幅提升大语言模型训练效率

0
分享至


推理大语言模型通过将复杂问题分解为一系列较小步骤来解决难题。这些强大的模型在高级编程和多步规划等具有挑战性的任务上表现出色。

但是,开发推理模型需要巨大的计算量和能耗,这是由于训练过程中的低效率造成的。当少数高性能处理器持续处理复杂查询时,群组中的其他处理器却处于闲置状态。

来自MIT等机构的研究人员找到了一种利用这些计算空闲时间来有效加速推理模型训练的方法。

他们的新方法能够自动训练一个更小、更快的模型来预测较大推理大语言模型的输出,然后由较大模型进行验证。这减少了推理模型必须完成的工作量,从而加速了训练过程。

该系统的关键在于能够自适应地训练和部署较小的模型,使其仅在某些处理器空闲时才介入工作。通过利用原本会被浪费的计算资源,它在不产生额外开销的情况下加速了训练。

在多个推理大语言模型上进行测试时,该方法在保持准确性的同时将训练速度提高了一倍。这可以降低成本并提高开发高级大语言模型的能源效率,这些模型可应用于金融趋势预测或电网风险检测等领域。

MIT博士后、该技术论文的共同第一作者胡庆豪表示:"人们希望模型能够处理更复杂的任务。但如果这是模型开发的目标,那么我们需要优先考虑效率。我们找到了这个问题的无损解决方案,然后开发了一个能够在实践中实现相当显著加速的全栈系统。"

该论文的其他作者包括共同第一作者、电子工程与计算机科学研究生杨尚;电子工程与计算机科学研究生郭俊贤;资深作者、电子工程与计算机科学副教授、电子研究实验室成员及NVIDIA杰出科学家韩松,以及来自NVIDIA、苏黎世联邦理工学院、MIT-IBM Watson人工智能实验室和马萨诸塞大学阿默斯特分校的其他研究人员。该研究将在ACM编程语言和操作系统架构支持国际会议上发表。

训练瓶颈

开发人员希望推理大语言模型能够识别并纠正其批判性思维过程中的错误。这种能力使它们能够处理会困扰标准大语言模型的复杂查询。

为了教授这项技能,开发人员使用一种称为强化学习的技术来训练推理大语言模型。模型为查询生成多个潜在答案,为最佳候选答案获得奖励,并根据最佳答案进行更新。这些步骤重复数千次,模型在此过程中学习。

但研究人员发现,生成多个答案的过程(称为rollout)可能消耗强化学习训练所需执行时间的多达85%。

胡庆豪说:"相比之下,更新模型——这才是实际的'训练'部分——消耗的时间很少。"

这个瓶颈出现在标准强化学习算法中,因为训练组中的所有处理器必须完成其响应后才能进入下一步。由于某些处理器可能正在处理很长的响应,而生成较短响应的其他处理器则等待它们完成。

胡庆豪补充说:"我们的目标是将这种空闲时间转化为加速,而不产生任何浪费的成本。"

他们试图使用一种称为推测解码的现有技术来加速过程。推测解码涉及训练一个称为草案模型的较小模型来快速猜测较大模型的未来输出。

较大模型验证草案模型的猜测,其接受的响应用于训练。

因为较大模型可以一次验证草案模型的所有猜测,而不是按顺序生成每个输出,所以它加速了过程。

自适应解决方案

但在推测解码中,草案模型通常只训练一次并保持静态。这使得该技术对强化学习不可行,因为推理模型在训练期间会更新数千次。

静态草案模型在几步之后很快就会变得过时和无用。

为了克服这个问题,研究人员创建了一个名为"驯服长尾"(TLT)的灵活系统。

TLT的第一部分是自适应草案训练器,它利用空闲处理器的空闲时间来动态训练草案模型,使其与目标模型保持良好对齐,而不使用额外的计算资源。

第二个组件是自适应rollout引擎,管理推测解码以自动为每批新输入选择最优策略。该机制根据训练工作负载特征改变推测解码配置,如草案模型处理的输入数量和验证期间目标模型接受的输入数量。

此外,研究人员将草案模型设计得轻量化,以便可以快速训练。TLT重用推理模型训练过程的一些组件来训练草案模型,从而获得额外的加速收益。

胡庆豪说:"一旦某些处理器完成了短查询并变得空闲,我们立即切换它们使用相同的数据进行草案模型训练,这些数据也用于rollout过程。关键机制是我们的自适应推测解码——没有它这些收益是不可能的。"

他们在使用真实世界数据集训练的多个推理大语言模型上测试了TLT。该系统在保持每个模型准确性的同时,将训练速度提高了70%到210%。

作为额外的好处,小型草案模型可以作为免费副产品用于高效部署。

未来,研究人员希望将TLT集成到更多类型的训练和推理框架中,并找到可以使用这种方法加速的新强化学习应用。

韩松说:"随着推理继续成为驱动推理需求的主要工作负载,庆豪的TLT是应对训练这些推理模型计算瓶颈的出色工作。我认为这种方法在高效AI计算的背景下将非常有用。"

这项工作由MIT-IBM Watson人工智能实验室、MIT AI硬件项目、MIT亚马逊科学中心、现代汽车公司和美国国家科学基金会资助。

Q&A

Q1:TLT方法是什么?它如何提升大语言模型训练效率?

A:TLT(驯服长尾)是MIT研究人员开发的新方法,它通过训练一个较小的草案模型来预测大语言模型的输出,然后由大模型验证。关键是利用空闲处理器的计算时间来自适应训练草案模型,将原本浪费的计算资源转化为训练加速,在不增加额外开销的情况下将训练速度提高70%到210%。

Q2:为什么推理大语言模型训练会出现效率瓶颈?

A:瓶颈主要出现在强化学习的rollout过程中,这个过程需要生成多个潜在答案,可能消耗高达85%的执行时间。由于所有处理器必须等待最慢的处理器完成长响应后才能进入下一步,导致处理短响应的处理器长时间闲置,造成计算资源浪费。

Q3:TLT方法与传统推测解码有什么不同?

A:传统推测解码中的草案模型是静态的,只训练一次,在强化学习中会快速变得过时无用。TLT的创新在于自适应特性:它包含自适应草案训练器,能在训练过程中动态更新草案模型;还有自适应rollout引擎,能根据工作负载特征自动选择最优策略配置。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
二叔给我介绍了一个空姐,年薪140万,我正要答应她提出了3个条件

二叔给我介绍了一个空姐,年薪140万,我正要答应她提出了3个条件

小月故事
2026-01-29 18:27:20
零元购?已有3家中超球队向恒大足校花钱买人,球迷:就剩海港了

零元购?已有3家中超球队向恒大足校花钱买人,球迷:就剩海港了

足球大腕
2026-02-27 11:47:30
原来刘亦菲身材这么好,侧面薄不说,臀部还很翘。

原来刘亦菲身材这么好,侧面薄不说,臀部还很翘。

喜欢历史的阿繁
2026-02-27 08:26:01
黄油欧美卖爆,顿顿都离不开,为啥中国人却不爱,超市也很少卖?

黄油欧美卖爆,顿顿都离不开,为啥中国人却不爱,超市也很少卖?

揽星河的笔记
2025-12-08 13:30:38
2026年春晚,释放了3个信号,普通人要清醒

2026年春晚,释放了3个信号,普通人要清醒

老特有话说
2026-02-25 22:03:08
东契奇轰41+8+8仍无缘今日最佳!对不起,你碰到创纪录的杜兰特了

东契奇轰41+8+8仍无缘今日最佳!对不起,你碰到创纪录的杜兰特了

世界体育圈
2026-02-27 13:46:45
东莞厚街,房价从2015年7650涨至22860,当前价位回到真实价格

东莞厚街,房价从2015年7650涨至22860,当前价位回到真实价格

阿离家居
2026-02-27 09:03:05
德国总理默茨会见了10位浙江企业家,其中两位是浙江本土车企创始人

德国总理默茨会见了10位浙江企业家,其中两位是浙江本土车企创始人

林子说事
2026-02-27 05:39:10
日本动物园请人扮演大熊猫吸引游客

日本动物园请人扮演大熊猫吸引游客

界面新闻
2026-02-26 18:20:03
谁能想到她已经62了,说18都有人信,怎么做到这么好的状态的

谁能想到她已经62了,说18都有人信,怎么做到这么好的状态的

白宸侃片
2026-02-11 11:56:19
大批美国游客涌入中国,回国后坦言:客观对比,中国比美国强多了

大批美国游客涌入中国,回国后坦言:客观对比,中国比美国强多了

老搽学科普
2026-02-26 14:23:34
人可以狠心到什么程度?看网友讲述,发现我真做不到这般绝

人可以狠心到什么程度?看网友讲述,发现我真做不到这般绝

侃神评故事
2026-02-27 07:40:03
多家功率半导体厂商3月起涨价,涨幅至少10%,原材料涨价和产能紧张是主因

多家功率半导体厂商3月起涨价,涨幅至少10%,原材料涨价和产能紧张是主因

红星资本局
2026-02-26 19:49:04
无缘首进500赛四强!吴易昺0-2不敌5号种子,止步阿卡普尔科八强

无缘首进500赛四强!吴易昺0-2不敌5号种子,止步阿卡普尔科八强

全景体育V
2026-02-27 09:50:26
湖人防守是真辣眼!首发5个仅1个能防,全场漏三分,体系乱糟糟!

湖人防守是真辣眼!首发5个仅1个能防,全场漏三分,体系乱糟糟!

篮球资讯达人
2026-02-27 13:35:03
李小璐的新瓜,信息量有点大啊…

李小璐的新瓜,信息量有点大啊…

听风听你
2026-02-27 12:31:08
男子春节前将一碗牛肉饭遗忘在办公室,返工后发现其发霉长出15厘米高“黑色丛林”

男子春节前将一碗牛肉饭遗忘在办公室,返工后发现其发霉长出15厘米高“黑色丛林”

环球网资讯
2026-02-26 14:11:46
这就是背叛中国的下场,被美欧轮番“吸血”,没有一国愿意帮助它

这就是背叛中国的下场,被美欧轮番“吸血”,没有一国愿意帮助它

古事寻踪记
2026-02-25 07:32:13
轰20+5+9!登顶骑士第一,哈登影响力太大了,米切尔也把话挑明了

轰20+5+9!登顶骑士第一,哈登影响力太大了,米切尔也把话挑明了

巴叔GO聊体育
2026-02-27 12:53:00
升破6.85!人民币创两年新高背后,外资正在疯狂抄底你的“命脉”

升破6.85!人民币创两年新高背后,外资正在疯狂抄底你的“命脉”

王二哥老搞笑
2026-02-26 14:08:07
2026-02-27 14:15:00
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
16338文章数 49692关注度
往期回顾 全部

科技要闻

英伟达业绩亮眼仍跌5% 两大因素成核心隐忧

头条要闻

牛弹琴:中国的两个邻国大打出手 伤亡相当惨重

头条要闻

牛弹琴:中国的两个邻国大打出手 伤亡相当惨重

体育要闻

一场必须要赢的比赛,男篮何止击败了裁判

娱乐要闻

继网暴谷爱凌后 美国欲没收其全部收入

财经要闻

魅族手机,终成弃子?

汽车要闻

宝马X5传承版发布:给经典G05的一场体面谢幕?

态度原创

数码
健康
时尚
家居
房产

数码要闻

ROG幻系列,让每一份灵感都能完美落地

转头就晕的耳石症,能开车上班吗?

今年春天最美搭配:西装+半裙,怎么穿都好看!

家居要闻

素色肌理 品意式格调

房产要闻

巨亏160亿后,这家房企巨头,转战海南做贸易!

无障碍浏览 进入关怀版