网易首页 > 网易号 > 正文 申请入驻

大模型推理新规,系统优化打破大模型推理瓶颈,揭秘背后的原因!

0
分享至





大语言模型推理的两个阶段

根据严明玉团队的研究,大语言模型的推理过程可以分为两个完全不同的阶段,Prefill阶段和Decode阶段。每个阶段的性能瓶颈和挑战各不相同。

这个过程主要依赖于大规模矩阵运算,GPU的计算单元负载较高,且并行性较好,因此,推理的瓶颈主要受到计算能力的制约。这意味着,推理延迟和吞吐量主要取决于GPU的算力。



相比Prefill阶段,Decode阶段需要逐步生成输出的每个token。

因此Decode阶段的性能更多受到内存访问速度的限制,而不是算力。

研究还指出,推理过程中到底是Prefill慢还是Decode慢,并不是固定的,它与输入和输出的长度密切相关。



输入较短时,Decode阶段通常是瓶颈;但输入较长时,Prefill阶段的计算量增加,反而可能成为瓶颈。



影响推理性能的因素

Decode阶段的瓶颈与模型规模也有很大关系。



对于较小的模型频繁访问KV Cache的Attention计算会成为瓶颈;但对于较大的模型,前馈网络的内存加载成本则可能更加突出。

这意味着,不能简单地将Attention或FFN视为固定的瓶颈,而是需要结合具体情况来判断。

研究团队还对能耗进行了分析,结果显示,大语言模型推理的总能耗几乎全部来自Decode阶段。

输入长度对总能耗的影响很小,而输出的token数量则几乎直接决定了能耗的大小。因此,若要降低能耗,限制输出长度比优化Prefill阶段的计算更为有效。



在多GPU扩展方面,团队的实验发现,GPU的并行处理并非在所有场景下都能带来性能提升。

对于Prefill阶段,由于计算量大,分摊到多GPU上通常能够提高效率。

在Decode阶段,由于计算量较小,每一步都需要频繁的GPU间通信和同步,这反而可能成为性能瓶颈,导致并行化效果不明显,甚至可能会拖慢速度。

因此,在Decode为主的场景下,单GPU或较轻量的流水并行方案可能更为合适。





总结

严明玉教授团队的这项研究为我们提供了一套完整的、系统的框架,帮助我们深入理解大语言模型推理阶段的性能瓶颈。研究表明,推理性能不仅仅取决于算力或Attention计算,还涉及内存带宽、计算和内存的平衡以及系统配置等多方面因素。

对于工程师和研究人员来说,这项研究的意义不仅在于纠正了一些长期存在的误解(如Attention是瓶颈、多GPU一定更快等),更重要的是为后续的优化方向提供了清晰的思路:Prefill和Decode阶段应分别针对其特有的瓶颈进行优化,而不是简单的统一方案。



随着大语言模型的不断发展,我们必须从系统级别重新审视其性能表现,从而更有效地设计出高效的推理架构,并应对日益增长的计算需求。这项研究不仅为大语言模型的未来发展提供了宝贵的见解,也为优化策略的制定提供了切实可行的指导。

声明:个人原创,仅供参考

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
今日最惨股,五分钟走出天地板跌停,一股民刚进去就亏20个点!

今日最惨股,五分钟走出天地板跌停,一股民刚进去就亏20个点!

财经智多星
2026-02-05 16:55:43
特朗普又遭遇失败,纽森赢得一局

特朗普又遭遇失败,纽森赢得一局

山河路口
2026-02-05 18:23:36
爱泼斯坦案文件再度曝光,各国政要都有哪些被“拉下水”?

爱泼斯坦案文件再度曝光,各国政要都有哪些被“拉下水”?

上游新闻
2026-02-03 15:13:08
你见过哪些因为“作死”,亲手毁掉婚姻的人?网友:结局大快人心

你见过哪些因为“作死”,亲手毁掉婚姻的人?网友:结局大快人心

夜深爱杂谈
2026-02-04 23:37:05
这种饮料正在摧毁你的胰岛细胞!很多糖尿病,都和这种饮料有关!

这种饮料正在摧毁你的胰岛细胞!很多糖尿病,都和这种饮料有关!

蜉蝣说
2026-01-29 14:46:50
钱再多有什么用,64岁郎平如今的现状,给所有运动员们提了个醒

钱再多有什么用,64岁郎平如今的现状,给所有运动员们提了个醒

削桐作琴
2025-12-10 16:53:18
再见JJJ!再见亨特!湖人在下一盘大棋,老詹该降薪了

再见JJJ!再见亨特!湖人在下一盘大棋,老詹该降薪了

世界体育圈
2026-02-05 17:12:12
王菲飞机上被拍,55岁老态尽显,没有网上吹的那么漂亮

王菲飞机上被拍,55岁老态尽显,没有网上吹的那么漂亮

乡野小珥
2026-02-03 13:44:43
爱泼斯坦“自缢”后照片首度公开:脖子有血色勒痕,喉部甲状软骨断裂

爱泼斯坦“自缢”后照片首度公开:脖子有血色勒痕,喉部甲状软骨断裂

红星新闻
2026-02-04 13:50:19
卢靖姗晒与韩庚双胞胎儿女,海边度假尽显母亲魅力

卢靖姗晒与韩庚双胞胎儿女,海边度假尽显母亲魅力

科学发掘
2026-02-05 18:54:24
财政压力的下半场:退休人员占比近四成,才是硬账

财政压力的下半场:退休人员占比近四成,才是硬账

超先声
2026-01-09 16:45:39
医生建议:过了70的老人,宁可牙齿缺失,也别在这5种状态去镶牙

医生建议:过了70的老人,宁可牙齿缺失,也别在这5种状态去镶牙

路医生健康科普
2026-02-05 10:40:03
美媒惊呼,全球缺的不是变压器,而是中国牢牢掌控的这张王牌

美媒惊呼,全球缺的不是变压器,而是中国牢牢掌控的这张王牌

犟种美食
2026-01-21 07:08:58
英名主持:阿森纳拥有史上最强阵容,可以豪取四冠王

英名主持:阿森纳拥有史上最强阵容,可以豪取四冠王

星耀国际足坛
2026-02-05 23:46:01
爱泼斯坦私人飞机驾驶员:克林顿曾坐过26次,空姐像糖果脱衣舞娘

爱泼斯坦私人飞机驾驶员:克林顿曾坐过26次,空姐像糖果脱衣舞娘

海佑讲史
2026-02-05 13:00:05
【2026.2.5】爆姐的饭后爆料:生命不止,爆料不息!

【2026.2.5】爆姐的饭后爆料:生命不止,爆料不息!

娱乐真爆姐
2026-02-05 23:32:17
上海中考分流压力大?市人大代表:分流意义越来越小,可为取消中考做好政策储备

上海中考分流压力大?市人大代表:分流意义越来越小,可为取消中考做好政策储备

纵相新闻
2026-02-05 17:25:02
再爆发!王俊杰19+4创生涯第二高 疯狂造犯规12罚11中

再爆发!王俊杰19+4创生涯第二高 疯狂造犯规12罚11中

醉卧浮生
2026-02-05 13:22:14
S妈回应大S儿女缺席,态度和马筱梅反差大,网友直呼太讽刺!

S妈回应大S儿女缺席,态度和马筱梅反差大,网友直呼太讽刺!

古希腊掌管月桂的神
2026-02-04 16:23:44
国际乒联终身主席怒了!樊振东打不打奥运会?应该我们自己说了算

国际乒联终身主席怒了!樊振东打不打奥运会?应该我们自己说了算

梦史
2026-01-19 14:16:23
2026-02-06 00:16:49
祈福所有
祈福所有
感谢关注
407文章数 104关注度
往期回顾 全部

科技要闻

美团买下叮咚买菜,防御还是进击?

头条要闻

上海男子刚退休就瘫痪 小23岁女友照护崩溃:无名无分

头条要闻

上海男子刚退休就瘫痪 小23岁女友照护崩溃:无名无分

体育要闻

奇才:我学生……独行侠:成交!

娱乐要闻

微博之夜卷入座位风波!杨幂超话沦陷

财经要闻

中美"只会有好消息" 经济冷暖看房价

汽车要闻

李想为全新L9预热 all in AI造更好的车

态度原创

健康
本地
游戏
公开课
军事航空

耳石症分类型,症状大不同

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

受存储供应不足和涨价影响,Steam 主机延期发售

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

54岁荷兰王后以预备役军人身份参军 王室解释原因

无障碍浏览 进入关怀版