网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

大模型推理新规，系统优化打破大模型推理瓶颈，揭秘背后的原因！

2025-12-23 16:43:19　来源: 祈福所有

四川举报

0

分享至

大语言模型推理的两个阶段

根据严明玉团队的研究，大语言模型的推理过程可以分为两个完全不同的阶段，Prefill阶段和Decode阶段。每个阶段的性能瓶颈和挑战各不相同。

这个过程主要依赖于大规模矩阵运算，GPU的计算单元负载较高，且并行性较好，因此，推理的瓶颈主要受到计算能力的制约。这意味着，推理延迟和吞吐量主要取决于GPU的算力。

相比Prefill阶段，Decode阶段需要逐步生成输出的每个token。

因此Decode阶段的性能更多受到内存访问速度的限制，而不是算力。

研究还指出，推理过程中到底是Prefill慢还是Decode慢，并不是固定的，它与输入和输出的长度密切相关。

输入较短时，Decode阶段通常是瓶颈；但输入较长时，Prefill阶段的计算量增加，反而可能成为瓶颈。

影响推理性能的因素

Decode阶段的瓶颈与模型规模也有很大关系。

对于较小的模型频繁访问KV Cache的Attention计算会成为瓶颈；但对于较大的模型，前馈网络的内存加载成本则可能更加突出。

这意味着，不能简单地将Attention或FFN视为固定的瓶颈，而是需要结合具体情况来判断。

研究团队还对能耗进行了分析，结果显示，大语言模型推理的总能耗几乎全部来自Decode阶段。

输入长度对总能耗的影响很小，而输出的token数量则几乎直接决定了能耗的大小。因此，若要降低能耗，限制输出长度比优化Prefill阶段的计算更为有效。

在多GPU扩展方面，团队的实验发现，GPU的并行处理并非在所有场景下都能带来性能提升。

对于Prefill阶段，由于计算量大，分摊到多GPU上通常能够提高效率。

在Decode阶段，由于计算量较小，每一步都需要频繁的GPU间通信和同步，这反而可能成为性能瓶颈，导致并行化效果不明显，甚至可能会拖慢速度。

因此，在Decode为主的场景下，单GPU或较轻量的流水并行方案可能更为合适。

总结

严明玉教授团队的这项研究为我们提供了一套完整的、系统的框架，帮助我们深入理解大语言模型推理阶段的性能瓶颈。研究表明，推理性能不仅仅取决于算力或Attention计算，还涉及内存带宽、计算和内存的平衡以及系统配置等多方面因素。

对于工程师和研究人员来说，这项研究的意义不仅在于纠正了一些长期存在的误解（如Attention是瓶颈、多GPU一定更快等），更重要的是为后续的优化方向提供了清晰的思路：Prefill和Decode阶段应分别针对其特有的瓶颈进行优化，而不是简单的统一方案。

随着大语言模型的不断发展，我们必须从系统级别重新审视其性能表现，从而更有效地设计出高效的推理架构，并应对日益增长的计算需求。这项研究不仅为大语言模型的未来发展提供了宝贵的见解，也为优化策略的制定提供了切实可行的指导。

声明：个人原创，仅供参考

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

网民建议将距仙桃城区更近的天门南站更名，官方回应：车站命名符合规定

澎湃新闻 2026-02-05 19:13:13
15 跟贴 15
8岁父母双亡因"一道光"男子成7家饭店老板年销400万

极目新闻 2026-02-05 10:42:35
562 跟贴 562

深圳湾公园两停车场试点取消预约停车应对“黄牛”占位乱象

南方都市报 2026-02-04 23:26:28
203 跟贴 203

哈尔滨冰雪大世界部分冰雕热到滴水，一周后当地还将升温超10℃，工作人员：不会再补冰，闭园时间待定

极目新闻 2026-02-05 17:56:17
6 跟贴 6
马斯克个人财富突破8000亿美元 4个月内4次刷新个人财富纪录

财联社 2026-02-05 15:52:02
668 跟贴 668

“阿嬷手作”55元一碗螺蛳粉被吐槽贵店员：最近风评不佳，但售价高是有原因的

封面新闻 2026-02-03 22:36:18
549 跟贴 549

国乒12人全员开门红今天将上演6场“中日对决”

央视新闻客户端 2026-02-05 09:27:09
110 跟贴 110
这就是传承！3岁男孩遇上英歌队路训，自信大方互动

环球网资讯 2026-02-05 15:16:15
85 跟贴 85

会谈濒临破裂至少九国紧急斡旋美伊敲定谈判地点

国际在线 2026-02-05 06:53:02
190 跟贴 190
上海浦东机场惊人一幕：7名中东游客托运40多个行李箱，重超500斤！外国人在上海买疯了

极目新闻 2026-02-05 12:06:47
0 跟贴 0
中考对孩子压力巨大，分流意义已越来越小，可以为取消中考做好政策储备

纵相新闻 2026-02-05 17:25:02
262 跟贴 262
“有人花7万元打了83支玻尿酸”，多家医美机构可“造腹肌”，医生：有栓塞风险

红星新闻 2026-02-05 20:02:17
0 跟贴 0
关键测试遇燃料泄漏，美载人绕月任务再推迟一个月

环球网资讯 2026-02-05 07:00:07
205 跟贴 205
今年起苏浙皖均将实施中小学春秋假，“互推”亲子游客源

澎湃新闻 2026-02-05 12:53:04
196 跟贴 196
比亚迪1月德国销量同比激增10倍，超特斯拉两倍

环球网资讯 2026-02-05 10:31:08
160 跟贴 160
2岁半宝宝跟妈妈到山东探亲一个月，身高猛涨4cm！妈妈：爱吃面食，户外运动也充足

大象新闻 2026-02-05 11:45:02
116 跟贴 116
广东21地市2025年度经济数据出炉：梅州GDP增速第一

南方都市报 2026-02-05 19:40:11
0 跟贴 0
网传“江西丰城高速特大事故73人死亡”系谣言（2026·02·05）

今日辟谣 2026-02-05 17:34:24
33 跟贴 33
河南一景区发巨额年终奖，有员工领到45万

大风新闻 2026-02-05 18:42:03
1 跟贴 1
这些冷门城市，竟是最具幸福感的地方？

大象新闻 2026-02-05 19:21:08
0 跟贴 0
一言难尽！温州网红景区餐厅被吐槽！

温晓生 2026-02-05 23:43:04
0 跟贴 0
现货白银跌幅再度扩大至16%

财联社 2026-02-05 22:38:07
0 跟贴 0
事发塘厦！40克的黄金首饰终于找到了

小塘 2026-02-05 23:58:50
0 跟贴 0
浙江打金店扫出1700克黄金后续！知情人曝行业内幕，老板回应争议

奇思妙想草叶君 2026-02-05 23:49:21
0 跟贴 0

今日最惨股，五分钟走出天地板跌停，一股民刚进去就亏20个点！

今日最惨股，五分钟走出天地板跌停，一股民刚进去就亏20个点！

财经智多星

2026-02-05 16:55:43

特朗普又遭遇失败，纽森赢得一局

特朗普又遭遇失败，纽森赢得一局

山河路口

2026-02-05 18:23:36

爱泼斯坦案文件再度曝光，各国政要都有哪些被“拉下水”？

爱泼斯坦案文件再度曝光，各国政要都有哪些被“拉下水”？

上游新闻

2026-02-03 15:13:08

你见过哪些因为“作死”，亲手毁掉婚姻的人？网友：结局大快人心

你见过哪些因为“作死”，亲手毁掉婚姻的人？网友：结局大快人心

夜深爱杂谈

2026-02-04 23:37:05

这种饮料正在摧毁你的胰岛细胞！很多糖尿病，都和这种饮料有关！

这种饮料正在摧毁你的胰岛细胞！很多糖尿病，都和这种饮料有关！

蜉蝣说

2026-01-29 14:46:50

钱再多有什么用，64岁郎平如今的现状，给所有运动员们提了个醒

钱再多有什么用，64岁郎平如今的现状，给所有运动员们提了个醒

削桐作琴

2025-12-10 16:53:18

再见JJJ！再见亨特！湖人在下一盘大棋，老詹该降薪了

再见JJJ！再见亨特！湖人在下一盘大棋，老詹该降薪了

世界体育圈

2026-02-05 17:12:12

王菲飞机上被拍，55岁老态尽显，没有网上吹的那么漂亮

王菲飞机上被拍，55岁老态尽显，没有网上吹的那么漂亮

乡野小珥

2026-02-03 13:44:43

爱泼斯坦“自缢”后照片首度公开：脖子有血色勒痕，喉部甲状软骨断裂

爱泼斯坦“自缢”后照片首度公开：脖子有血色勒痕，喉部甲状软骨断裂

红星新闻

2026-02-04 13:50:19

卢靖姗晒与韩庚双胞胎儿女，海边度假尽显母亲魅力

卢靖姗晒与韩庚双胞胎儿女，海边度假尽显母亲魅力

科学发掘

2026-02-05 18:54:24

财政压力的下半场：退休人员占比近四成，才是硬账

财政压力的下半场：退休人员占比近四成，才是硬账

超先声

2026-01-09 16:45:39

医生建议：过了70的老人，宁可牙齿缺失，也别在这5种状态去镶牙

医生建议：过了70的老人，宁可牙齿缺失，也别在这5种状态去镶牙

路医生健康科普

2026-02-05 10:40:03

美媒惊呼，全球缺的不是变压器，而是中国牢牢掌控的这张王牌

美媒惊呼，全球缺的不是变压器，而是中国牢牢掌控的这张王牌

犟种美食

2026-01-21 07:08:58

英名主持：阿森纳拥有史上最强阵容，可以豪取四冠王

英名主持：阿森纳拥有史上最强阵容，可以豪取四冠王

星耀国际足坛

2026-02-05 23:46:01

爱泼斯坦私人飞机驾驶员：克林顿曾坐过26次，空姐像糖果脱衣舞娘

爱泼斯坦私人飞机驾驶员：克林顿曾坐过26次，空姐像糖果脱衣舞娘

海佑讲史

2026-02-05 13:00:05

【2026.2.5】爆姐的饭后爆料：生命不止，爆料不息！

【2026.2.5】爆姐的饭后爆料：生命不止，爆料不息！

娱乐真爆姐

2026-02-05 23:32:17

上海中考分流压力大？市人大代表：分流意义越来越小，可为取消中考做好政策储备

上海中考分流压力大？市人大代表：分流意义越来越小，可为取消中考做好政策储备

纵相新闻

2026-02-05 17:25:02

再爆发！王俊杰19+4创生涯第二高疯狂造犯规12罚11中

再爆发！王俊杰19+4创生涯第二高疯狂造犯规12罚11中

醉卧浮生

2026-02-05 13:22:14

S妈回应大S儿女缺席，态度和马筱梅反差大，网友直呼太讽刺！

S妈回应大S儿女缺席，态度和马筱梅反差大，网友直呼太讽刺！

古希腊掌管月桂的神

2026-02-04 16:23:44

国际乒联终身主席怒了！樊振东打不打奥运会？应该我们自己说了算

国际乒联终身主席怒了！樊振东打不打奥运会？应该我们自己说了算

梦史

2026-01-19 14:16:23

407文章数 104关注度

往期回顾全部

科技要闻

美团买下叮咚买菜，防御还是进击？

头条要闻

上海男子刚退休就瘫痪小23岁女友照护崩溃：无名无分

头条要闻

上海男子刚退休就瘫痪小23岁女友照护崩溃：无名无分

体育要闻

奇才：我学生……独行侠：成交！

娱乐要闻

微博之夜卷入座位风波！杨幂超话沦陷

财经要闻

中美"只会有好消息" 经济冷暖看房价

汽车要闻

李想为全新L9预热 all in AI造更好的车

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

健康

本地

游戏

公开课

军事航空

耳石症分类型，症状大不同

本地新闻

围观了北京第一届黑色羽绒服大赛，我笑疯了

受存储供应不足和涨价影响，Steam 主机延期发售

公开课

李玫瑾：为什么性格比能力更重要？

军事要闻

54岁荷兰王后以预备役军人身份参军王室解释原因

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版