网易首页 > 网易号 > 正文 申请入驻

清华大学郑纬民:两大核心成果助力推理成本降低及AIPC快速演进

0
分享至

12月10日,清华大学计算机科学与技术系教授、博士生导师郑纬民教授在第二十届中国IDC产业年度大典上发表题为《人工智能大模型推理系统产业化》的主题演讲。

本次演讲郑纬民教授全面探讨了大模型推理系统的现状、挑战与技术突破。演讲中,教授从硬件算力视角解释了为何推理必须依赖GPU的矩阵运算与内存带宽,并指出,流量繁忙本质上是算力能力不足,推理是今年算力最主要的应用方向。

此外,郑纬民教授详细拆解了DeepSeek 满血版等超大参数模型对显存的极致占用,并重点介绍了清华大学团队的两项核心成果:一是解决长文本并发难题的 Mooncake架构;二是通过显存与内存异构调度实现单卡运行满血版大模型的 KTransformers 技术。最后,通过银行、司法等实际落地案例,论证了 AIPC 从概念走向现实的生产力价值。



以下是演讲实录,在不改变原意的基础上略有删减:

算力重心转移:智算需求从训练走向推理

郑纬民:各位领导,各位专家,大家好,非常高兴来参加这个会。今天我跟大家交流推理系统。现在对智算算力的需求非常旺盛,需要512块卡、5000块卡甚至10000块卡。需求很旺,租用要两三个礼拜才能租到,不是今天想租明天就能给你。前两年算力主要做训练,从今年开始,主要做推理,因此我讲讲推理的事。

我讲讲推理是用什么芯片做的。现在的推理用的都是GPU。你可能要问,为什么用GPU不用CPU呢?GPU跟CPU比有两个优点:第一,它做矩阵运算非常快,矩阵的加载、乘除、转置非常快。第二,GPU内存读写带宽比较高,读写数据非常快。我们做训练、推理需要矩阵运算快、内存快,GPU行,CPU不行,因此大家都用GPU了。GPU得到了很大发展,CPU在训练推理中没这么热闹。

显存瓶颈拆解

GPU的内存放两样东西。第一,大模型训练以后的参数。一个大模型训练完以后产生参数,比如模型有100个参数,训练完就产生100个参数,要放在推理卡的内存上。DeepSeek的满血版有6000多亿参数,要放在推理卡的内存才能用。第二,推理过程是一步一步推的,中间过程KV Cache也放在推理卡内存,某种程度上,推理卡中间部署的开销比参数还要多。因此大家也有这个印象,推理卡内存要足够大,才能放得下参数和中间结果。

举个例子,DeepSeek满血版是671B参数,假设每个参数是二进制8位。这么多参数要放在推理卡内存,如果每块卡是80G内存,一除,至少要十来块卡才搁得下。还要放KV Cache,大约需要10块卡才能装上满血版,一般大家都买16块卡。KV Cache中间结果占的内存很大,推理卡内存要放参数,要放中间结果,要大才行,否则有问题。

Mooncake架构创新:解决长文本推理的宕机难题

今天我讲两个事情,Mooncake,去年月之暗面推出来推理系统,做推理的。大家喜欢它是因为:支持200万字上下文。上下文一查中间内容越多越好,这是Kimi出来大家喜欢的主要原因。 “数据越多,模型越大,上下文越长等于更高的智能,效果更好”,但是也带来了更高的推理负载,推理负载重了,要求卡买得多了,要买更多的卡,因此我们说Kimi 2024年3月份出来以后大家都喜欢,觉得它好,用的越多它就宕机了,主要原因是推理卡的内存搁不下,要扩容再买卡。五次扩容,五次死机,用得人太多了,要不要六次扩容?估计还得死机,因此我们想了一个办法叫Mooncake。

Mooncake什么意思?假如说有一篇热门文章出来了,大家感兴趣,把Kimi打开,把文章输入进去,让它总结一下这篇论文,它就去做推理了。推理过程中间把论文本身要存起来,把中间过程要存起来,这是第一个任务。同时有第二个任务,这篇文章问关键核心是什么,它又做推理去了,中间过程也要存起来,这篇论文也要存起来。第三个任务问,用什么可以搜索它。第四个用户又来问,如果只有四个用户好办,搁得下,但是热门文章有十万个用户,十万个用户同时在问,同时要做推理,至少每个用户要把文章存起来,中间内容也要存起来,内存不够大了,死机了。

解决办法就是扩容。后来我们给它想了一个办法,做了Mooncake,把公共的部分自存一份,像下图一样,论文只要存一份就行了,不要存一万份,中间很多过程也都是相同的,都存一份就行了。Mooncake主要的核心思想就是不要每个用户都存一套,而是相同的内容只存一套,这很容易理解,一下子内存就省了,省了以后不用扩容了,也不死机,这就是Mooncake的功劳。

做完这个以后我们把Mooncake开源了,开源以后受到国内外很大的关注。我一直在主张,你开源的东西要做得好,一定要做得好再开源。我们把Mooncake开源之后,英伟达用、华为用、阿里用。我们写了一篇文章叫Mooncake文章,获得了国际层面的最佳论文,国际上有个推理方面的组织,SGLang说他们的推理引擎是Mooncake做的,黄仁勋他们的推理系统也说了是基于Mooncake做的,感谢清华大学团队。

这个广泛的意见成为当前最主要的分布式推理架构之一,现在基本上大多数推理架构都用了Mooncake,Mooncake的基本思想就是中间过程存一份。

我们在LGL买了90几块H200的卡装上DeepSeek进行推理,我们负责装上Mooncake。英伟达的NVL72是结合Mooncake做,英伟达的Dynamo也是基于Mooncake做的。国内科大讯飞、阿里巴巴、蚂蚁集团也都在用。通过开源力量助推推理成本降低,现在不用更多买卡还能工作,就是省钱了。

公有云推理的算力局限

第二点是KTransformers。大家都用DeepSeek,用的人一多,流量有问题。当前推理有三种基础设施架构。最左边的叫云上大并发场景。以DeepSeek为例,320块卡组成一个集群,一共20个集群,大概6000多块卡,花了20亿人民币。

我几乎每天都用DeepSeek APP做推理,主要是看论文。我把APP打开输入论文,问这篇论文的三个创新点是什么,全部传到20亿那个地方去,它帮你推理并把结果发给你,告诉你论文的三个创新点是一二三。

知道了创新点,但我对每个创新点不太理解,再问一次请它用通俗易懂的话解释,又送到20亿的地方去。5分钟后回来了,通俗易懂的给我解释了为什么它是第一个创新点。再来一次,针对第一个创新点,问这个创新点有什么用处?又送到20亿的地方去。因此三次推理,我基本明白了第一个创新点。

但我再问第二个创新点时,把第二个创新点输进去,请它解释,它不给你推理了,说流量有问题。流量怎么有问题?实际上,20亿的集群如果变成40亿,它就可以回答了。也就是说,这个机器为全世界人民服务做推理,忙不过来,就说流量有问题。

我是早晨五点半起来看论文查询的。如果你早晨九点钟上班做同样的查询,可能只会回答一个问题。当我用Kimi做同一片论文的查询,在问到第四个问题时,它就说:“你已经问了三个问题了,你辛苦了,你休息一会儿。”我不辛苦,主要是它累坏了。

KTransformers异构调度:实现单卡“满血”推理

某一个单位,如果说经常用推理,经常叫你休息,大家干不出活。怎么办?单位可以买两台机器,一台机器8块卡,两台机器一共16块卡,放在你们单位的机房里,你们单位三四十人,五六十人,问问题使用时就不会出现叫你休息,流量有问题的情况。

为什么买16块?因为要把满血版6000多亿参数放在推理卡内存,除下来就是16块。但这两台机器声音响、发热,此外机房空调、用电都很麻烦。

我们主做的是KTransformers。如果我想一个CPU,一块卡,把满血版装上,一块卡80G,显然装不下6000多亿参数,但我只找最重要的参数装到推理卡内存,大多数参数放在CPU内存,这样一块推理卡就够了,重要的东西只有几十G,剩下的放CPU内存。一个CPU一块卡就装了满血版,这就叫KTransformers。好处是价格便宜,声音不大也不热,还可以放在桌子上,也可以给一个人用。

大模型出新版本主要是参数增加了。Kimi K2参数比K1多很多。假如参数扩大了1倍,之前支持K1的硬件要再扩大1倍才可以,要把所有参数放进推理卡内存,要买卡。现在不需要了,我们把重要的参数放到注意力层,放到推理卡内存,大多数MoE层参数放在CPU内存。K2虽然参数翻倍,但扩的是MoE参数,而注意力参数基本没扩,因此我还能继续用,不需要再买1倍的卡。这件事情出来以后,受到了很多人的关注,一块CPU一块卡,几万元就可以装上满血版做推理,影响很大。

AIPC逐步从概念走向现实

最后,AIPC逐步从概念走向现实。30年前PC出现了,现在20亿人民币的集群是大的推理机,300万是小型推理机,一个CPU一块卡,就是个人推理器,也就是AIPC。从硬件来说,就是一个CPU一块AI卡,装上大模型和有关数据。

AIPC有什么用?我们组做的就是一个CPU一块卡再装上大模型。中国银行用一个CPU一块卡做业务,效果非常好。再举个例子,法官用这样的一台机器装上大模型和法律文件、历史官司数据。输入新官司问怎么判,5分钟后告诉你,有了借鉴,效率大幅提高。 最近我们用这个做智能体,做了三个,硬件就是一个CPU一块卡再加大模型,做得非常好。

在座各位过一年,家里或办公室都是AIPC。推理是今年算力的最主要用途,训练少了,但每个人都要用推理。 推理有三种:20亿级的、300万级的和几万元的。我今天主要讲怎么把几万元的东西装上满血版。这就是软硬件协同,CPU和GPU做协同,这是非常好的事件。我认为AIPC逐步从概念走向现实,谢谢大家。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
上海11个区密集发布:禁止!外环外这些区域,也不能放烟花

上海11个区密集发布:禁止!外环外这些区域,也不能放烟花

新民晚报
2026-01-16 10:18:55
跟了自己十几年的贴身秘书,是美国间谍?仅一个眼神就发现不对劲

跟了自己十几年的贴身秘书,是美国间谍?仅一个眼神就发现不对劲

墨兰史书
2026-01-03 05:45:03
乌度卡乱用人,火箭队仅8人轮换,双锋线31中9,阿门没三分上限低

乌度卡乱用人,火箭队仅8人轮换,双锋线31中9,阿门没三分上限低

替补席看球
2026-01-16 11:11:30
佛山停车运营单位为追欠费“奇招”频出:从“自动升板”到“立牌占位”

佛山停车运营单位为追欠费“奇招”频出:从“自动升板”到“立牌占位”

齐鲁壹点
2026-01-16 06:49:11
新股恒运昌发行申购,发行价92.18元,股民打新或许会纠结!

新股恒运昌发行申购,发行价92.18元,股民打新或许会纠结!

数据挖掘分析
2026-01-16 08:33:38
Science:首次证实,有些狗狗通过偷听主人对话学会新词汇,能力堪比一岁半的人类宝宝

Science:首次证实,有些狗狗通过偷听主人对话学会新词汇,能力堪比一岁半的人类宝宝

生物世界
2026-01-12 12:24:25
17日至21日我国将有寒潮和雨雪冰冻过程陕晋豫鲁鄂湘皖有暴雪 黄淮江淮江南等地有强降温

17日至21日我国将有寒潮和雨雪冰冻过程陕晋豫鲁鄂湘皖有暴雪 黄淮江淮江南等地有强降温

中国气象局
2026-01-15 17:08:22
中俄贸易突然降温:五年来第一次下滑,发生了什么

中俄贸易突然降温:五年来第一次下滑,发生了什么

桂系007
2026-01-14 19:59:42
3外统治级!2后卫统治攻守!山东得分已霸榜联盟,就差陈林坚了!

3外统治级!2后卫统治攻守!山东得分已霸榜联盟,就差陈林坚了!

篮球资讯达人
2026-01-16 01:21:14
章泽天开通小红书4天,粉丝突破21万,网友吐槽她脑袋空空

章泽天开通小红书4天,粉丝突破21万,网友吐槽她脑袋空空

追影客栈
2026-01-16 11:20:12
随着上海40分狂胜广东,山东8连胜,CBA最新积分榜出炉:广厦领跑

随着上海40分狂胜广东,山东8连胜,CBA最新积分榜出炉:广厦领跑

侃球熊弟
2026-01-15 21:06:07
卡尼刚到北京,美国又有两个盟友筹划访华,特朗普罕见对中国示好

卡尼刚到北京,美国又有两个盟友筹划访华,特朗普罕见对中国示好

前沿天地
2026-01-16 10:24:32
不止新疆班!闫学晶儿子毕业衫被扒,还有更大瓜,真相越来越近了

不止新疆班!闫学晶儿子毕业衫被扒,还有更大瓜,真相越来越近了

好贤观史记
2026-01-15 09:35:16
老用户成“冤大头”?新号29元100G 老号89元不够用 3招破局不换号

老用户成“冤大头”?新号29元100G 老号89元不够用 3招破局不换号

Thurman在昆明
2026-01-03 15:59:21
欧洲来了人,试飞宣布C919“安全可靠”,但还是不提发放适航证明

欧洲来了人,试飞宣布C919“安全可靠”,但还是不提发放适航证明

小涛叨叨
2026-01-16 10:43:03
“消失”的王小海,揭穿玖月奇迹的尴尬处境,印证了凤凰传奇的话

“消失”的王小海,揭穿玖月奇迹的尴尬处境,印证了凤凰传奇的话

丰谭笔录
2025-12-24 00:06:58
北京大兴机场海关查获600余克黄金 价格约为59万元人民币 黄金及其制品属于国家限制进出境物品 该案件已移交缉私部门处理

北京大兴机场海关查获600余克黄金 价格约为59万元人民币 黄金及其制品属于国家限制进出境物品 该案件已移交缉私部门处理

闪电新闻
2026-01-15 16:19:16
日本丰田汽车连续6年销量全球第一已成定局

日本丰田汽车连续6年销量全球第一已成定局

随波荡漾的漂流瓶
2026-01-13 16:38:46
人要坏成什么样子,才能做出这等丧尽天良的事!

人要坏成什么样子,才能做出这等丧尽天良的事!

胖胖说他不胖
2026-01-14 13:31:12
广州宜家结业清货首日,进场队伍排了一公里,大件商品秒空……

广州宜家结业清货首日,进场队伍排了一公里,大件商品秒空……

羊城攻略
2026-01-15 23:23:01
2026-01-16 12:03:00
中国IDC圈
中国IDC圈
互联网行业权威的媒体平台
4776文章数 4008关注度
往期回顾 全部

科技要闻

被网友"催"着走,小米紧急"抄"了特斯拉

头条要闻

"装死"小羊身价飙至30万元 专家:可以人工繁殖更多只

头条要闻

"装死"小羊身价飙至30万元 专家:可以人工繁殖更多只

体育要闻

聂卫平:黑白棋盘上的凡人棋圣

娱乐要闻

黄慧颐手撕保剑锋 曾黎意外卷入风波

财经要闻

深圳有白银商家爆雷 维权群超350人

汽车要闻

从 "商务" 变 "潮酷" 全新一汽奥迪A6L首秀亮相

态度原创

数码
游戏
艺术
健康
公开课

数码要闻

罗马仕被曝正亏本清理库存充电宝:27000mAh型号售价45元

《生危9》海量新截图 展示视角、敌人、手表手办

艺术要闻

300亿!341米!迪拜将建全球首个奔驰品牌城市

血常规3项异常,是身体警报!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版