12月10日,清华大学计算机科学与技术系教授、博士生导师郑纬民教授在第二十届中国IDC产业年度大典上发表题为《人工智能大模型推理系统产业化》的主题演讲。
本次演讲郑纬民教授全面探讨了大模型推理系统的现状、挑战与技术突破。演讲中,教授从硬件算力视角解释了为何推理必须依赖GPU的矩阵运算与内存带宽,并指出,流量繁忙本质上是算力能力不足,推理是今年算力最主要的应用方向。
此外,郑纬民教授详细拆解了DeepSeek 满血版等超大参数模型对显存的极致占用,并重点介绍了清华大学团队的两项核心成果:一是解决长文本并发难题的 Mooncake架构;二是通过显存与内存异构调度实现单卡运行满血版大模型的 KTransformers 技术。最后,通过银行、司法等实际落地案例,论证了 AIPC 从概念走向现实的生产力价值。
![]()
以下是演讲实录,在不改变原意的基础上略有删减:
算力重心转移:智算需求从训练走向推理
郑纬民:各位领导,各位专家,大家好,非常高兴来参加这个会。今天我跟大家交流推理系统。现在对智算算力的需求非常旺盛,需要512块卡、5000块卡甚至10000块卡。需求很旺,租用要两三个礼拜才能租到,不是今天想租明天就能给你。前两年算力主要做训练,从今年开始,主要做推理,因此我讲讲推理的事。
我讲讲推理是用什么芯片做的。现在的推理用的都是GPU。你可能要问,为什么用GPU不用CPU呢?GPU跟CPU比有两个优点:第一,它做矩阵运算非常快,矩阵的加载、乘除、转置非常快。第二,GPU内存读写带宽比较高,读写数据非常快。我们做训练、推理需要矩阵运算快、内存快,GPU行,CPU不行,因此大家都用GPU了。GPU得到了很大发展,CPU在训练推理中没这么热闹。
显存瓶颈拆解
GPU的内存放两样东西。第一,大模型训练以后的参数。一个大模型训练完以后产生参数,比如模型有100个参数,训练完就产生100个参数,要放在推理卡的内存上。DeepSeek的满血版有6000多亿参数,要放在推理卡的内存才能用。第二,推理过程是一步一步推的,中间过程KV Cache也放在推理卡内存,某种程度上,推理卡中间部署的开销比参数还要多。因此大家也有这个印象,推理卡内存要足够大,才能放得下参数和中间结果。
举个例子,DeepSeek满血版是671B参数,假设每个参数是二进制8位。这么多参数要放在推理卡内存,如果每块卡是80G内存,一除,至少要十来块卡才搁得下。还要放KV Cache,大约需要10块卡才能装上满血版,一般大家都买16块卡。KV Cache中间结果占的内存很大,推理卡内存要放参数,要放中间结果,要大才行,否则有问题。
Mooncake架构创新:解决长文本推理的宕机难题
今天我讲两个事情,Mooncake,去年月之暗面推出来推理系统,做推理的。大家喜欢它是因为:支持200万字上下文。上下文一查中间内容越多越好,这是Kimi出来大家喜欢的主要原因。 “数据越多,模型越大,上下文越长等于更高的智能,效果更好”,但是也带来了更高的推理负载,推理负载重了,要求卡买得多了,要买更多的卡,因此我们说Kimi 2024年3月份出来以后大家都喜欢,觉得它好,用的越多它就宕机了,主要原因是推理卡的内存搁不下,要扩容再买卡。五次扩容,五次死机,用得人太多了,要不要六次扩容?估计还得死机,因此我们想了一个办法叫Mooncake。
Mooncake什么意思?假如说有一篇热门文章出来了,大家感兴趣,把Kimi打开,把文章输入进去,让它总结一下这篇论文,它就去做推理了。推理过程中间把论文本身要存起来,把中间过程要存起来,这是第一个任务。同时有第二个任务,这篇文章问关键核心是什么,它又做推理去了,中间过程也要存起来,这篇论文也要存起来。第三个任务问,用什么可以搜索它。第四个用户又来问,如果只有四个用户好办,搁得下,但是热门文章有十万个用户,十万个用户同时在问,同时要做推理,至少每个用户要把文章存起来,中间内容也要存起来,内存不够大了,死机了。
解决办法就是扩容。后来我们给它想了一个办法,做了Mooncake,把公共的部分自存一份,像下图一样,论文只要存一份就行了,不要存一万份,中间很多过程也都是相同的,都存一份就行了。Mooncake主要的核心思想就是不要每个用户都存一套,而是相同的内容只存一套,这很容易理解,一下子内存就省了,省了以后不用扩容了,也不死机,这就是Mooncake的功劳。
做完这个以后我们把Mooncake开源了,开源以后受到国内外很大的关注。我一直在主张,你开源的东西要做得好,一定要做得好再开源。我们把Mooncake开源之后,英伟达用、华为用、阿里用。我们写了一篇文章叫Mooncake文章,获得了国际层面的最佳论文,国际上有个推理方面的组织,SGLang说他们的推理引擎是Mooncake做的,黄仁勋他们的推理系统也说了是基于Mooncake做的,感谢清华大学团队。
这个广泛的意见成为当前最主要的分布式推理架构之一,现在基本上大多数推理架构都用了Mooncake,Mooncake的基本思想就是中间过程存一份。
我们在LGL买了90几块H200的卡装上DeepSeek进行推理,我们负责装上Mooncake。英伟达的NVL72是结合Mooncake做,英伟达的Dynamo也是基于Mooncake做的。国内科大讯飞、阿里巴巴、蚂蚁集团也都在用。通过开源力量助推推理成本降低,现在不用更多买卡还能工作,就是省钱了。
公有云推理的算力局限
第二点是KTransformers。大家都用DeepSeek,用的人一多,流量有问题。当前推理有三种基础设施架构。最左边的叫云上大并发场景。以DeepSeek为例,320块卡组成一个集群,一共20个集群,大概6000多块卡,花了20亿人民币。
我几乎每天都用DeepSeek APP做推理,主要是看论文。我把APP打开输入论文,问这篇论文的三个创新点是什么,全部传到20亿那个地方去,它帮你推理并把结果发给你,告诉你论文的三个创新点是一二三。
知道了创新点,但我对每个创新点不太理解,再问一次请它用通俗易懂的话解释,又送到20亿的地方去。5分钟后回来了,通俗易懂的给我解释了为什么它是第一个创新点。再来一次,针对第一个创新点,问这个创新点有什么用处?又送到20亿的地方去。因此三次推理,我基本明白了第一个创新点。
但我再问第二个创新点时,把第二个创新点输进去,请它解释,它不给你推理了,说流量有问题。流量怎么有问题?实际上,20亿的集群如果变成40亿,它就可以回答了。也就是说,这个机器为全世界人民服务做推理,忙不过来,就说流量有问题。
我是早晨五点半起来看论文查询的。如果你早晨九点钟上班做同样的查询,可能只会回答一个问题。当我用Kimi做同一片论文的查询,在问到第四个问题时,它就说:“你已经问了三个问题了,你辛苦了,你休息一会儿。”我不辛苦,主要是它累坏了。
KTransformers异构调度:实现单卡“满血”推理
某一个单位,如果说经常用推理,经常叫你休息,大家干不出活。怎么办?单位可以买两台机器,一台机器8块卡,两台机器一共16块卡,放在你们单位的机房里,你们单位三四十人,五六十人,问问题使用时就不会出现叫你休息,流量有问题的情况。
为什么买16块?因为要把满血版6000多亿参数放在推理卡内存,除下来就是16块。但这两台机器声音响、发热,此外机房空调、用电都很麻烦。
我们主做的是KTransformers。如果我想一个CPU,一块卡,把满血版装上,一块卡80G,显然装不下6000多亿参数,但我只找最重要的参数装到推理卡内存,大多数参数放在CPU内存,这样一块推理卡就够了,重要的东西只有几十G,剩下的放CPU内存。一个CPU一块卡就装了满血版,这就叫KTransformers。好处是价格便宜,声音不大也不热,还可以放在桌子上,也可以给一个人用。
大模型出新版本主要是参数增加了。Kimi K2参数比K1多很多。假如参数扩大了1倍,之前支持K1的硬件要再扩大1倍才可以,要把所有参数放进推理卡内存,要买卡。现在不需要了,我们把重要的参数放到注意力层,放到推理卡内存,大多数MoE层参数放在CPU内存。K2虽然参数翻倍,但扩的是MoE参数,而注意力参数基本没扩,因此我还能继续用,不需要再买1倍的卡。这件事情出来以后,受到了很多人的关注,一块CPU一块卡,几万元就可以装上满血版做推理,影响很大。
AIPC逐步从概念走向现实
最后,AIPC逐步从概念走向现实。30年前PC出现了,现在20亿人民币的集群是大的推理机,300万是小型推理机,一个CPU一块卡,就是个人推理器,也就是AIPC。从硬件来说,就是一个CPU一块AI卡,装上大模型和有关数据。
AIPC有什么用?我们组做的就是一个CPU一块卡再装上大模型。中国银行用一个CPU一块卡做业务,效果非常好。再举个例子,法官用这样的一台机器装上大模型和法律文件、历史官司数据。输入新官司问怎么判,5分钟后告诉你,有了借鉴,效率大幅提高。 最近我们用这个做智能体,做了三个,硬件就是一个CPU一块卡再加大模型,做得非常好。
在座各位过一年,家里或办公室都是AIPC。推理是今年算力的最主要用途,训练少了,但每个人都要用推理。 推理有三种:20亿级的、300万级的和几万元的。我今天主要讲怎么把几万元的东西装上满血版。这就是软硬件协同,CPU和GPU做协同,这是非常好的事件。我认为AIPC逐步从概念走向现实,谢谢大家。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.