清华大学郑纬民：两大核心成果助力推理成本降低及AIPC快速演进

分享至

12月10日，清华大学计算机科学与技术系教授、博士生导师郑纬民教授在第二十届中国IDC产业年度大典上发表题为《人工智能大模型推理系统产业化》的主题演讲。

本次演讲郑纬民教授全面探讨了大模型推理系统的现状、挑战与技术突破。演讲中，教授从硬件算力视角解释了为何推理必须依赖GPU的矩阵运算与内存带宽，并指出，流量繁忙本质上是算力能力不足，推理是今年算力最主要的应用方向。

此外，郑纬民教授详细拆解了DeepSeek 满血版等超大参数模型对显存的极致占用，并重点介绍了清华大学团队的两项核心成果：一是解决长文本并发难题的 Mooncake架构；二是通过显存与内存异构调度实现单卡运行满血版大模型的 KTransformers 技术。最后，通过银行、司法等实际落地案例，论证了 AIPC 从概念走向现实的生产力价值。

以下是演讲实录，在不改变原意的基础上略有删减：

算力重心转移：智算需求从训练走向推理

郑纬民：各位领导，各位专家，大家好，非常高兴来参加这个会。今天我跟大家交流推理系统。现在对智算算力的需求非常旺盛，需要512块卡、5000块卡甚至10000块卡。需求很旺，租用要两三个礼拜才能租到，不是今天想租明天就能给你。前两年算力主要做训练，从今年开始，主要做推理，因此我讲讲推理的事。

我讲讲推理是用什么芯片做的。现在的推理用的都是GPU。你可能要问，为什么用GPU不用CPU呢？GPU跟CPU比有两个优点：第一，它做矩阵运算非常快，矩阵的加载、乘除、转置非常快。第二，GPU内存读写带宽比较高，读写数据非常快。我们做训练、推理需要矩阵运算快、内存快，GPU行，CPU不行，因此大家都用GPU了。GPU得到了很大发展，CPU在训练推理中没这么热闹。

显存瓶颈拆解

GPU的内存放两样东西。第一，大模型训练以后的参数。一个大模型训练完以后产生参数，比如模型有100个参数，训练完就产生100个参数，要放在推理卡的内存上。DeepSeek的满血版有6000多亿参数，要放在推理卡的内存才能用。第二，推理过程是一步一步推的，中间过程KV Cache也放在推理卡内存，某种程度上，推理卡中间部署的开销比参数还要多。因此大家也有这个印象，推理卡内存要足够大，才能放得下参数和中间结果。

举个例子，DeepSeek满血版是671B参数，假设每个参数是二进制8位。这么多参数要放在推理卡内存，如果每块卡是80G内存，一除，至少要十来块卡才搁得下。还要放KV Cache，大约需要10块卡才能装上满血版，一般大家都买16块卡。KV Cache中间结果占的内存很大，推理卡内存要放参数，要放中间结果，要大才行，否则有问题。

Mooncake架构创新：解决长文本推理的宕机难题

今天我讲两个事情，Mooncake，去年月之暗面推出来推理系统，做推理的。大家喜欢它是因为：支持200万字上下文。上下文一查中间内容越多越好，这是Kimi出来大家喜欢的主要原因。 “数据越多，模型越大，上下文越长等于更高的智能，效果更好”，但是也带来了更高的推理负载，推理负载重了，要求卡买得多了，要买更多的卡，因此我们说Kimi 2024年3月份出来以后大家都喜欢，觉得它好，用的越多它就宕机了，主要原因是推理卡的内存搁不下，要扩容再买卡。五次扩容，五次死机，用得人太多了，要不要六次扩容？估计还得死机，因此我们想了一个办法叫Mooncake。

Mooncake什么意思？假如说有一篇热门文章出来了，大家感兴趣，把Kimi打开，把文章输入进去，让它总结一下这篇论文，它就去做推理了。推理过程中间把论文本身要存起来，把中间过程要存起来，这是第一个任务。同时有第二个任务，这篇文章问关键核心是什么，它又做推理去了，中间过程也要存起来，这篇论文也要存起来。第三个任务问，用什么可以搜索它。第四个用户又来问，如果只有四个用户好办，搁得下，但是热门文章有十万个用户，十万个用户同时在问，同时要做推理，至少每个用户要把文章存起来，中间内容也要存起来，内存不够大了，死机了。

解决办法就是扩容。后来我们给它想了一个办法，做了Mooncake，把公共的部分自存一份，像下图一样，论文只要存一份就行了，不要存一万份，中间很多过程也都是相同的，都存一份就行了。Mooncake主要的核心思想就是不要每个用户都存一套，而是相同的内容只存一套，这很容易理解，一下子内存就省了，省了以后不用扩容了，也不死机，这就是Mooncake的功劳。

做完这个以后我们把Mooncake开源了，开源以后受到国内外很大的关注。我一直在主张，你开源的东西要做得好，一定要做得好再开源。我们把Mooncake开源之后，英伟达用、华为用、阿里用。我们写了一篇文章叫Mooncake文章，获得了国际层面的最佳论文，国际上有个推理方面的组织，SGLang说他们的推理引擎是Mooncake做的，黄仁勋他们的推理系统也说了是基于Mooncake做的，感谢清华大学团队。

这个广泛的意见成为当前最主要的分布式推理架构之一，现在基本上大多数推理架构都用了Mooncake，Mooncake的基本思想就是中间过程存一份。

我们在LGL买了90几块H200的卡装上DeepSeek进行推理，我们负责装上Mooncake。英伟达的NVL72是结合Mooncake做，英伟达的Dynamo也是基于Mooncake做的。国内科大讯飞、阿里巴巴、蚂蚁集团也都在用。通过开源力量助推推理成本降低，现在不用更多买卡还能工作，就是省钱了。

公有云推理的算力局限

第二点是KTransformers。大家都用DeepSeek，用的人一多，流量有问题。当前推理有三种基础设施架构。最左边的叫云上大并发场景。以DeepSeek为例，320块卡组成一个集群，一共20个集群，大概6000多块卡，花了20亿人民币。

我几乎每天都用DeepSeek APP做推理，主要是看论文。我把APP打开输入论文，问这篇论文的三个创新点是什么，全部传到20亿那个地方去，它帮你推理并把结果发给你，告诉你论文的三个创新点是一二三。

知道了创新点，但我对每个创新点不太理解，再问一次请它用通俗易懂的话解释，又送到20亿的地方去。5分钟后回来了，通俗易懂的给我解释了为什么它是第一个创新点。再来一次，针对第一个创新点，问这个创新点有什么用处？又送到20亿的地方去。因此三次推理，我基本明白了第一个创新点。

但我再问第二个创新点时，把第二个创新点输进去，请它解释，它不给你推理了，说流量有问题。流量怎么有问题？实际上，20亿的集群如果变成40亿，它就可以回答了。也就是说，这个机器为全世界人民服务做推理，忙不过来，就说流量有问题。

我是早晨五点半起来看论文查询的。如果你早晨九点钟上班做同样的查询，可能只会回答一个问题。当我用Kimi做同一片论文的查询，在问到第四个问题时，它就说：“你已经问了三个问题了，你辛苦了，你休息一会儿。”我不辛苦，主要是它累坏了。

KTransformers异构调度：实现单卡“满血”推理

某一个单位，如果说经常用推理，经常叫你休息，大家干不出活。怎么办？单位可以买两台机器，一台机器8块卡，两台机器一共16块卡，放在你们单位的机房里，你们单位三四十人，五六十人，问问题使用时就不会出现叫你休息，流量有问题的情况。

为什么买16块？因为要把满血版6000多亿参数放在推理卡内存，除下来就是16块。但这两台机器声音响、发热，此外机房空调、用电都很麻烦。

我们主做的是KTransformers。如果我想一个CPU，一块卡，把满血版装上，一块卡80G，显然装不下6000多亿参数，但我只找最重要的参数装到推理卡内存，大多数参数放在CPU内存，这样一块推理卡就够了，重要的东西只有几十G，剩下的放CPU内存。一个CPU一块卡就装了满血版，这就叫KTransformers。好处是价格便宜，声音不大也不热，还可以放在桌子上，也可以给一个人用。

大模型出新版本主要是参数增加了。Kimi K2参数比K1多很多。假如参数扩大了1倍，之前支持K1的硬件要再扩大1倍才可以，要把所有参数放进推理卡内存，要买卡。现在不需要了，我们把重要的参数放到注意力层，放到推理卡内存，大多数MoE层参数放在CPU内存。K2虽然参数翻倍，但扩的是MoE参数，而注意力参数基本没扩，因此我还能继续用，不需要再买1倍的卡。这件事情出来以后，受到了很多人的关注，一块CPU一块卡，几万元就可以装上满血版做推理，影响很大。

AIPC逐步从概念走向现实

最后，AIPC逐步从概念走向现实。30年前PC出现了，现在20亿人民币的集群是大的推理机，300万是小型推理机，一个CPU一块卡，就是个人推理器，也就是AIPC。从硬件来说，就是一个CPU一块AI卡，装上大模型和有关数据。

AIPC有什么用？我们组做的就是一个CPU一块卡再装上大模型。中国银行用一个CPU一块卡做业务，效果非常好。再举个例子，法官用这样的一台机器装上大模型和法律文件、历史官司数据。输入新官司问怎么判，5分钟后告诉你，有了借鉴，效率大幅提高。最近我们用这个做智能体，做了三个，硬件就是一个CPU一块卡再加大模型，做得非常好。

在座各位过一年，家里或办公室都是AIPC。推理是今年算力的最主要用途，训练少了，但每个人都要用推理。 推理有三种：20亿级的、300万级的和几万元的。我今天主要讲怎么把几万元的东西装上满血版。这就是软硬件协同，CPU和GPU做协同，这是非常好的事件。我认为AIPC逐步从概念走向现实，谢谢大家。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.