硬核拆解：GPT-5、Claude和Gemini是如何训练和推理的？|内存|速度|gpu|神经网络|开源模型

硬核拆解：GPT-5、Claude和Gemini是如何训练和推理的？

2026-04-30 11:42:45　来源: 新浪财经

北京举报

分享至

来源：市场资讯

（来源：网易科技）

一块黑板、几个方程式，芯片工程师Reiner Pope用这些工具，拆解了GPT-5、Claude和Gemini背后的训练与推理逻辑，并从公开的API定价中，反推出大模型不愿公开的架构细节。

近日，知名科技播客主持人Dwarkesh Patel与芯片创业公司MatX的CEO Reiner Pope进行了一场罕见以黑板推演为形式的深度对话。Pope此前在谷歌负责TPU架构与编译器优化，被认为是少数真正贯通AI全栈——从芯片设计到模型架构——的工程师之一。

Pope在黑板前用方程和图表，系统拆解了前沿大模型从训练到推理的底层逻辑。在Dwarkesh看来，这些细节“一旦理解，AI为何是今天这个样子——架构、定价、进步速度——就全都说得通了”。

核心结论包括：如果不批量处理用户请求，单次推理成本可能高出1000倍。而GPT-5的预训练数据量，是理论最优解的100倍。此外，DeepSeek V3拥有256个专家，每次推理只激活其中一小部分（32个）。MoE（混合专家）架构被限制在一个机架72块GPU以内，这是制约模型规模扩展的核心物理瓶颈之一。

一块GPU机架，决定了模型有多大

要理解顶级大模型为何是现在这个样子，得先从硬件说起。

现代大模型推理跑在GPU集群上。英伟达Blackwell NVL72是目前主流的部署形态——一个机架塞了72块GPU，通过NVLink高速互联，任意两块GPU之间只需两跳（经过中间交换机），通信带宽极高。

但一旦跨出这个机架，通信速度就慢了8倍。

这个"8倍差距"，直接决定了MoE（混合专家模型）的部署上限。

DeepSeek V3拥有256个专家，每次推理只激活其中一小部分（32个）。Pope解释，最自然的部署方式是"专家并行"——不同专家放在不同GPU上。任何GPU都可能向任何其他GPU发送token，这是一种"全对全"（all-to-all）通信模式，和机架内NVLink的拓扑结构完美契合。

但一旦专家分布到两个机架，问题就来了：跨机架的token有一半要走慢8倍的网络，直接成为瓶颈。

"一个机架的大小，限制了你能做多大的专家层。" Pope说。

这就解释了一个市场上长期困惑的问题：为什么Gemini看起来比其他实验室更早取得大模型预训练的成功？Pope的推断是，谷歌的TPU系统长期拥有更大的scale-up域，能在更大范围内做全对全通信，这让它可以部署更高稀疏度的MoE模型，同时维持推理效率。

批处理：省1000倍成本的秘密

访谈还提及一个市场常见现象：Claude、Codex等产品提供“快速模式”，价格高出6倍，速度却只快2.5倍。为什么？能不能反过来，用“慢速模式”换取更低价格？

Pope的回答直接：核心变量是批处理规模（batch size）。他用一个"发车时刻表"的比喻解释了背后的逻辑。

GPU每隔约20毫秒发出一班"列车"（执行一次批处理推理）。每班列车能搭多少乘客，就是批处理大小（batch size）。

核心结论是：推理的单位成本，在批处理量小的时候极高，随着批处理增大会急剧下降，最终趋于一个下限。

原因是权重加载成本的摊销。每次推理都要把模型权重从内存（HBM）读入芯片。这个成本是固定的，不管服务1个用户还是2000个用户，权重只读一次。如果只服务1个用户，这个固定成本就全压在他身上；服务2000个用户，成本均摊后几乎可以忽略不计。

Pope估算，如果不做批处理，成本可以高出1000倍。

那最优批处理规模是多少？Pope给出了一个简洁的公式：约等于300乘以模型稀疏度。对DeepSeek这类激活1/8专家的模型，大约是2400个并发序列。这个数字与模型总参数量无关，只取决于硬件特性和稀疏度——这是一个"反直觉"的结论。

所以，"慢速模式"真的能便宜很多吗？从数学上看，不太行。KV缓存（存储每个用户历史对话的内存）无法在不同用户之间共享摊销，因此让用户多等并不能显著降低成本。Pope说："（慢速模式）节省不了太多，因为KV缓存是每个用户独立的，计算量也是独立的。"

从API定价，反推模型架构

Pope展示了一个让人印象深刻的推理过程：通过公开的API定价，可以反推出模型的内部架构参数。

线索一：Gemini在20万 token处涨价50%，为什么恰好是50%？为什么恰好在20万Token这个节点？

Gemini 3.1的定价在超过20万 token后上涨50%。Pope解释，这对应着KV缓存的内存带宽成本超过权重矩阵计算成本的临界点——也就是模型从"计算瓶颈"切换到"内存带宽瓶颈"的转折点。

他进一步用这个数字反算：假设激活参数约1000亿，临界点在20万 token，可以推算出每个token的KV缓存大约占2KB。这与Character AI等公开论文中描述的注意力机制参数（8个KV头，维度128）高度吻合。

"他们通过API定价泄露了相当多的信息。" Pope说，"当然，他们有动力把价格定得接近成本，否则竞争对手可以抢走用户。"

线索二：输出比输入贵5倍

大多数模型的输出token（decode）比输入token（prefill）贵约3-5倍。原因在于：

这个价格差，实际上量化了当前顶级模型推理时的内存带宽瓶颈程度。

线索三：缓存命中为何便宜10倍

API通常对"缓存命中"的token大幅打折。Pope解释，这对应的是存储KV缓存在不同内存层级的成本差异：重新计算一次（从token ID从头生成KV缓存）versus从HBM/DDR/闪存中直接读取。

他进一步推算，按照Gemini"5分钟缓存"与"1小时缓存"的定价差异，可以推断这两个档位对应的存储介质分别是闪存和机械硬盘——后者让Pope也感到惊讶："我没想到机械硬盘会被用在这里。"

GPT-5过度训练了多少？答案是100倍

这是整场讲座最具震撼性的推算。

Pope从一个经济学直觉出发：当预训练成本、RL训练成本、推理成本三者大致相等时，整体效率最优。

他把这三块成本写出来，发现激活参数量这个变量直接消掉了——也就是说，最优训练量的推算与模型大小本身无关，只取决于推理流量。

然后他代入真实数字：

Chinchilla最优解（基于约1000亿激活参数）大约是2万亿token。

两者之比：100倍。

也就是说，当前顶级模型的预训练数据量，约是从纯训练效率角度出发所需数据量的100倍。

"我们知道这大概是对的，因为有传言说GPT-5预训练了约150万亿token，和我们算出的200万亿很接近。" Patel说。

Pope补充说，这个推算的核心逻辑是：你花在服务用户上的计算，应该和你花在训练上的计算大体相当。否则，就是在某一头浪费钱。

用Patel的话说："如果GPT-5要被最优地训练，那么所有用户使用它产生的token总量，应该等于预训练消耗的token总量——而预训练数据，大约就是人类知识的总和。"

Pope对此回应："大致如此。"

流水线并行：听起来很美，但大多数时候用不上

关于流水线并行（把模型的不同层分散到不同机架上串行执行），Pope的结论是：它能节省内存容量，但解决不了KV缓存问题，因此在推理场景价值有限。

直觉上，流水线并行需要同时保持多个"在途"的batch，这让全局batch大小随流水线级数成比例增长。虽然每个机架上的权重存储减少了，但所有机架上的KV缓存总量并没有减少——因为需要更多并发序列来填满流水线。

"你无法跨pipeline阶段摊销KV缓存，就像你无法跨batch摊销KV缓存一样。" Pope总结道。

这也解释了为什么Ilya Sutskever曾说"现在我们都知道，流水线并行是不明智的"——这句话在访谈中被Patel引用，而Pope的推演给出了工程层面的注解。

神经网络与密码学的“趋同进化”

访谈最后，Pope谈到了他写过的一篇博客观点：神经网络的架构与密码学协议之间存在"趋同进化"。

两者都需要把输入信息在整个系统中充分混合——密码学是为了让输出看起来像随机噪声，神经网络是为了提取隐藏的高层结构。但目标恰好相反：密码学努力破坏结构，神经网络努力发现结构。

Pope提到了一个具体的技术迁移案例：Feistel网络——一种密码学中用于让不可逆函数变得可逆的构造，在2017年被引入神经网络，形成了"RevNets"（可逆网络）。RevNets允许在训练的反向传播过程中，无需预先存储所有层的激活值，而是边反向传播边重新计算——用更多计算换取更少内存。

这与KV缓存的逻辑恰好相反：KV缓存是用更多内存换取更少计算。Pope说，"用内存换计算，在当前的硬件条件下通常是合算的。"

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.