网易首页 > 网易号 > 正文 申请入驻

硬核拆解:GPT-5、Claude和Gemini是如何训练和推理的?

0
分享至

来源:市场资讯

(来源:网易科技)

一块黑板、几个方程式,芯片工程师Reiner Pope用这些工具,拆解了GPT-5、Claude和Gemini背后的训练与推理逻辑,并从公开的API定价中,反推出大模型不愿公开的架构细节。

近日,知名科技播客主持人Dwarkesh Patel与芯片创业公司MatX的CEO Reiner Pope进行了一场罕见以黑板推演为形式的深度对话。Pope此前在谷歌负责TPU架构与编译器优化,被认为是少数真正贯通AI全栈——从芯片设计到模型架构——的工程师之一。

Pope在黑板前用方程和图表,系统拆解了前沿大模型从训练到推理的底层逻辑。在Dwarkesh看来,这些细节“一旦理解,AI为何是今天这个样子——架构、定价、进步速度——就全都说得通了”。

核心结论包括:如果不批量处理用户请求,单次推理成本可能高出1000倍。而GPT-5的预训练数据量,是理论最优解的100倍。此外,DeepSeek V3拥有256个专家,每次推理只激活其中一小部分(32个)。MoE(混合专家)架构被限制在一个机架72块GPU以内,这是制约模型规模扩展的核心物理瓶颈之一。


一块GPU机架,决定了模型有多大

要理解顶级大模型为何是现在这个样子,得先从硬件说起。

现代大模型推理跑在GPU集群上。英伟达Blackwell NVL72是目前主流的部署形态——一个机架塞了72块GPU,通过NVLink高速互联,任意两块GPU之间只需两跳(经过中间交换机),通信带宽极高。

但一旦跨出这个机架,通信速度就慢了8倍。

这个"8倍差距",直接决定了MoE(混合专家模型)的部署上限。

DeepSeek V3拥有256个专家,每次推理只激活其中一小部分(32个)。Pope解释,最自然的部署方式是"专家并行"——不同专家放在不同GPU上。任何GPU都可能向任何其他GPU发送token,这是一种"全对全"(all-to-all)通信模式,和机架内NVLink的拓扑结构完美契合。

但一旦专家分布到两个机架,问题就来了:跨机架的token有一半要走慢8倍的网络,直接成为瓶颈。

"一个机架的大小,限制了你能做多大的专家层。" Pope说。

这就解释了一个市场上长期困惑的问题:为什么Gemini看起来比其他实验室更早取得大模型预训练的成功?Pope的推断是,谷歌的TPU系统长期拥有更大的scale-up域,能在更大范围内做全对全通信,这让它可以部署更高稀疏度的MoE模型,同时维持推理效率。


批处理:省1000倍成本的秘密

访谈还提及一个市场常见现象:Claude、Codex等产品提供“快速模式”,价格高出6倍,速度却只快2.5倍。为什么?能不能反过来,用“慢速模式”换取更低价格?

Pope的回答直接:核心变量是批处理规模(batch size)。他用一个"发车时刻表"的比喻解释了背后的逻辑。

GPU每隔约20毫秒发出一班"列车"(执行一次批处理推理)。每班列车能搭多少乘客,就是批处理大小(batch size)。

核心结论是:推理的单位成本,在批处理量小的时候极高,随着批处理增大会急剧下降,最终趋于一个下限。

原因是权重加载成本的摊销。每次推理都要把模型权重从内存(HBM)读入芯片。这个成本是固定的,不管服务1个用户还是2000个用户,权重只读一次。如果只服务1个用户,这个固定成本就全压在他身上;服务2000个用户,成本均摊后几乎可以忽略不计。

Pope估算,如果不做批处理,成本可以高出1000倍。

那最优批处理规模是多少?Pope给出了一个简洁的公式:约等于300乘以模型稀疏度。对DeepSeek这类激活1/8专家的模型,大约是2400个并发序列。这个数字与模型总参数量无关,只取决于硬件特性和稀疏度——这是一个"反直觉"的结论。

所以,"慢速模式"真的能便宜很多吗?从数学上看,不太行。KV缓存(存储每个用户历史对话的内存)无法在不同用户之间共享摊销,因此让用户多等并不能显著降低成本。Pope说:"(慢速模式)节省不了太多,因为KV缓存是每个用户独立的,计算量也是独立的。"

从API定价,反推模型架构

Pope展示了一个让人印象深刻的推理过程:通过公开的API定价,可以反推出模型的内部架构参数。

线索一:Gemini在20万 token处涨价50%,为什么恰好是50%?为什么恰好在20万Token这个节点?

Gemini 3.1的定价在超过20万 token后上涨50%。Pope解释,这对应着KV缓存的内存带宽成本超过权重矩阵计算成本的临界点——也就是模型从"计算瓶颈"切换到"内存带宽瓶颈"的转折点。

他进一步用这个数字反算:假设激活参数约1000亿,临界点在20万 token,可以推算出每个token的KV缓存大约占2KB。这与Character AI等公开论文中描述的注意力机制参数(8个KV头,维度128)高度吻合。

"他们通过API定价泄露了相当多的信息。" Pope说,"当然,他们有动力把价格定得接近成本,否则竞争对手可以抢走用户。"

线索二:输出比输入贵5倍

大多数模型的输出token(decode)比输入token(prefill)贵约3-5倍。原因在于:

这个价格差,实际上量化了当前顶级模型推理时的内存带宽瓶颈程度。

线索三:缓存命中为何便宜10倍

API通常对"缓存命中"的token大幅打折。Pope解释,这对应的是存储KV缓存在不同内存层级的成本差异:重新计算一次(从token ID从头生成KV缓存)versus从HBM/DDR/闪存中直接读取。

他进一步推算,按照Gemini"5分钟缓存"与"1小时缓存"的定价差异,可以推断这两个档位对应的存储介质分别是闪存和机械硬盘——后者让Pope也感到惊讶:"我没想到机械硬盘会被用在这里。"

GPT-5过度训练了多少?答案是100倍

这是整场讲座最具震撼性的推算。

Pope从一个经济学直觉出发:当预训练成本、RL训练成本、推理成本三者大致相等时,整体效率最优。

他把这三块成本写出来,发现激活参数量这个变量直接消掉了——也就是说,最优训练量的推算与模型大小本身无关,只取决于推理流量。

然后他代入真实数字:

Chinchilla最优解(基于约1000亿激活参数)大约是2万亿token。

两者之比:100倍。

也就是说,当前顶级模型的预训练数据量,约是从纯训练效率角度出发所需数据量的100倍。

"我们知道这大概是对的,因为有传言说GPT-5预训练了约150万亿token,和我们算出的200万亿很接近。" Patel说。

Pope补充说,这个推算的核心逻辑是:你花在服务用户上的计算,应该和你花在训练上的计算大体相当。否则,就是在某一头浪费钱。

用Patel的话说:"如果GPT-5要被最优地训练,那么所有用户使用它产生的token总量,应该等于预训练消耗的token总量——而预训练数据,大约就是人类知识的总和。"

Pope对此回应:"大致如此。"


流水线并行:听起来很美,但大多数时候用不上

关于流水线并行(把模型的不同层分散到不同机架上串行执行),Pope的结论是:它能节省内存容量,但解决不了KV缓存问题,因此在推理场景价值有限。

直觉上,流水线并行需要同时保持多个"在途"的batch,这让全局batch大小随流水线级数成比例增长。虽然每个机架上的权重存储减少了,但所有机架上的KV缓存总量并没有减少——因为需要更多并发序列来填满流水线。

"你无法跨pipeline阶段摊销KV缓存,就像你无法跨batch摊销KV缓存一样。" Pope总结道。

这也解释了为什么Ilya Sutskever曾说"现在我们都知道,流水线并行是不明智的"——这句话在访谈中被Patel引用,而Pope的推演给出了工程层面的注解。

神经网络与密码学的“趋同进化”

访谈最后,Pope谈到了他写过的一篇博客观点:神经网络的架构与密码学协议之间存在"趋同进化"。

两者都需要把输入信息在整个系统中充分混合——密码学是为了让输出看起来像随机噪声,神经网络是为了提取隐藏的高层结构。但目标恰好相反:密码学努力破坏结构,神经网络努力发现结构。

Pope提到了一个具体的技术迁移案例:Feistel网络——一种密码学中用于让不可逆函数变得可逆的构造,在2017年被引入神经网络,形成了"RevNets"(可逆网络)。RevNets允许在训练的反向传播过程中,无需预先存储所有层的激活值,而是边反向传播边重新计算——用更多计算换取更少内存。

这与KV缓存的逻辑恰好相反:KV缓存是用更多内存换取更少计算。Pope说,"用内存换计算,在当前的硬件条件下通常是合算的。"

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
经典日剧《麻辣教师GTO》拍新版 7月20日播出

经典日剧《麻辣教师GTO》拍新版 7月20日播出

3DM游戏
2026-04-30 20:35:39
把孙杨请来参加《妻子的浪漫旅行2026》的人,可真是一个天才!

把孙杨请来参加《妻子的浪漫旅行2026》的人,可真是一个天才!

八卦南风
2026-04-25 10:26:26
定了!护士夫妻获评见义勇为,被救女子首次发声,讲述溺水经过

定了!护士夫妻获评见义勇为,被救女子首次发声,讲述溺水经过

奇思妙想草叶君
2026-05-01 15:40:29
超值引援!2100万欧新门神撑起曼联半边天,铁拳砸碎球队门线危机

超值引援!2100万欧新门神撑起曼联半边天,铁拳砸碎球队门线危机

体坛老球迷
2026-05-01 16:54:27
方媛带3个孩子海边度假,母女同框似姐妹,郭富城忙工作缺席

方媛带3个孩子海边度假,母女同框似姐妹,郭富城忙工作缺席

娱乐皮皮酱
2026-05-01 11:09:32
打破美国78年惯例!鲍威尔宣布留任美联储理事

打破美国78年惯例!鲍威尔宣布留任美联储理事

看看新闻Knews
2026-04-30 22:08:03
大批游客持续涌入!无锡提前爆满!

大批游客持续涌入!无锡提前爆满!

江南晚报
2026-05-01 12:06:46
野心家? 杨子27岁新欢生子, 保姆抱婴儿篮被拍, 声称和黄圣依是好友

野心家? 杨子27岁新欢生子, 保姆抱婴儿篮被拍, 声称和黄圣依是好友

可乐谈情感
2026-05-01 05:42:08
第二个恶魔医生被抓,郑大一附院王福建为94名患者植入不需要器械

第二个恶魔医生被抓,郑大一附院王福建为94名患者植入不需要器械

大鱼简科
2026-02-18 22:03:00
大面积闭店!深圳“奶茶一姐”为何输给了河南草根兄弟?

大面积闭店!深圳“奶茶一姐”为何输给了河南草根兄弟?

帅真商业
2026-04-15 18:58:55
郭斌为10岁女儿豪宅庆生,笑笑身穿公主裙笑的很甜,身高直追王楠

郭斌为10岁女儿豪宅庆生,笑笑身穿公主裙笑的很甜,身高直追王楠

揽星河的笔记
2026-04-30 15:55:30
iPhone系统垃圾一键清理,26G变8G,告别卡顿超耐用

iPhone系统垃圾一键清理,26G变8G,告别卡顿超耐用

小柱解说游戏
2026-04-28 16:31:31
35岁单亲爸爸猝死,邻居透露他生前的习惯,硬撑的中年人都看哭了

35岁单亲爸爸猝死,邻居透露他生前的习惯,硬撑的中年人都看哭了

据说说娱乐
2026-04-30 06:43:06
首次派运-20B接英烈回家有何用意?国防部回应

首次派运-20B接英烈回家有何用意?国防部回应

南方都市报
2026-04-30 19:37:50
雅阁耗尽了“专车红利”

雅阁耗尽了“专车红利”

字母榜
2026-04-30 16:02:17
深夜3大利空,中国建筑亏33亿,中国中冶亏26亿,中字头暴雷

深夜3大利空,中国建筑亏33亿,中国中冶亏26亿,中字头暴雷

鹏哥投研
2026-05-01 10:15:25
人民日报痛批大学生 “沉睡” 现象:躺平四年,毕业真的会失业!

人民日报痛批大学生 “沉睡” 现象:躺平四年,毕业真的会失业!

复转这些年
2026-03-25 10:02:32
俄方宣布红场阅兵不再展示重型装备,从“一辆坦克”到彻底取消

俄方宣布红场阅兵不再展示重型装备,从“一辆坦克”到彻底取消

桂系007
2026-04-29 05:18:10
夺冠大利好!吴宜泽6-2艾伦,墨菲4-4希金斯,赵心童输球确获利好

夺冠大利好!吴宜泽6-2艾伦,墨菲4-4希金斯,赵心童输球确获利好

曹说体育
2026-05-01 11:40:17
垃圾话曝光!申京怒喷詹姆斯是软蛋,詹姆斯回怼:你没资格这么说

垃圾话曝光!申京怒喷詹姆斯是软蛋,詹姆斯回怼:你没资格这么说

爱体育
2026-04-30 23:42:15
2026-05-01 17:56:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
3093591文章数 7050关注度
往期回顾 全部

科技要闻

苹果上季在华收入继续大增 iPhone收入新高

头条要闻

人贩推倒奶奶入室抢走1岁男童 娃爸曾怀疑奶奶是同伙

头条要闻

人贩推倒奶奶入室抢走1岁男童 娃爸曾怀疑奶奶是同伙

体育要闻

无奈!约基奇:这要在塞尔维亚 全队早被炒了

娱乐要闻

邓超在景德镇被偶遇,穿黑外套逛茶园

财经要闻

GPU神话松动,AI真正的战场变了

汽车要闻

限时9.67万起 吉利星越L/星瑞i-HEV智擎混动上市

态度原创

旅游
家居
本地
亲子
公开课

旅游要闻

筑暖途、文脉润,济宁文旅人五一绘假日暖画卷

家居要闻

灵动实用 生活艺术场

本地新闻

用青花瓷的方式,打开西溪湿地

亲子要闻

萌娃认不出化妆的妈妈,电梯里全程一脸懵,宝妈:化了妆就不认识了

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版