引入LPU的英伟达，是在补强，还是在拆自己的护城河？丨GTC观察|gpu|黄仁勋|英特尔|amd|知名企业|nvidia

分享至

“被DRAM成本碾压的SRAM回归，暗含推理时代哪些新趋势？”

作者丨陈悦琳

编辑丨赵之齐

GTC 2026落幕当天，英伟达透露早先与亚马逊云科技（AWS）达成的大规模芯片采购协议，将在2027年前完成交付。

黄仁勋在大会上提到的2027年万亿美元营收目标，正在变成真金白银的合同。

但真正让行业侧目的，是Groq芯片首次进入AWS数据中心——LPU到底蕴藏多大价值，值得英伟达如此力推？（LPU到底是不是推理最优解？欢迎添加作者微信Evelynn7778探讨交流）

带着这个疑问，我们与三位半导体与AI算力领域的老兵聊了聊，他们分别是：

徐凌杰：魔形智能CEO，曾任职于NVIDIA、AMD、三星北美研究院、阿里云，并联合创办了壁仞科技
罗彤：芯动科技首席技术官，历任力积存储中国区总经理、爱普存储技术（杭州）总经理、德商柏狮电子亚洲区市场与销售副总、日商凸版半导体新加坡董事总经理
刘昊飞：盛景嘉成创投创始合伙人，曾任中国移动系统架构师、汉能投资集团执行董事

黄仁勋的表达欲仍在延续。GTC落幕后，他依然四处讲着OpenClaw的时代象征、Rubin机架的生态议题、以及Token经济学的故事。当“十年寒窗无人问”的Token一夜成名，这场GTC究竟给中国芯片厂商留下了什么启示？

谈芯片：

LPU背后：

从经济瓶颈到物理瓶颈，SRAM重回牌桌

“推理时代”已经到来。

两个月前在CES大会上以六芯组合面世的Rubin平台，这次升级为七芯——新加入的，是专为AI推理设计的专用芯片LPU。这是英伟达获得Groq技术授权后，后者芯片首次出现在其产品组合中。

在刘昊飞看来，本次大会为LPU入场的造势，离不开全民养虾的热潮。他表示，当Token使用量呈指数级增长时，降低推理成本与输出延迟变得至关重要，而结构比GPU更简化的LPU便显出优势——

LPU的一大亮点，是其SRAM（静态随机存取存储器）架构大幅减少了数据搬运时间。罗彤指出，LPU采用的SRAM架构，此前曾因成本是DRAM的6倍而被替代。但RISC-V 鼻祖David Patterson说过：“一个小型SRAM的能效是DRAM的128倍。”

这意味着，当衡量标准从成本转向能耗时，SRAM的优势将得以重现。

罗彤进一步解释，过去行业关注的是“一美元能买多少Token”，这是经济学的逻辑。但在这次GTC上，黄仁勋特别强调“每焦耳能产生多少Token”，显然是摩尔定律的失效让他有了新的思考——物理极限的刚性不是其他因素可以比拟的。

因为地球上允许接收的能量是有限的，谁能用更少的能量产生Token，谁就能在算力峰值上领先。这正是从经济瓶颈时代进入物理瓶颈时代后的新规则。

不过，徐凌杰也指出，Groq 3 LPU采用的纯SRAM架构并非Groq一家独有，阿里、Graphcore等公司都涉猎过；且“GPU+LPU”的异构架构也非首创，国内大厂早有尝试，异构也是行业的演进方向。

尽管如此，他认为，“在大模型不同阶段，用不同的芯片达到最好的效果，这个做法是毫无疑问的。”

以去年被提出的CPX为例，过去其与HBM版本的芯片比起来成本显然大幅下降，但在GDDR也涨价的当下，CPX的“性价比”故事是否讲得通已经存疑。（CPX当前性价比表现如何？可添加作者微信Evelynn7778交流）

或因为此，CPX在此次的GTC上销声匿迹。但他表示，在未来合适的时候，CPX可能还会“冒出来”。

据徐凌杰观察，此次GTC传递出的更重要的信息是：黄仁勋提出Token分层定价，这意味着只要有人愿意买单，就能获得最极致的性能。他直言，如果按照LPU的价值去计算，TAM（可触达市场）价值一下子大了几十倍，这是LPU最激动人心的地方。

然而，LPU带来的变革也不是彻底的。

一位专家曾向罗彤表示，真正与众不同的存在是英特尔的CPU、英伟达的GPU和谷歌TPU，其他PU只是类似将X、Y、Z三个基本元素通过不同比重进行组合、最终调制而成的混合物。

当前产业链最需要攻克的难题，还是提升芯片最基本的计算、存储和连接单元的效率，并达到降本效果。

谈架构：

加码整机柜算力，

英伟达70%毛利率能否持续

从Blackwell NVL72到Rubin的机架设计，英伟达持续加码“整机柜算力”的叙事。训练时代的王者在推理时代打出这套组合拳，意欲为何？这也是三位嘉宾热议的核心。

在刘昊飞看来，这是英伟达在推理时代进一步占据客户心智地位的体现；而在徐凌杰看来，这种提高自我门槛的叙事选择，本质是为了提高效率。

随着模型参数膨胀，Token需求量激增，算力成本也急剧上升。“稀疏化激活”的MoE模型架构通过降低单Token计算量解决了成本问题，但也随之衍生出“专家并行”等各种并行需求。

由于单芯片面积有限，MoE模型往往需要上百张卡协同工作。为了保障芯片间的高效通信，将各类芯片通过超节点耦合在一起，便成为顺理成章的选择。

但做超节点绝非易事。徐凌杰留意到，在CES大会上，黄仁勋前脚刚展示NVL72通过无缆化（cable less）设计将原本两小时的组装时间缩短至几分钟，AMD董事会主席及首席执行官苏姿丰后脚推出的Helios产品，采用的还是英伟达两年前的互联方案——可见，大家都在跟进，但技术变化一日千里。（当前国产超节点建设有何新进展和挑战？欢迎添加作者微信Evelynn7778交流）

技术迭代如此之快，那英伟达70%的毛利率未来还能否持续？

罗彤认为，英伟达不是光有技术，而是具备将技术转化为长期盈利的能力。

在他看来，黄仁勋与哈萨比斯（DeepMind创始人）的商业逻辑很像，后者对DeepMind创建使命的阐释“解决智能，再用智能解决一切”在圈内广为流传。

这体现在英伟达身上，就是其与台积电、EDA巨头Synopsys合作，在最尖端芯片的研发中利用自身算力改进芯片设计，通过“智能”反哺“智能”，飞轮由此高速转起来。

不过，这种强掌控力，不仅基于对核心技术的布局，还源于英伟达对高价值环节的精准卡位。

徐凌杰指出，英伟达未来也不会独占整条产业链，而是像华为、苹果那样，将毛利相对较低的部分交由供应链完成，做“只吃高增长部分的蛋糕”的链主企业。

同时，他也提醒，国产芯片公司不能盲目追求和英伟达一样的高毛利，要在芯片互联、模型软硬件调优等领域突破创新的同时，通过性价比打开市场，带动国产产业链一起成长。

谈软件：

“龙虾”配套开源模型，

AI Factory下场和客户抢饭碗？

养虾潮也蔓延到了大会上。

映照黄仁勋所说的“每个公司都要有自己的OpenClaw战略”，英伟达为龙虾推出的企业版软件栈NemoClaw正式亮相，配套了最新一代Nemotron开源模型。

在专门针对OpenClaw的基准测试PinchBench上，Nemotron任务成功率直逼Claude Opus 4.6、GPT-5.4。

英伟达在软件栈上的持续迭代，是其在业内遥遥领先的一大护城河。

在大家看来，英伟达此举也不是想与它的软件客户们“抢地盘”。罗彤指出，身为GPU公司的英伟达，必须自己先把应用跑通，才能有效引导客户使用。

他打了个比喻：CPU像一把内部结构精巧复杂的手枪，任何人只要会扣动扳机就能上手；而GPU像一根棍子，结构简单，但需要掌握技巧才能发挥最大威力。

徐凌杰则从商业逻辑角度补充：开源开放是英伟达的基本策略。就像黄仁勋讲CUDA时第一个提到的词“Install Base”（安装基础），英伟达需要足够多的客户来构筑生态基础。

他借用谷歌收购安卓的例子，指出前者不直接靠后者赚钱，而是基于后者系统让自家搜索、浏览器等服务触达更多用户。

同理，英伟达也可以用开源软件为硬件“带货”，这是前者最大的价值。如果有人想模仿，徐凌杰认为除非能做到整合人工智能底下“四层蛋糕”，放在国内语境来看，则需要产业链的互相配合。

但是，当下国内芯片公司，还普遍面临软件团队规模小、客户服务能力弱等困境，难以支撑完整的生态建设。（当前有哪些突围之路值得借鉴？欢迎添加作者微信Evelynn7778探讨分享经验）

不过，几位嘉宾也已指出了破局之道。在罗彤看来，国内芯片企业实力过于分散，与其几十家小公司各自为战，不如通过整合形成一两家有实力的平台型公司，集中资源搭建软件生态和客户服务体系。

徐凌杰对此则较为乐观。他指出，国内大模型在开源层面已接近国外水平，通过从闭源模型蒸馏，有望取得更好的效果。

与此同时，超节点所需的散热、互联、供电等工程化能力，正是国内芯片产业的优势所在，这让国内厂商有望以美国几分之一的成本进行量产。

以下是此次圆桌对话的精彩分享，雷峰网在进行了不改原意的编辑整理：

雷峰网·胡敏：各位对今年GTC最强烈的感受是什么？或者你们对这场会议印象最深刻的是什么？

罗彤：黄仁勋特别强调“Token”这个概念，并且将（计量）单位从成本转成能量，即每焦耳能产生多少Token。从这次大会他开始提到物理极限而不是经济极限来看，我认为那真的是摩尔定律在供应端到了快要终结的时候。

作为关注现实世界的科学，物理学与数学有一个很关键的不同：物理是要有边界条件才有答案，但早先没有人去看算力的能源边界，因为一次计算的能耗是很低的，大概一万亿分之一焦耳，而一焦耳相当于把一克水升高一度的能量。

当下计算能耗这个概念变得重要是因为计算量变得很庞大，现在AI最主流的路线是把很多复杂问题解构成简单的数据问题，用蛮力去解决，对物理资源的压力就非常大，芯片的各种能力（算力，存力，运力）也被压得非常极限。

最近DRAM内存荒、涨价非常离谱，都是因为达到了某种物理极限的结果，能源极限后就牵扯到了太空算力的问题。

除了物理极限，黄仁勋花时间讲的还有和OpenClaw配合的生态。他试图把各种要素拼在一起，形成更大的掌控能力。这也是双刃剑。如果一个公司把所有能力都掌握在自己内部，对外界来说是更危险的，因为能控制的因素就少了。

不过，英伟达今天之所以能涨得这么好，并不是因为把所有能力都抓在自己手里，而是分化在多方手里。没有任何一个实体可以单独造成巨大的损害，从安全角度考虑是好事。

此外安装小龙虾的设备是很典型的端侧，执行轻量级的编排和调度，所以吃的内存不是很高，我认为（端侧）是未来的大方向。

徐凌杰：在魔形智能成立的这两年里，我们一直在讲Token，之前对于投资人来说还是属于比较抽象的，直到去年下半年中国各种超级应用出来，再加上最近小龙虾火爆后，一把点燃了Token。我觉得这是在对的时机有对的机遇出现。

Token事实上是把人工智能蛋糕下面的四层完全封装在一起，能够整体地去做输出。那整体来讲，Token经济学变得非常清晰，毫无疑问这是一个非常大的产业。

基于此，未来每个公司不仅要给员工发工资，还要另外配备Token，这是公司为智力付出的额外的成本。

刚刚罗总讲到了物理的极限。其实两年前我在参加台北电脑展的时候，英伟达就第一次用了一个词叫“technology limits”，也就是说行业整个发展方向不是在挤牙膏，（意味着）英伟达就是在贴着technology limits，甚至是说physical limits在往前走。

刘昊飞：可以用“热”来形容。此时圣何塞午后在30度，正好赶上这一波技术热浪。现场可以说是摩肩接踵，从早到晚，有点像90年代北京站春运。我住在Palo Alto，距离圣何塞大概三四十公里，酒店每晚价格换算成人民币在两三千块钱。

雷峰网·胡敏：如何看待Vera Rubin平台这次引入的LPU？

徐凌杰：这次NVIDIA把Groq的LPU引入，把Attention跟FFN做分离，事实上我也了解到国内的大厂之前是在做尝试的。这不是一个新的概念。

在大模型的不同阶段，用不同芯片来达到最好的效果的做法是毫无疑问的。像去年提到的CPX，是RTX 6000 Pro的下一版，也是5090大内存版本的专业版，看起来相比HBM的版本芯片成本大幅下降。但今天GDDR也涨价了，那经济上还算得过来？PCIe形态能否满足效率？我觉得CPX可能接下来也会再冒出来，只是在不同阶段起到不同的作用。

2016年Groq横空出世时，我在硅谷和创始人Jonathan Ross进行过多轮交流。现在其实在市场上提供服务的话，还是2019 年底流片、2020年回来的第一代芯片。后面因为融资问题一直没有进展，直到碰到了大模型，Groq把这几百个芯片集联起来去做。

那我想这个芯片肯定是有可取之处，但是从这个流派来讲，并不说只是他一家独有的，像之前我们在阿里做的含光芯片、我们的CTO金琛之前在的Graphcore（后面被软银收购）做的芯片，也都是纯SRAM架构。

从这个产品本身来讲，我们看到的最大的信息不是性价比。黄仁勋反而讲的是另外一个观点，就是Token是分层的，只要有人愿意买单，我就给他最极致的性能。目前想在Groq这一采用SRAM架构的芯片上跑大模型，假设在放得下、极低延迟的情况下，那么是能给到比较好的Token质量。但当前它的容量比较小，不一定能跑起来。

如果按照给出的价格区间，大众化的Token在 3 ~ 6 美金，那是不是有人愿意以几十倍的溢价去付？我觉得这是黄仁勋提出的非常重要的点。他肯定是看到有人为了达到更好效果愿意这样做。

这一下子扩大了TAM（可触达市场）。今天讲Token，关注的是每天的消耗量及增长速度。如果当前市场按照大模型使用Token的单价去算，这是一个数字。如果按照 LPU价值去算，那整个市场价值一下子大了几十倍，想象力就变得非常大。

大家会想到我投了那么多的Capex（资本支出），投了那么多的公司，未来是有机会以几十倍去变现，而不是说今天以几块钱的方式，这是LPU最激动人心的地方。倒不是说它的技术流派，因为之前已经有人在做了，而且异构本来就是个趋势，不是省钱，是为了赚钱。

刘昊飞：LPU可以说是颠覆性设计。我们去年年底就花时间在研究LPU，发现其最大的特点在于设计结构更简化。那简化的好处是什么？大家都知道GPU比CPU（结构）更简化，所以它做矩阵运算就非常快。而LPU比GPU更简单，尤其体现在存储方面。刚才也提到LPU不需要HBM，由此数据交换的延迟、显存成本大幅降低，效率随之变高。

NVIDIA这次专门强调LPU的原因在于，小龙虾出来后，这几个月的Token使用量呈指数级上涨，那么如何有效降低推理成本和输出的延迟变得很重要。

其实我这次来的一个很重要的目的就是想知道英伟达如何看待LPU。在现场能看到很多人围着展区听分享，你想照张完整的照片都有些困难。所以我觉得这种架构设计确实值得关注。不过国内已经有创业团队把工作做在前头，我们也在评判是不是值得出手（投资）。

罗彤：我问过这方面的一个专家，以前是英特尔的，在他眼里真正与众不同的就是英特尔CPU、英伟达GPU、谷歌TPU，其他的PU只是各种组合不一样。类似把X、Y、Z三个基本元素通过不同比重进行组合，调制出一种混合物，而不是化合物。

所以从这个角度来讲，对于产业链来说，最难的点还是把芯片最基本的计算、存储和连接单元的效率做好，降成本。

这体现了我刚才说的经济因素，之所以算力现在这么民主化，是摩尔定律带来的——当芯片缩小，成本、能耗随之降低。

但摩尔定律带来的东西一定会被摩尔定律带走。未来即便成本能降100倍，但如果算力想要高1万倍，最终成本也要提一百倍，那就没有什么人负担得起了。所以未来的趋势一定从算力民主化变成集中化，真正的算力承担者会集中到云。

集中化的云端算力想要降低能耗和成本，在大规模集成里配置之间的互联也很重要，所以互联这次采用的是集成模块，把光模块与电芯片封装在一起，以后会成为主流。

但技术难度高，国内要有高端芯片产能来支撑，否则全靠台积电，产能是不够用的。高通已经将其产能锁定到2028年。这也就是摩尔定律消失的后果。

雷峰网·胡敏：未来1-3年，国产算力产业链有哪些您觉得比较确定性的机遇或者趋势？

徐凌杰：更大的算力系统承载更大的模型，更大的模型带来更高的智力，更高的智力产生更高的Token需求，这三个趋势是非常明确的。

英伟达已经走出来了，给了我们样板，只是在今天相对来讲我们还没那么有竞争力，因此需要一整条产业链往这个方向死磕，把所有能团结的力量团结在身边。

刘昊飞：国内对算力的整体资本投入会保持持续增长，但同时也会产生相当程度的冗余，进而造成浪费、形成淘汰。

但GTC带给我们的启发是，国内也需要强链主，不仅打磨自身内功，还带动整个产业链的繁荣。这需要包容。希望两三年后有初步的苗头。

罗彤：一些半导体行业高层经常和我说：“我们不需要很多人，但需要很厉害的人。”也就是说，这个行业要增加对顶级人才的重视。

另外，如果水平差一点的话，我建议选小的细分赛道。虽然你很多地方不是顶级水平，但你在这个赛道仍能做到降维打击，避免竞争。相比能力不够咬牙切齿的勉力而为，我觉得这是更可持续的路径。天天咬牙切齿很累的。在没有衡量自己的实力的情况下，就去和最强的一决高下，这是不明智的行为。

作者持续关注AI算力芯片、整机架设计与布局等情况，以及上下游相关，更多信息可添加作者微信Evelynn7778交流。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.