网易首页 > 网易号 > 正文 申请入驻

引入LPU的英伟达,是在补强,还是在拆自己的护城河?丨GTC观察

0
分享至



被DRAM成本碾压的SRAM回归,暗含推理时代哪些新趋势?

作者丨陈悦琳

编辑丨赵之齐

GTC 2026落幕当天,英伟达透露早先与亚马逊云科技(AWS)达成的大规模芯片采购协议,将在2027年前完成交付。

黄仁勋在大会上提到的2027年万亿美元营收目标,正在变成真金白银的合同。

但真正让行业侧目的,是Groq芯片首次进入AWS数据中心——LPU到底蕴藏多大价值,值得英伟达如此力推?(LPU到底是不是推理最优解?欢迎添加作者微信Evelynn7778探讨交流)

带着这个疑问,我们与三位半导体与AI算力领域的老兵聊了聊,他们分别是:

  • 徐凌杰:魔形智能CEO,曾任职于NVIDIA、AMD、三星北美研究院、阿里云,并联合创办了壁仞科技

  • 罗彤:芯动科技首席技术官,历任力积存储中国区总经理、爱普存储技术(杭州)总经理、德商柏狮电子亚洲区市场与销售副总、日商凸版半导体新加坡董事总经理

  • 刘昊飞:盛景嘉成创投创始合伙人,曾任中国移动系统架构师、汉能投资集团执行董事

黄仁勋的表达欲仍在延续。GTC落幕后,他依然四处讲着OpenClaw的时代象征、Rubin机架的生态议题、以及Token经济学的故事。当“十年寒窗无人问”的Token一夜成名,这场GTC究竟给中国芯片厂商留下了什么启示?

01

谈芯片:

LPU背后:

从经济瓶颈到物理瓶颈,SRAM重回牌桌

“推理时代”已经到来。

两个月前在CES大会上以六芯组合面世的Rubin平台,这次升级为七芯——新加入的,是专为AI推理设计的专用芯片LPU。这是英伟达获得Groq技术授权后,后者芯片首次出现在其产品组合中。

在刘昊飞看来,本次大会为LPU入场的造势,离不开全民养虾的热潮。他表示,当Token使用量呈指数级增长时,降低推理成本与输出延迟变得至关重要,而结构比GPU更简化的LPU便显出优势——

LPU的一大亮点,是其SRAM(静态随机存取存储器)架构大幅减少了数据搬运时间。罗彤指出,LPU采用的SRAM架构,此前曾因成本是DRAM的6倍而被替代。但RISC-V 鼻祖David Patterson说过:“一个小型SRAM的能效是DRAM的128倍。”

这意味着,当衡量标准从成本转向能耗时,SRAM的优势将得以重现

罗彤进一步解释,过去行业关注的是“一美元能买多少Token”,这是经济学的逻辑。但在这次GTC上,黄仁勋特别强调“每焦耳能产生多少Token”,显然是摩尔定律的失效让他有了新的思考——物理极限的刚性不是其他因素可以比拟的。

因为地球上允许接收的能量是有限的,谁能用更少的能量产生Token,谁就能在算力峰值上领先。这正是从经济瓶颈时代进入物理瓶颈时代后的新规则。

不过,徐凌杰也指出,Groq 3 LPU采用的纯SRAM架构并非Groq一家独有阿里、Graphcore等公司都涉猎过;且“GPU+LPU”的异构架构也非首创,国内大厂早有尝试,异构也是行业的演进方向。

尽管如此,他认为,“在大模型不同阶段,用不同的芯片达到最好的效果,这个做法是毫无疑问的。”

以去年被提出的CPX为例,过去其与HBM版本的芯片比起来成本显然大幅下降,但在GDDR也涨价的当下,CPX的“性价比”故事是否讲得通已经存疑。(CPX当前性价比表现如何?可添加作者微信Evelynn7778交流)

或因为此,CPX在此次的GTC上销声匿迹。但他表示,在未来合适的时候,CPX可能还会“冒出来”。

据徐凌杰观察,此次GTC传递出的更重要的信息是:黄仁勋提出Token分层定价这意味着只要有人愿意买单,就能获得最极致的性能。他直言,如果按照LPU的价值去计算,TAM可触达市场价值一下子大了几十倍,这是LPU最激动人心的地方。

然而,LPU带来的变革也不是彻底的。

一位专家曾向罗彤表示,真正与众不同的存在是英特尔的CPU、英伟达的GPU和谷歌TPU,其他PU只是类似将X、Y、Z三个基本元素通过不同比重进行组合最终调制而成的混合物。

当前产业链最需要攻克的难题,还是提升芯片最基本的计算、存储和连接单元的效率,并达到降本效果。

02

谈架构:

加码整机柜算力,

英伟达70%毛利率能否持续

从Blackwell NVL72到Rubin的机架设计,英伟达持续加码“整机柜算力”的叙事。训练时代的王者在推理时代打出这套组合拳,意欲为何?这也是三位嘉宾热议的核心。

在刘昊飞看来,这是英伟达在推理时代进一步占据客户心智地位的体现;而在徐凌杰看来,这种提高自我门槛的叙事选择,本质是为了提高效率。

随着模型参数膨胀,Token需求量激增,算力成本也急剧上升。“稀疏化激活”的MoE模型架构通过降低单Token计算量解决了成本问题,但也随之衍生出“专家并行”等各种并行需求。

由于单芯片面积有限,MoE模型往往需要上百张卡协同工作。为了保障芯片间的高效通信,将各类芯片通过超节点耦合在一起,便成为顺理成章的选择。

但做超节点绝非易事。徐凌杰留意到,在CES大会上,黄仁勋前脚刚展示NVL72通过无缆化(cable less)设计将原本两小时的组装时间缩短至几分钟,AMD董事会主席及首席执行官苏姿丰后脚推出的Helios产品,采用的还是英伟达两年前的互联方案——可见,大家都在跟进,但技术变化一日千里。(当前国产超节点建设有何新进展和挑战?欢迎添加作者微信Evelynn7778交流)

技术迭代如此之快,那英伟达70%的毛利率未来还能否持续?

罗彤认为,英伟达不是光有技术,而是具备将技术转化为长期盈利的能力。

在他看来,黄仁勋与哈萨比斯(DeepMind创始人)的商业逻辑很像,后者对DeepMind创建使命的阐释“解决智能,再用智能解决一切”在圈内广为流传。

这体现在英伟达身上,就是其与台积电、EDA巨头Synopsys合作,在最尖端芯片的研发中利用自身算力改进芯片设计,通过“智能”反哺“智能”,飞轮由此高速转起来。

不过,这种强掌控力,不仅基于对核心技术的布局,还源于英伟达对高价值环节的精准卡位。

徐凌杰指出,英伟达未来也不会独占整条产业链,而是像华为、苹果那样,将毛利相对较低的部分交由供应链完成,做“只吃高增长部分的蛋糕”的链主企业

同时,他也提醒,国产芯片公司不能盲目追求和英伟达一样的高毛利,要在芯片互联、模型软硬件调优等领域突破创新的同时,通过性价比打开市场,带动国产产业链一起成长。

03

谈软件:

“龙虾”配套开源模型,

AI Factory下场和客户抢饭碗?

养虾潮也蔓延到了大会上。

映照黄仁勋所说的“每个公司都要有自己的OpenClaw战略”,英伟达为龙虾推出的企业版软件栈NemoClaw正式亮相,配套了最新一代Nemotron开源模型。

在专门针对OpenClaw的基准测试PinchBench上,Nemotron任务成功率直逼Claude Opus 4.6、GPT-5.4

英伟达在软件栈上的持续迭代,是其在业内遥遥领先的一大护城河。

在大家看来,英伟达此举也不是想与它的软件客户们“抢地盘”。罗彤指出,身为GPU公司的英伟达,必须自己先把应用跑通,才能有效引导客户使用。

他打了个比喻:CPU像一把内部结构精巧复杂的手枪,任何人只要会扣动扳机就能上手;而GPU像一根棍子,结构简单,但需要掌握技巧才能发挥最大威力

徐凌杰则从商业逻辑角度补充:开源开放是英伟达的基本策略。就像黄仁勋讲CUDA时第一个提到的词“Install Base”(安装基础),英伟达需要足够多的客户来构筑生态基础。

他借用谷歌收购安卓的例子,指出前者不直接靠后者赚钱,而是基于后者系统让自家搜索、浏览器等服务触达更多用户。

同理,英伟达也可以用开源软件为硬件“带货”,这是前者最大的价值。如果有人想模仿,徐凌杰认为除非能做到整合人工智能底下“四层蛋糕”,放在国内语境来看,则需要产业链的互相配合。

但是,当下国内芯片公司,还普遍面临软件团队规模小、客户服务能力弱等困境,难以支撑完整的生态建设。(当前有哪些突围之路值得借鉴?欢迎添加作者微信Evelynn7778探讨分享经验)

不过,几位嘉宾也已指出了破局之道。在罗彤看来,国内芯片企业实力过于分散,与其几十家小公司各自为战,不如通过整合形成一两家有实力的平台型公司,集中资源搭建软件生态和客户服务体系。

徐凌杰对此则较为乐观。他指出,国内大模型在开源层面已接近国外水平,通过从闭源模型蒸馏,有望取得更好的效果。

与此同时,超节点所需的散热、互联、供电等工程化能力,正是国内芯片产业的优势所在,这让国内厂商有望以美国几分之一的成本进行量产。

以下是此次圆桌对话的精彩分享,雷峰网在进行了不改原意的编辑整理:

雷峰网·胡敏:各位对今年GTC最强烈的感受是什么?或者你们对这场会议印象最深刻的是什么?

罗彤:黄仁勋特别强调“Token”这个概念,并且将(计量)单位从成本转成能量,即每焦耳能产生多少Token。从这次大会他开始提到物理极限而不是经济极限来看,我认为那真的是摩尔定律在供应端到了快要终结的时候。

作为关注现实世界的科学,物理学与数学有一个很关键的不同:物理是要有边界条件才有答案,但早先没有人去看算力的能源边界,因为一次计算的能耗是很低的,大概一万亿分之一焦耳,而一焦耳相当于把一克水升高一度的能量。

当下计算能耗这个概念变得重要是因为计算量变得很庞大,现在AI最主流的路线是把很多复杂问题解构成简单的数据问题,用蛮力去解决,对物理资源的压力就非常大,芯片的各种能力(算力,存力,运力)也被压得非常极限。

最近DRAM内存荒、涨价非常离谱,都是因为达到了某种物理极限的结果,能源极限后就牵扯到了太空算力的问题。

除了物理极限,黄仁勋花时间讲的还有和OpenClaw配合的生态。他试图把各种要素拼在一起,形成更大的掌控能力。这也是双刃剑。如果一个公司把所有能力都掌握在自己内部,对外界来说是更危险的,因为能控制的因素就少了。

不过,英伟达今天之所以能涨得这么好,并不是因为把所有能力都抓在自己手里,而是分化在多方手里。没有任何一个实体可以单独造成巨大的损害,从安全角度考虑是好事。

此外安装小龙虾的设备是很典型的端侧,执行轻量级的编排和调度,所以吃的内存不是很高,我认为(端侧)是未来的大方向。

徐凌杰:在魔形智能成立的这两年里,我们一直在讲Token,之前对于投资人来说还是属于比较抽象的,直到去年下半年中国各种超级应用出来,再加上最近小龙虾火爆后,一把点燃了Token。我觉得这是在对的时机有对的机遇出现。

Token事实上是把人工智能蛋糕下面的四层完全封装在一起,能够整体地去做输出。那整体来讲,Token经济学变得非常清晰,毫无疑问这是一个非常大的产业。

基于此,未来每个公司不仅要给员工发工资,还要另外配备Token,这是公司为智力付出的额外的成本。

刚刚罗总讲到了物理的极限。其实两年前我在参加台北电脑展的时候,英伟达就第一次用了一个词叫“technology limits”,也就是说行业整个发展方向不是在挤牙膏,(意味着)英伟达就是在贴着technology limits,甚至是说physical limits在往前走。

刘昊飞:可以用“热”来形容。此时圣何塞午后在30度,正好赶上这一波技术热浪。现场可以说是摩肩接踵,从早到晚,有点像90年代北京站春运。我住在Palo Alto,距离圣何塞大概三四十公里,酒店每晚价格换算成人民币在两三千块钱。

雷峰网·胡敏:如何看待Vera Rubin平台这次引入的LPU?

徐凌杰:这次NVIDIA把Groq的LPU引入,把Attention跟FFN做分离,事实上我也了解到国内的大厂之前是在做尝试的。这不是一个新的概念。

在大模型的不同阶段,用不同芯片来达到最好的效果的做法是毫无疑问的。像去年提到的CPX,是RTX 6000 Pro的下一版,也是5090大内存版本的专业版,看起来相比HBM的版本芯片成本大幅下降。但今天GDDR也涨价了,那经济上还算得过来?PCIe形态能否满足效率?我觉得CPX可能接下来也会再冒出来,只是在不同阶段起到不同的作用。

2016年Groq横空出世时,我在硅谷和创始人Jonathan Ross进行过多轮交流。现在其实在市场上提供服务的话,还是2019 年底流片、2020年回来的第一代芯片。后面因为融资问题一直没有进展,直到碰到了大模型,Groq把这几百个芯片集联起来去做。

那我想这个芯片肯定是有可取之处,但是从这个流派来讲,并不说只是他一家独有的,像之前我们在阿里做的含光芯片、我们的CTO金琛之前在的Graphcore(后面被软银收购)做的芯片,也都是纯SRAM架构。

从这个产品本身来讲,我们看到的最大的信息不是性价比。黄仁勋反而讲的是另外一个观点,就是Token是分层的,只要有人愿意买单,我就给他最极致的性能。目前想在Groq这一采用SRAM架构的芯片上跑大模型,假设在放得下、极低延迟的情况下,那么是能给到比较好的Token质量。但当前它的容量比较小,不一定能跑起来。

如果按照给出的价格区间,大众化的Token在 3 ~ 6 美金,那是不是有人愿意以几十倍的溢价去付?我觉得这是黄仁勋提出的非常重要的点。他肯定是看到有人为了达到更好效果愿意这样做。

这一下子扩大了TAM(可触达市场)。今天讲Token,关注的是每天的消耗量及增长速度。如果当前市场按照大模型使用Token的单价去算,这是一个数字。如果按照 LPU价值去算,那整个市场价值一下子大了几十倍,想象力就变得非常大。

大家会想到我投了那么多的Capex(资本支出),投了那么多的公司,未来是有机会以几十倍去变现,而不是说今天以几块钱的方式,这是LPU最激动人心的地方。倒不是说它的技术流派,因为之前已经有人在做了,而且异构本来就是个趋势,不是省钱,是为了赚钱。

刘昊飞:LPU可以说是颠覆性设计。我们去年年底就花时间在研究LPU,发现其最大的特点在于设计结构更简化。那简化的好处是什么?大家都知道GPU比CPU(结构)更简化,所以它做矩阵运算就非常快。而LPU比GPU更简单,尤其体现在存储方面。刚才也提到LPU不需要HBM,由此数据交换的延迟、显存成本大幅降低,效率随之变高。

NVIDIA这次专门强调LPU的原因在于,小龙虾出来后,这几个月的Token使用量呈指数级上涨,那么如何有效降低推理成本和输出的延迟变得很重要。

其实我这次来的一个很重要的目的就是想知道英伟达如何看待LPU。在现场能看到很多人围着展区听分享,你想照张完整的照片都有些困难。所以我觉得这种架构设计确实值得关注。不过国内已经有创业团队把工作做在前头,我们也在评判是不是值得出手(投资)。

罗彤:我问过这方面的一个专家,以前是英特尔的,在他眼里真正与众不同的就是英特尔CPU、英伟达GPU、谷歌TPU,其他的PU只是各种组合不一样。类似把X、Y、Z三个基本元素通过不同比重进行组合,调制出一种混合物,而不是化合物。

所以从这个角度来讲,对于产业链来说,最难的点还是把芯片最基本的计算、存储和连接单元的效率做好,降成本。

这体现了我刚才说的经济因素,之所以算力现在这么民主化,是摩尔定律带来的——当芯片缩小,成本、能耗随之降低。

但摩尔定律带来的东西一定会被摩尔定律带走。未来即便成本能降100倍,但如果算力想要高1万倍,最终成本也要提一百倍,那就没有什么人负担得起了。所以未来的趋势一定从算力民主化变成集中化,真正的算力承担者会集中到云。

集中化的云端算力想要降低能耗和成本,在大规模集成里配置之间的互联也很重要,所以互联这次采用的是集成模块,把光模块与电芯片封装在一起,以后会成为主流。

但技术难度高,国内要有高端芯片产能来支撑,否则全靠台积电,产能是不够用的。高通已经将其产能锁定到2028年。这也就是摩尔定律消失的后果。

雷峰网·胡敏:未来1-3年,国产算力产业链有哪些您觉得比较确定性的机遇或者趋势?

徐凌杰:更大的算力系统承载更大的模型,更大的模型带来更高的智力,更高的智力产生更高的Token需求,这三个趋势是非常明确的。

英伟达已经走出来了,给了我们样板,只是在今天相对来讲我们还没那么有竞争力,因此需要一整条产业链往这个方向死磕,把所有能团结的力量团结在身边。

刘昊飞:国内对算力的整体资本投入会保持持续增长,但同时也会产生相当程度的冗余,进而造成浪费、形成淘汰。

但GTC带给我们的启发是,国内也需要强链主,不仅打磨自身内功,还带动整个产业链的繁荣。这需要包容。希望两三年后有初步的苗头。

罗彤:一些半导体行业高层经常和我说:“我们不需要很多人,但需要很厉害的人。”也就是说,这个行业要增加对顶级人才的重视。

另外,如果水平差一点的话,我建议选小的细分赛道。虽然你很多地方不是顶级水平,但你在这个赛道仍能做到降维打击,避免竞争。相比能力不够咬牙切齿的勉力而为,我觉得这是更可持续的路径。天天咬牙切齿很累的。在没有衡量自己的实力的情况下,就去和最强的一决高下,这是不明智的行为。

作者持续关注AI算力芯片、整机架设计与布局等情况,以及上下游相关,更多信息可添加作者微信Evelynn7778交流。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
演员鞠婧祎被实名举报偷税漏税,其收入明细被曝光,半年收入估算不少于5000万元,瞒报比率达88%

演员鞠婧祎被实名举报偷税漏税,其收入明细被曝光,半年收入估算不少于5000万元,瞒报比率达88%

大风新闻
2026-03-31 10:39:07
“我发誓,我没喝!”早晨开车送孩子上学途中发生事故,交警闻到酒味,浙江一女子坚称大早上没喝酒,检测结果竟是醉驾

“我发誓,我没喝!”早晨开车送孩子上学途中发生事故,交警闻到酒味,浙江一女子坚称大早上没喝酒,检测结果竟是醉驾

极目新闻
2026-03-31 22:39:45
彭局长的不当言论

彭局长的不当言论

董狐笔谈
2026-03-31 08:41:11
轻断食再次封神!复旦大学研究证实,让肝脏脂肪在5个月内少20.5%

轻断食再次封神!复旦大学研究证实,让肝脏脂肪在5个月内少20.5%

健康之光
2026-03-24 08:46:34
钱再多也没用!41岁美女老板朱明月去世,死因曝光,家人崩溃痛哭

钱再多也没用!41岁美女老板朱明月去世,死因曝光,家人崩溃痛哭

墨印斋
2026-03-30 11:17:03
味多美正在遭遇北京人的抵制

味多美正在遭遇北京人的抵制

微言微评
2026-03-31 07:31:36
伊朗用血泪换来的教训:一旦中美开战,中国必须首先锁定这一点

伊朗用血泪换来的教训:一旦中美开战,中国必须首先锁定这一点

说历史的老牢
2026-03-31 04:20:37
重磅,欧美突然大爆发,期指也大涨

重磅,欧美突然大爆发,期指也大涨

风风顺
2026-04-01 04:22:09
003航母大改型取消,江南厂北上支援004三班倒

003航母大改型取消,江南厂北上支援004三班倒

显微镜下看世界
2026-03-30 16:41:18
123比3,联合国大会压倒性通过,中审判美以暴行,52国集体沉默?

123比3,联合国大会压倒性通过,中审判美以暴行,52国集体沉默?

兴史兴谈
2026-03-31 07:18:53
加州州长愤怒:特朗普马斯克让中国获70%电动车市场

加州州长愤怒:特朗普马斯克让中国获70%电动车市场

格林的公主
2026-03-31 19:30:46
吴佳尼心累,两个儿子一年开支上百万,64岁前夫马景涛只提供学费

吴佳尼心累,两个儿子一年开支上百万,64岁前夫马景涛只提供学费

话娱论影
2026-03-30 20:57:14
以色列清醒了?内塔尼亚胡指示军方,严厉打击约旦河西岸暴力行为

以色列清醒了?内塔尼亚胡指示军方,严厉打击约旦河西岸暴力行为

至死不渝的爱情
2026-04-01 00:04:50
叙利亚多处军事基地遭袭

叙利亚多处军事基地遭袭

新华社
2026-03-30 19:30:09
因祸得福!烧129年的地下火被灭,新疆凭空多了个“金饭碗”

因祸得福!烧129年的地下火被灭,新疆凭空多了个“金饭碗”

梦在深巷aqa
2026-03-26 08:02:47
不是石油,不是电网!伊朗亮终极底牌,海湾国家最怕的事终于来了

不是石油,不是电网!伊朗亮终极底牌,海湾国家最怕的事终于来了

通文知史
2026-03-31 07:15:03
吴向飞再回应李荣浩:这些年只要我参与的诉讼,最终对方全部败诉

吴向飞再回应李荣浩:这些年只要我参与的诉讼,最终对方全部败诉

小徐讲八卦
2026-03-30 07:47:00
王石被限制出境

王石被限制出境

料道new
2026-03-30 16:29:44
石油还能用多久?人类每年消耗50亿吨,按照这个速度还够用吗?

石油还能用多久?人类每年消耗50亿吨,按照这个速度还够用吗?

蜉蝣说
2026-03-31 14:42:14
奥运冠军“拉拉链露胸”,让耐克绷不住了!

奥运冠军“拉拉链露胸”,让耐克绷不住了!

品牌营销报
2026-02-23 11:31:10
2026-04-01 06:43:00
雷峰网 incentive-icons
雷峰网
关注智能与未来!
68912文章数 656103关注度
往期回顾 全部

科技要闻

华为2025年销售收入8809亿,净利润680亿元

头条要闻

特朗普:将在“两到三周”内结束伊朗战事

头条要闻

特朗普:将在“两到三周”内结束伊朗战事

体育要闻

县城修车工,用20年成为世界冠军

娱乐要闻

《月鳞绮纪》空降 鞠婧祎却被举报偷税

财经要闻

油价暴涨 我们的生活成本会飙升多少?

汽车要闻

腾势Z9GT到底GT在哪?

态度原创

手机
教育
旅游
时尚
健康

手机要闻

vivo X300s线下上手:体验后,不吐不快!

教育要闻

宛城区这所学校11名教师被通报表扬

旅游要闻

体验经济,释放消费潜能新引擎(商海观潮)

「性治疗室」里的00后,男多女少

干细胞抗衰4大误区,90%的人都中招

无障碍浏览 进入关怀版