网易首页 > 网易号 > 正文 申请入驻

英伟达200亿美元Groq技术加持新LPX机架系统 大幅提升AI响应速度

0
分享至


在周一的GTC主题演讲中,英伟达CEO黄仁勋透露,公司将在其新发布的Vera Rubin机架系统中使用Groq的语言处理单元(LPU)技术来提升推理性能,这项技术英伟达花费了200亿美元收购。

英伟达超大规模和高性能计算副总裁Ian Buck在周日黄仁勋主题演讲前告诉媒体,通过这项技术,这家GPU巨头现在能够以每用户每秒数百甚至数千Token的速度为大规模万亿参数的大语言模型提供服务。

到目前为止,超低延迟推理一直被少数几家精品芯片公司主导,如Cerebras、SambaNova,当然还有Groq,英伟达去年底通过人才收购几乎完全吸收了后者。

过去一年中,对这些所谓高端Token的需求不断增长。OpenAI正在使用Cerebras的餐盘大小的加速器为GPT-5.3 Codex-Spark等模型实现近乎瞬时的代码生成。

通过将其GPU与Groq的LPU结合,英伟达预计推理服务提供商将能够对每百万生成的Token收费高达45美元。作为对比,OpenAI目前对其顶级GPT-5.4模型的API访问每百万输出Token收费约15美元。

需要明确的是,LPU不会替代英伟达的GPU,而是对其进行增强。

解码阶段的速度优势

大语言模型推理包含两个阶段:计算密集型的预填充阶段(处理提示)和带宽密集型的解码阶段(生成响应)。

英伟达新发布的Rubin GPU具有高达50 petaFLOPS的计算能力,在计算方面表现出色,但在内存带宽方面,Groq的最新芯片技术拥有22 TB/s的HBM4内存带宽,速度快近7倍,达到150 TB/s。

这使得Groq的LPU成为理想的解码加速器。英伟达计划在新的LPX机架系统中装入256个这样的芯片,该系统将通过定制的Spectrum-X互连连接到相邻的Vera-Rubin NVL72机架系统。GPU将处理计算密集型的提示处理,而LPU则负责输出Token。

这家GPU巨头需要如此多的芯片,因为虽然SRAM速度很快,但这些芯片在容量和计算密度方面都不够强大。

每个Groq 3 LPU能够提供1.2 petaFLOPS的FP8性能,包含500 MB的板载内存。这大约只有英伟达Rubin GPU容量的1/500。

Buck解释说:"LPU专门针对极低延迟的Token生成进行优化,提供每秒数千Token的速率。当然,权衡是你需要很多芯片才能实现这种性能。每个芯片的每秒Token数实际上相当低。"

换句话说,要做任何有意义的事情,英伟达需要大量的这些芯片。

即使每个机架有256个芯片,也只有128 GB的超快内存,这对于Kimi K2等万亿参数模型来说远远不够。以4位精度计算,你至少需要512 GB的内存或大约一千个LPU才能将1万亿参数模型保存在内存中。

英伟达表示,多个LPX机架可以组合在一起支持这些更大的模型。

将Groq最新的LPU集成到英伟达的LPX机架中,对这家AI基础设施巨头来说代表了某种程度的路线修正。英伟达此前在去年的Computex上宣布了一款名为Rubin CPX的专用预填充处理器。基本想法是使用配备GDDR7的Rubin CPX处理器进行预填充处理,使用配备HBM的Rubin GPU进行解码。然而,该项目似乎已被放弃,转而支持基于Groq LPU的解码加速器。

Buck说:"将LPU和LPX集成到我们的书面平台中以优化解码,这是我们现在关注的重点。"

英伟达并不是唯一一家希望将其计算密集型AI加速器与像Groq这样的SRAM密集型架构融合的公司。

周五,亚马逊云服务(AWS)宣布与Cerebras合作开发联合推理平台,类似于英伟达的Groq 3 LPX。在这种情况下,该平台将使用AWS的Trainium 3加速器进行提示处理,使用Cerebras的WSE-3 ASIC生成低延迟Token,每个芯片在晶圆级芯片上集成44 GB的SRAM。

英伟达基于Groq的LPX系统预计将与其Vera Rubin机架系统一起在今年晚些时候发货,尽管访问权限和软件支持可能会有所限制。至少最初,英伟达专注于需要为万亿级参数模型提供高Token速率服务的模型构建者和服务提供商。

Buck还指出,虽然英伟达使用Groq的ASIC来加速其推理平台,但它们还不原生支持CUDA。

他解释说:"目前CUDA没有变化。我们利用LPU作为在Vera NVL 72平台上运行的CUDA的加速器。"

Q&A

Q1:Groq的LPU技术有什么特殊优势?

A:Groq的LPU专门针对极低延迟的Token生成进行优化,能够提供每秒数千Token的速率,其22 TB/s的HBM4内存带宽比英伟达GPU快近7倍,达到150 TB/s,是理想的解码加速器。

Q2:英伟达的LPX系统如何工作?

A:LPX系统装入256个Groq LPU芯片,通过定制Spectrum-X互连连接到Vera-Rubin NVL72机架系统。GPU处理计算密集型的提示处理,LPU负责输出Token,两者协同工作提升推理性能。

Q3:这项技术对AI服务定价有什么影响?

A:英伟达预计,通过结合GPU和LPU技术,推理服务提供商将能够对每百万生成的Token收费高达45美元,相比之下OpenAI目前对其顶级模型收费约15美元每百万输出Token。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
第1次发现女生太瘦了也好看,我有一点晕照片

第1次发现女生太瘦了也好看,我有一点晕照片

手工制作阿歼
2026-05-31 22:09:52
告诉大家一个冷知识!我们天天吃的西红柿,其实不是真正的西红柿

告诉大家一个冷知识!我们天天吃的西红柿,其实不是真正的西红柿

椰青美食分享
2026-05-30 19:41:29
恩里克又夺欧冠了,巴萨却还在苦苦追赶他的背影

恩里克又夺欧冠了,巴萨却还在苦苦追赶他的背影

赵或是个热血青年
2026-05-31 23:08:03
胡杏儿带三个儿子拍摄,帅气程度堪比“炸街”,母子四人太有型了

胡杏儿带三个儿子拍摄,帅气程度堪比“炸街”,母子四人太有型了

情感大头说说
2026-05-31 21:22:06
输给上海33分!揪出3大“废柴”,坑惨了广厦队

输给上海33分!揪出3大“废柴”,坑惨了广厦队

体育哲人
2026-05-31 22:47:28
又是“科技与狠活”!继泡药杨梅后又一水果塌房,我们还能吃什么

又是“科技与狠活”!继泡药杨梅后又一水果塌房,我们还能吃什么

蜉蝣说
2026-05-30 23:31:05
夫妻性生活别急着进入!学会这招“延迟满足”,爽感增倍

夫妻性生活别急着进入!学会这招“延迟满足”,爽感增倍

精彩分享快乐
2026-05-13 12:05:07
为什么今年没人提“消费降级”了?

为什么今年没人提“消费降级”了?

黯泉
2026-05-20 17:47:21
被判无期的犯人,每天在监狱里如何生活?真实日常远比想象难熬

被判无期的犯人,每天在监狱里如何生活?真实日常远比想象难熬

芳姐侃社会
2026-05-31 20:40:00
她是旅美画家,是英达的姐姐,晚年化解英达的烦心事

她是旅美画家,是英达的姐姐,晚年化解英达的烦心事

细品名人
2026-05-31 07:06:23
信号中断、烧成火球!神舟二十二号返回遭黑障区,过程有多惊险?

信号中断、烧成火球!神舟二十二号返回遭黑障区,过程有多惊险?

甜到你心坎
2026-05-30 16:34:25
第一集就得打码,苹果新剧太刺激了

第一集就得打码,苹果新剧太刺激了

来看美剧
2026-05-31 20:23:01
火箭迎喜讯!休养1年3个月,目标全明星满血复出!低价能交易到?

火箭迎喜讯!休养1年3个月,目标全明星满血复出!低价能交易到?

熊哥爱篮球
2026-05-31 23:03:59
卢伟:24年等待就为了再次圆梦冠军,3-0领先这口气要继续坚持

卢伟:24年等待就为了再次圆梦冠军,3-0领先这口气要继续坚持

懂球帝
2026-05-31 21:31:44
总计29颗钻石,迪亚斯为自己的两颗牙定制了镶钻牙饰

总计29颗钻石,迪亚斯为自己的两颗牙定制了镶钻牙饰

懂球帝
2026-05-31 10:40:08
9国签字退群,援乌联盟散伙了一半,乌克兰连最后一点希望也没了

9国签字退群,援乌联盟散伙了一半,乌克兰连最后一点希望也没了

爱吃醋的猫咪
2026-05-31 22:48:56
当胡彦斌1个月写出APP,AI时代已经扑面而来

当胡彦斌1个月写出APP,AI时代已经扑面而来

华尔街见闻官方
2026-05-31 11:15:12
你担心释永信85岁难以走出监狱大门?别操心了,他根本毫不在意

你担心释永信85岁难以走出监狱大门?别操心了,他根本毫不在意

阿莱美食汇
2026-05-31 22:23:14
彻底崩盘!袁大头暴跌60%,龙钞跌至68元,大量藏友被套牢

彻底崩盘!袁大头暴跌60%,龙钞跌至68元,大量藏友被套牢

叮当当科技
2026-05-31 16:39:16
禁投美股,难得全球大国中惟一正确

禁投美股,难得全球大国中惟一正确

家传编辑部
2026-05-30 12:24:47
2026-06-01 00:03:00
至顶科技 incentive-icons
至顶科技
科技产业媒体与 AI 产业服务机构
18906文章数 49707关注度
往期回顾 全部

科技要闻

戴尔诺基亚又回来了!AI重估老牌科技公司

头条要闻

媒体:印度多个领域面临严重问题 莫迪发出罕见的号召

头条要闻

媒体:印度多个领域面临严重问题 莫迪发出罕见的号召

体育要闻

阿森纳用最悲壮的方式,成就了巴黎王朝

娱乐要闻

朱军退休,正义虽迟但到,女方受惩

财经要闻

医学首席转岗搞科技,A股科技股遭遇巨震

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

房产
教育
家居
时尚
军事航空

房产要闻

红动五月!全国抢入核心资产,广州盯紧凯旋新世界!

教育要闻

定了!最新奥赛国家集训队名单出炉,北京共4人入围,来自这些中学

家居要闻

云栖 舒展如流云

梓渝:慢下来,也很好

军事要闻

解放军代表质问日防卫大臣:日本何时道歉

无障碍浏览 进入关怀版