网易首页 > 网易号 > 正文 申请入驻

英伟达200亿美元Groq技术加持新LPX机架系统 大幅提升AI响应速度

0
分享至


在周一的GTC主题演讲中,英伟达CEO黄仁勋透露,公司将在其新发布的Vera Rubin机架系统中使用Groq的语言处理单元(LPU)技术来提升推理性能,这项技术英伟达花费了200亿美元收购。

英伟达超大规模和高性能计算副总裁Ian Buck在周日黄仁勋主题演讲前告诉媒体,通过这项技术,这家GPU巨头现在能够以每用户每秒数百甚至数千Token的速度为大规模万亿参数的大语言模型提供服务。

到目前为止,超低延迟推理一直被少数几家精品芯片公司主导,如Cerebras、SambaNova,当然还有Groq,英伟达去年底通过人才收购几乎完全吸收了后者。

过去一年中,对这些所谓高端Token的需求不断增长。OpenAI正在使用Cerebras的餐盘大小的加速器为GPT-5.3 Codex-Spark等模型实现近乎瞬时的代码生成。

通过将其GPU与Groq的LPU结合,英伟达预计推理服务提供商将能够对每百万生成的Token收费高达45美元。作为对比,OpenAI目前对其顶级GPT-5.4模型的API访问每百万输出Token收费约15美元。

需要明确的是,LPU不会替代英伟达的GPU,而是对其进行增强。

解码阶段的速度优势

大语言模型推理包含两个阶段:计算密集型的预填充阶段(处理提示)和带宽密集型的解码阶段(生成响应)。

英伟达新发布的Rubin GPU具有高达50 petaFLOPS的计算能力,在计算方面表现出色,但在内存带宽方面,Groq的最新芯片技术拥有22 TB/s的HBM4内存带宽,速度快近7倍,达到150 TB/s。

这使得Groq的LPU成为理想的解码加速器。英伟达计划在新的LPX机架系统中装入256个这样的芯片,该系统将通过定制的Spectrum-X互连连接到相邻的Vera-Rubin NVL72机架系统。GPU将处理计算密集型的提示处理,而LPU则负责输出Token。

这家GPU巨头需要如此多的芯片,因为虽然SRAM速度很快,但这些芯片在容量和计算密度方面都不够强大。

每个Groq 3 LPU能够提供1.2 petaFLOPS的FP8性能,包含500 MB的板载内存。这大约只有英伟达Rubin GPU容量的1/500。

Buck解释说:"LPU专门针对极低延迟的Token生成进行优化,提供每秒数千Token的速率。当然,权衡是你需要很多芯片才能实现这种性能。每个芯片的每秒Token数实际上相当低。"

换句话说,要做任何有意义的事情,英伟达需要大量的这些芯片。

即使每个机架有256个芯片,也只有128 GB的超快内存,这对于Kimi K2等万亿参数模型来说远远不够。以4位精度计算,你至少需要512 GB的内存或大约一千个LPU才能将1万亿参数模型保存在内存中。

英伟达表示,多个LPX机架可以组合在一起支持这些更大的模型。

将Groq最新的LPU集成到英伟达的LPX机架中,对这家AI基础设施巨头来说代表了某种程度的路线修正。英伟达此前在去年的Computex上宣布了一款名为Rubin CPX的专用预填充处理器。基本想法是使用配备GDDR7的Rubin CPX处理器进行预填充处理,使用配备HBM的Rubin GPU进行解码。然而,该项目似乎已被放弃,转而支持基于Groq LPU的解码加速器。

Buck说:"将LPU和LPX集成到我们的书面平台中以优化解码,这是我们现在关注的重点。"

英伟达并不是唯一一家希望将其计算密集型AI加速器与像Groq这样的SRAM密集型架构融合的公司。

周五,亚马逊云服务(AWS)宣布与Cerebras合作开发联合推理平台,类似于英伟达的Groq 3 LPX。在这种情况下,该平台将使用AWS的Trainium 3加速器进行提示处理,使用Cerebras的WSE-3 ASIC生成低延迟Token,每个芯片在晶圆级芯片上集成44 GB的SRAM。

英伟达基于Groq的LPX系统预计将与其Vera Rubin机架系统一起在今年晚些时候发货,尽管访问权限和软件支持可能会有所限制。至少最初,英伟达专注于需要为万亿级参数模型提供高Token速率服务的模型构建者和服务提供商。

Buck还指出,虽然英伟达使用Groq的ASIC来加速其推理平台,但它们还不原生支持CUDA。

他解释说:"目前CUDA没有变化。我们利用LPU作为在Vera NVL 72平台上运行的CUDA的加速器。"

Q&A

Q1:Groq的LPU技术有什么特殊优势?

A:Groq的LPU专门针对极低延迟的Token生成进行优化,能够提供每秒数千Token的速率,其22 TB/s的HBM4内存带宽比英伟达GPU快近7倍,达到150 TB/s,是理想的解码加速器。

Q2:英伟达的LPX系统如何工作?

A:LPX系统装入256个Groq LPU芯片,通过定制Spectrum-X互连连接到Vera-Rubin NVL72机架系统。GPU处理计算密集型的提示处理,LPU负责输出Token,两者协同工作提升推理性能。

Q3:这项技术对AI服务定价有什么影响?

A:英伟达预计,通过结合GPU和LPU技术,推理服务提供商将能够对每百万生成的Token收费高达45美元,相比之下OpenAI目前对其顶级模型收费约15美元每百万输出Token。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
兵败如山倒?多家日企撤离中国,中日制造或已迎来“大反转”了?

兵败如山倒?多家日企撤离中国,中日制造或已迎来“大反转”了?

触摸史迹
2026-04-05 15:44:15
意大利、挪威、西班牙、比利时、瑞典等15国,发表联合声明

意大利、挪威、西班牙、比利时、瑞典等15国,发表联合声明

鲁中晨报
2026-04-03 06:57:18
国家触发一级战备时,普通人千万要牢记这3条!保命切记别去抢购

国家触发一级战备时,普通人千万要牢记这3条!保命切记别去抢购

健身狂人
2026-04-05 12:39:10
事态严重了,中方接到日媒消息,日本远导锁定东海,俄已选边站

事态严重了,中方接到日媒消息,日本远导锁定东海,俄已选边站

混沌录
2026-04-02 20:01:04
独家:某运营商原集团董事长又有�...

独家:某运营商原集团董事长又有�...

新浪财经
2026-04-06 03:42:22
特朗普宣布:美军完成史上最大胆搜救行动,一名飞行员安全获救

特朗普宣布:美军完成史上最大胆搜救行动,一名飞行员安全获救

可达鸭面面观
2026-04-05 12:53:09
杨丽萍“专属男舞伴”坠楼自杀,跳得果决,和杨丽萍关系非同一般

杨丽萍“专属男舞伴”坠楼自杀,跳得果决,和杨丽萍关系非同一般

一盅情怀
2026-04-03 07:49:11
上海一老乡鸡门店标注“3元自助早餐”,两人结账竟被收取45.5元并被告知“仅粥饮自助”,官方客服回应:已反馈调查

上海一老乡鸡门店标注“3元自助早餐”,两人结账竟被收取45.5元并被告知“仅粥饮自助”,官方客服回应:已反馈调查

齐鲁壹点
2026-04-05 09:18:49
陈光标为啥5日突然捐1000万给嫣然儿童医院?不是良心,是不得不捐

陈光标为啥5日突然捐1000万给嫣然儿童医院?不是良心,是不得不捐

爱看剧的阿峰
2026-04-05 20:04:05
硬撑15年、仅1台服务器、8GB内存:他用一堆“淘汰” 技术,让50+万人敲下人生第一条Linux命令!

硬撑15年、仅1台服务器、8GB内存:他用一堆“淘汰” 技术,让50+万人敲下人生第一条Linux命令!

CSDN
2026-03-31 17:33:02
特朗普精力充沛,养生秘诀是吃大量阿司匹林,日常三餐吃麦当劳

特朗普精力充沛,养生秘诀是吃大量阿司匹林,日常三餐吃麦当劳

南权先生
2026-04-04 05:05:03
中国又拿下全球首例!央视曝光国产翱翔,背后信号不简单

中国又拿下全球首例!央视曝光国产翱翔,背后信号不简单

Thurman在昆明
2026-04-05 18:31:06
黄晓明就“带9岁娃骑行”发文道歉:为自己的疏忽郑重道歉,已去交警部门接受处罚;相关骑行照片已删除

黄晓明就“带9岁娃骑行”发文道歉:为自己的疏忽郑重道歉,已去交警部门接受处罚;相关骑行照片已删除

极目新闻
2026-04-05 18:19:57
曝知名港星李道瑜去世,仅58岁,曾在《古惑仔》中扮演洪兴二当家

曝知名港星李道瑜去世,仅58岁,曾在《古惑仔》中扮演洪兴二当家

裕丰娱间说
2026-04-05 06:19:28
别什么东西都往豆包上发了,男子发私照让豆包评价身材,账号遭封禁:会有人审核,别乱发乱聊天

别什么东西都往豆包上发了,男子发私照让豆包评价身材,账号遭封禁:会有人审核,别乱发乱聊天

观威海
2026-04-04 16:15:03
民政局最新提醒:户口分开不算一家人,这3种证明走遍全国都认

民政局最新提醒:户口分开不算一家人,这3种证明走遍全国都认

李博世财经
2026-04-05 17:20:59
美国MATCH法案突袭:比芯片禁令更狠,中国半导体如何突围

美国MATCH法案突袭:比芯片禁令更狠,中国半导体如何突围

粤语音乐喷泉
2026-04-05 16:55:07
告诉孩子:判断婚姻对错,只有一个简单标准

告诉孩子:判断婚姻对错,只有一个简单标准

青苹果sht
2026-03-26 06:09:17
听闻山上有处明代将军墓,5人夜盗古墓,被无人机全程锁定现场抓获!

听闻山上有处明代将军墓,5人夜盗古墓,被无人机全程锁定现场抓获!

大风新闻
2026-04-05 21:11:05
斯诺克战报!赵心童首局被罚12分赢球,清红定乾坤,小特出师不利

斯诺克战报!赵心童首局被罚12分赢球,清红定乾坤,小特出师不利

刘姚尧的文字城堡
2026-04-05 20:38:48
2026-04-06 04:27:00
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
17425文章数 49697关注度
往期回顾 全部

科技要闻

花200薅5千算力,Claude冷血断供“龙虾”

头条要闻

伊朗官员提开放霍尔木兹海峡条件

头条要闻

伊朗官员提开放霍尔木兹海峡条件

体育要闻

CBA最老球员,身价7500万美元

娱乐要闻

王灿兮否认婆媳不和 晒与杜淳妈合影

财经要闻

谁造出了优思益这头“怪物”?

汽车要闻

家用SUV没驾驶乐趣?极氪8X第一个不同意

态度原创

旅游
亲子
游戏
手机
公开课

旅游要闻

文明旅游|清明出游请注意!莫让这些不文明行为煞风景!

亲子要闻

小英自曝给女儿剪短发原因!怕头发抢营养长不高,想剃光头太真实

三天鼠标干坏两个,你这还是自走棋嘛?

手机要闻

OPPO Find X9s Pro银色哈苏专业增距镜亮相:观赛神器 颜值拉满

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版