网易首页 > 网易号 > 正文 申请入驻

英伟达首颗推理芯片,突然发布

0
分享至

公众号记得加星标⭐️,第一时间看推送不会错过。

来源 : 内容来自半导体行业观察综合 。

随着这颗GPU的发布,NVIDIA 的产品有了范式转变,实际上也合情合理,但这与同构 GPU 机架和集群相比,是一个巨大的转变。

借助这颗名为 NVIDIA Rubin CPX,NVIDIA 在同一个 NVL144 机架中,除了 2026 个 Rubin HBM GPU 之外,还添加了多个 GDDR7 显存 GPU。实际上,这些大型 HBM Rubin GPU 配备了 GDDR7 Rubin CPX GPU 作为协处理器。

CPX 的基本观察是,当今的 LLM 分为两个不同的阶段:预填充( Pre-fill)和解码(decode)。NVIDIA 将其分为上下文阶段和生成阶段。两者之间的转换需要移动键值缓存(key-value)或键值缓存(KV cache)。通常,上下文阶段(预填充)受计算限制,而生成阶段则受内存限制。由于我们正处于构建拥有数十万个 GPU 的集群并逐步扩展到数百万个 GPU 的时代,因此有足够的工作负载和规模将这些任务拆分到两个更优化的架构中,而不是仅仅通过具有海量 HBM 池的 GPU 来运行它们。


更重要的是,上下文或预填充阶段正变得越来越具有挑战性,尤其是在上下文窗口很长且视频内容丰富的情况下。NVIDIA 正通过 Rubin CX 抓住这一机遇。

Rubin CX 拥有 30PFLOPS 的 NVFP4 性能以及 128GB 的 GDDR7 显存。NVIDIA 声称其指数运算能力是 GB300 的三倍。由于视频工作负载也是其关键驱动因素之一,因此配备了四个 NVENC/NVDEC 引擎。

令人兴奋的是,这些也是为异构机架设计的。在这里,我们可以看到一个 Vera Rubin NVL144 CPX 计算托盘。里面有四个 Rubin 组件和两个 Vera Arm CPU。然后是八个 Rubin CPX 组件(NVIDIA 称它们是单片芯片)。最后,还有八个 NVIDIA ConnectX-9,其网卡速率应该相当于 1.6Tbps(ConnectX-7 为 400G,ConnectX-8 为 800G)。这意味着每个计算托盘可以产生 12.8Tbps 的网络吞吐量,或者相当于一整台 Broadcom Tomahawk 3 交换机的吞吐量/相当于当前一代 AI 集群中常见的 NVIDIA Spectrum-4 SN5610 交换机的四分之一。


因此,这款显卡将配备 144 个 Rubin 标准套件,然后在机架中安装 144 个 Rubin CPX。NVIDIA 表示还会提供其他选项,例如 Sidecar 式显卡。或许更有趣的是,NVIDIA 正在利用其强大的技术打造大型单片 GDDR GPU,而 AMD 和英特尔在这方面做得较少,因为他们更注重容量细分市场。Rubin CPX 在 NVL144 机架之外的表现将会如何,值得关注。

由于 NVIDIA Rubin NVL144 CPX 机架设计时采用了许多未来技术,因此它们的目标上市时间为 2026 年底,因此这还需要一年多的时间。

NVIDIA 推出 Rubin CPX

专为大规模上下文推理而设计的全新 GPU

NVIDIA今日宣布推出 NVIDIA Rubin CPX,这是一款专为海量上下文处理而打造的全新 GPU。它使 AI 系统能够以突破性的速度和效率处理数百万个令牌的软件编码和生成视频。

Rubin CPX 与全新 NVIDIA Vera Rubin NVL144 CPX 平台中的 NVIDIA Vera CPU 和 Rubin GPU 协同工作。这款集成式 NVIDIA MGX 系统集成了每秒 8 百亿亿次浮点运算的 AI 计算能力,可提供比 NVIDIA GB300 NVL72 系统高出 7.5 倍的 AI 性能,并在单个机架中提供 100TB 的快速内存和每秒 1.7PB 的内存带宽。此外,还为希望重复使用现有 Vera Rubin NVL144 系统的客户提供了专用的 Rubin CPX 计算托盘。

NVIDIA 创始人兼首席执行官黄仁勋表示:“Vera Rubin 平台将标志着 AI 计算领域的又一次飞跃——它不仅引入了下一代 Rubin GPU,还推出了名为 CPX 的全新处理器。正如 RTX 彻底改变了图形和物理 AI 一样,Rubin CPX 是首款专为海量上下文 AI 打造的 CUDA GPU,在这种 AI 中,模型可以同时推理数百万个知识标记。”

NVIDIA Rubin CPX为长上下文处理提供了最高的性能和代币收益,远远超出了当今系统的设计处理能力。这将使 AI 编码助手从简单的代码生成工具转变为能够理解和优化大型软件项目的复杂系统。

为了处理视频,AI 模型可能需要处理一小时内容中多达 100 万个 token,这突破了传统 GPU 计算的极限。Rubin CPX 将视频解码器和编码器以及长上下文推理处理集成在单个芯片中,为视频搜索和高质量生成视频等长格式应用提供了前所未有的功能。

Rubin CPX GPU 基于 NVIDIA Rubin 架构构建,采用经济高效的单片芯片设计,配备强大的 NVFP4 计算资源,并经过优化,可为 AI 推理任务提供极高的性能和能源效率。

ubin CPX 提供高达 30 petaflops 的计算能力,并采用 NVFP4 精度,以实现最高的性能和准确度。它配备 128GB 经济高效的 GDDR7 内存,可加速最苛刻的基于上下文的工作负载。此外,与 NVIDIA GB300 NVL72 系统相比,它还提供了 3 倍更快的注意力机制,从而提升了 AI 模型处理更长上下文序列的能力,且速度丝毫不会降低。

Rubin CPX 提供多种配置,包括 Vera Rubin NVL144 CPX,可与NVIDIA Quantum‑X800 InfiniBand横向扩展计算架构或搭载NVIDIA Spectrum- XGS 以太网技术和 NVIDIA ConnectX®-9 SuperNIC™ 的 NVIDIA Spectrum- X™ 以太网网络平台结合使用。Vera Rubin NVL144 CPX 助力企业实现前所未有的规模盈利,每投资 1 亿美元即可获得 50 亿美元的token收益。

https://nvidianews.nvidia.com/news/nvidia-unveils-rubin-cpx-a-new-class-of-gpu-designed-for-massive-context-inference

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第4154期内容,欢迎关注。

加星标⭐️第一时间看推送,小号防走丢

求推荐

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
被谢贤养了12年,用青春换来2000万的Coco,已经走上了另一条道路

被谢贤养了12年,用青春换来2000万的Coco,已经走上了另一条道路

徐徐道史
2025-11-04 18:34:05
秦雯编剧电视剧被央视撤档,此前王家卫秦雯私密录音曝光惹争议

秦雯编剧电视剧被央视撤档,此前王家卫秦雯私密录音曝光惹争议

鲁中晨报
2025-11-05 11:31:09
知名装备网站:阿迪达斯将于11月6日发售世界杯球衣,23队谍照泄露

知名装备网站:阿迪达斯将于11月6日发售世界杯球衣,23队谍照泄露

懂球帝
2025-11-05 16:50:15
三大指数集体高开

三大指数集体高开

每日经济新闻
2025-11-06 09:30:06
真相炸裂!吴石夫人家族联名发声,三面横幅揭开尘封百年身世!

真相炸裂!吴石夫人家族联名发声,三面横幅揭开尘封百年身世!

老谢谈史
2025-11-06 00:47:14
太突然!央视宣布撤档!

太突然!央视宣布撤档!

台州交通广播
2025-11-05 20:31:05
国民党主席位置坐稳,郑丽文摊牌了:两岸不回归和平,其他是侈谈

国民党主席位置坐稳,郑丽文摊牌了:两岸不回归和平,其他是侈谈

刘森森
2025-11-05 19:18:26
SE等日本游戏公司要求OpenAI停止使用其作品训练AI 

SE等日本游戏公司要求OpenAI停止使用其作品训练AI 

3DM游戏
2025-11-04 15:05:07
就在今天!11月6日凌晨,跳水界传来全红婵、王伟莹、陈芋汐消息

就在今天!11月6日凌晨,跳水界传来全红婵、王伟莹、陈芋汐消息

陈意小可爱
2025-11-06 06:12:38
他问了欧盟一个“有趣”的问题,然后被解雇了......

他问了欧盟一个“有趣”的问题,然后被解雇了......

环球时报国际
2025-11-05 23:25:45
一位72岁靠运送垃圾为生的老人,却在租住的简陋地下室里,研究哥德巴赫猜想!完全是“竞赛级别”

一位72岁靠运送垃圾为生的老人,却在租住的简陋地下室里,研究哥德巴赫猜想!完全是“竞赛级别”

观威海
2025-11-04 09:58:04
布伦森23+7+10兰德尔32+5 尼克斯主场大胜森林狼

布伦森23+7+10兰德尔32+5 尼克斯主场大胜森林狼

北青网-北京青年报
2025-11-06 11:27:24
判了!上海一店铺生产销售毒面条,陆续加了近60斤有毒化工料

判了!上海一店铺生产销售毒面条,陆续加了近60斤有毒化工料

白浅娱乐聊
2025-11-06 06:16:58
价格大跳水!广东富豪最爱的“雷车”不香了?网友:老广买不动了

价格大跳水!广东富豪最爱的“雷车”不香了?网友:老广买不动了

品牌观察官
2025-11-04 21:42:02
伤心脏最凶的调料被揪出,是食盐的5倍,医生:心脏病患者别放了

伤心脏最凶的调料被揪出,是食盐的5倍,医生:心脏病患者别放了

小玡说故事
2025-11-06 08:24:23
白应苍被宣判死刑时,仍旧昂首挺胸,毫无悔意,他爹已经屁滚尿流

白应苍被宣判死刑时,仍旧昂首挺胸,毫无悔意,他爹已经屁滚尿流

我心纵横天地间
2025-11-05 11:28:28
三节35+5+5打卡!布朗独扛一队压力巨大 顶五年2.85亿还得更炸

三节35+5+5打卡!布朗独扛一队压力巨大 顶五年2.85亿还得更炸

颜小白的篮球梦
2025-11-06 10:54:10
中国治沙47年,目标根本不是消灭沙漠?真相颠覆你的认知

中国治沙47年,目标根本不是消灭沙漠?真相颠覆你的认知

削桐作琴
2025-11-05 14:15:04
黄金税改让整个实物黄金市场进入到了一种极度恐慌的状态

黄金税改让整个实物黄金市场进入到了一种极度恐慌的状态

流苏晚晴
2025-11-05 18:15:33
奉劝所有中国人,必须做好心理准备,俄罗斯外交部发言人说出事实

奉劝所有中国人,必须做好心理准备,俄罗斯外交部发言人说出事实

百态人间
2025-11-06 05:15:03
2025-11-06 11:40:49
半导体行业观察 incentive-icons
半导体行业观察
专注观察全球半导体行业资讯
12161文章数 34696关注度
往期回顾 全部

科技要闻

苹果“认输”!曝每年10亿美元租用谷歌AI

头条要闻

东山精密收购法国知名企业:和安世半导体有很大不同

头条要闻

东山精密收购法国知名企业:和安世半导体有很大不同

体育要闻

送走两位全明星,公牛成了东部第一

娱乐要闻

白百何好友揭露争奖细节

财经要闻

特朗普关税遭美国高院大法官轮番质疑

汽车要闻

方向盘?不存在的 特斯拉 Cybercab亚太首秀

态度原创

房产
本地
手机
家居
公开课

房产要闻

江东,给你留「门」儿了!

本地新闻

这届干饭人,已经把博物馆吃成了食堂

手机要闻

OV新款旗舰卖爆,天玑9500何以实现性能与能效的完美平衡?

家居要闻

别样府院 畅享诗意生活

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版