网易首页 > 网易号 > 正文 申请入驻

GPU英伟达发布LPU芯片:AI推理的「加速器」来了

0
分享至

当地时间 3 月 16 日,英伟达在加州举办了 GTC 2026 大会,发布了全新的 Vera Rubin 平台。虽然算力再破纪录的 Rubin GPU 依旧是全场焦点,但在雷科技看来,Vera Rubin 中的 LPU(Language Processing Unit,语言处理单元),同样值得大家的关注。



图片来源:NVIDIA

我们先简单回顾一下 LPU 的「前世今生」:

严格来说, LPU 这一概念并非英伟达自己的创意。2016 年,前谷歌 TPU(张量处理单元)团队的核心成员创立了 Groq,后者在 2020 年就推出了用于大语言模型的 LPU 芯片。2025 年 12 月,英伟达收购了 Groq 的核心技术和技术团队,并在 2026 年的 GTC 上正式发布了英伟达的 LPU 芯片,用于 AI 推理加速。

那么是什么,让英伟达决定斥 200 亿美元巨资买下 Groq 呢?这还得从 LPU 芯片的功能和定位说起。

业内首个专为「推理」设计的协处理器,强在哪?

在大多数人的认知里,AI 芯片功能都差不多,毕竟 GPU、NPU 甚至是 CPU 都能跑推理,英伟达的 GPU 长期以来也是这种「全能型」选手。但在Vera Rubin 平台,LPU 并不直接用于通用计算。

简单来说,LPU 是大模型的「推理加速器」,它要用 SRAM 极高的显存带宽,解决大模型在生成回复时慢的问题。



图片来源:NVIDIA

要知道在大模型的技术逻辑中,「AI 推理」的瓶颈往往不在于计算核心的算力上限,而在于显存带宽。以当前主流的 HBM(高带宽内存)方案为例,虽然 HBM 的带宽本身就比标准 DDR、GDDR 这些内存、显存要快,但其本质上是堆叠 DRAM,而 DRAM 的工作模式决定了其在读写延迟方面的短板。

相比之下,LPU 采用的是 SRAM 方案,从数据结构上绕开了 HBM 方案较高的延迟,让模型可以直接在缓存中进行推理。尽管 SRAM 在空间表现上不如 HBM,但对于 AI 推理这一应用场景,SRAM 的优势足以弥补其短板。

Agent 时代为什么英伟达急需 LPU

根据英伟达的介绍,基于 SRAM 方案的 LPU 每秒带宽高达 150 TB/s,能让 AI 之间通信的吞吐量从每秒 100 个 Token 提升到了 1500 个以上。这种源自数据传输底层的技术升级,就像给 AI 开了专门的「5G 网络」,让模型「直播」(边推理边输出)成为可能。

当然了,LPU 架构也有自己的短板。作为「空间换时间」的技术代表,SRAM 虽然读写速度极快、带宽极高,但其数据结构和成本决定了它不可能像 HBM 那样动不动就堆叠几百 GB 的容量。这也意味着 LPU 必须与 Rubin GPU 配合工作,无法独立运行大规模模型。



图片来源:NVIDIA

但从另一个角度想,LPU 的出现其实就像当年的 NPU 一样,利用异构单元「各取所长」,让大模型知道哪些任务交给 GPU 去算,哪些实时交互交给 LPU 去跑。在雷科技看来,这种算力分流的模式,才是 LPU 最有价值的地方,也是前几年英伟达愿意重金买下 Groq 的关键原因。

可能有人觉得奇怪,就全球市场来说,英伟达早已控制了「头部算力」,GTC 2026 上也发布了 Rubin GPU,那为什么不继续走「绝对算力」的路线,要用 LPU 进行加速分流呢?

在雷科技看来,这种算力结构的变化,其诞生也和 Agent 时代的 AI 交互模式有关。以往我们用 ChatGPT、Gemini 或千问等 AI 服务,本质上都是单线操作的「回合制 AI」;在 AI 给出结果之前,我们不需要、也不能做下一个操作。

但在 Agent 时代,AI 需要在多个应用间执行超长的任务链,而这种「AI 间通讯」对延迟有着极高的要求。如果用传统的 GPU 跑推理,Token 生成速度可能只有每秒几十个。

在一个需要跨越数十步决策的长任务链中,这种延迟会成倍增加。而 LPU 的加入,将部分推理前置,用低延迟换来了「连续响应」的能力。也正因如此,雷科技认为 LPU 的出现,必然会推动 AI 算力体系搭建的新一轮转型。

国产厂商如何突围

从性能表现来看,Vera Rubin 平台、LPU 等概念的出现,确实又一次奠定了英伟达在 AI 领域的领先地位。但对于国内 AI 巨头来说,在短时间内跟进 LPU 架构其实并不现实——LPU 核心的高速 SRAM 颗粒高度对封装技术有较高的要求,在芯片行业产量朝着英伟达倾斜的背景下,国产芯片企业想建立自己的 SRAM 推理生态,从成本的角度看并不简单。

但这并不代表国产厂商在推理端无路可走。以阿里平头哥在 2026 年初上线的真武 810E 为例,真武 810E 采用了阿里自研的并行计算架构和 ICN 片间互联技术,将片间互联带宽提升至 700BG/s。



图片来源:平头哥

百度的昆仑芯则从 XPU 架构上入手,将计算和通信并行处理,在上一组数据计算时就提前请求下一组数据。摩尔线程则选择了全功能 GPU 的路线,用一站式方案降低企业部署成本,提高 AI 服务器的综合性价比。

虽然在绝对吞吐量上,这些「曲线救国」的国产方案距离英伟达的 LPU 还有一定的差距,但凭借更好的 AI 用例适配,平头哥和昆仑芯在国内算力市场的影响力同样不容忽视。

从行业发展的角度看,英伟达 LPU 的面世,固然推动了 AI 架构优化的进程。但对于国产算力企业而言,凭借更低的网络延迟和更好的本地化,依旧有超车的机会。毕竟对 AI 这样典型的「黑箱用例」来说,用户其实并不关心 AI 背后的算力结构和运行逻辑。一个好用、易用、低成本的综合体验,才是国内 AI 市场真正看重的核心竞争力。

3月12日-3月15日,AWE(中国家电及消费电子博览会) 2026 盛大开幕!
海信、海尔、美的、TCL、创维、华为、追觅、石头、MOVA、雷鸟、韶音、小熊、九号等AI科技巨头,将在上海滩围绕“AI科技·慧享未来”主题,呈现AI与硬件特别是家电融合的新潮流。人人“养龙虾”,家电如何融入Agent能力?机器人到家,家电无人化走到了哪一阶段?全场景融合,“人车家”生态会碰撞出哪些火花?AI硬件大爆发,硬件厂商又整出了哪些花活儿?
在雷科技MCN总编辑罗超、核心主播“阿雷”领衔下,雷科技AWE报道团(10+人)奔赴上海展开现场报道,现已凯旋。欢迎在雷科技全平台获取相关内容。



特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
古巴国家主席公开回应美国威胁

古巴国家主席公开回应美国威胁

新京报
2026-03-18 10:02:06
定档3月22号!CCTV 8黄金档每晚两集连播!阵容超级强大

定档3月22号!CCTV 8黄金档每晚两集连播!阵容超级强大

小邵说剧
2026-03-17 21:17:02
警告!以军摧毁俄驻中东领事馆及文化中心,战斗民族变沉默民族

警告!以军摧毁俄驻中东领事馆及文化中心,战斗民族变沉默民族

高博新视野
2026-03-15 08:10:11
深圳老人必备!颐年卡的可享受福利待遇以及办理方式→

深圳老人必备!颐年卡的可享受福利待遇以及办理方式→

深圳本地宝
2026-03-18 13:12:47
攻守易势!伊朗开启断电拆家模式,以色列真的会沦为大号加沙吗

攻守易势!伊朗开启断电拆家模式,以色列真的会沦为大号加沙吗

战争史
2026-03-15 10:05:58
史无前例!国家突然成立一所神秘学院,信号强烈

史无前例!国家突然成立一所神秘学院,信号强烈

前瞻网
2026-02-06 09:50:15
哇塞!湖人神级补强,1100W搞定的防守大闸,真是太神了

哇塞!湖人神级补强,1100W搞定的防守大闸,真是太神了

体育新角度
2026-03-18 21:53:46
杜兰特谈生涯得分将超越乔丹:他休息了四五年,不然能得4万分

杜兰特谈生涯得分将超越乔丹:他休息了四五年,不然能得4万分

懂球帝
2026-03-18 07:52:10
子弹造不出、坦克也没有,非五常国家军力如何,会对华产生威胁吗

子弹造不出、坦克也没有,非五常国家军力如何,会对华产生威胁吗

闻识
2026-03-17 14:51:34
三星Glasses智能眼镜电池容量首次曝光:仅245mAh

三星Glasses智能眼镜电池容量首次曝光:仅245mAh

CNMO科技
2026-03-17 13:34:05
5天扣留28艘,巴拿马有火发不出来,中方不抓人不扣货,只查船只

5天扣留28艘,巴拿马有火发不出来,中方不抓人不扣货,只查船只

起喜电影
2026-03-17 18:48:04
谁干的?美国“机毁人亡”,特朗普或再次“退群”,俄向日本出招

谁干的?美国“机毁人亡”,特朗普或再次“退群”,俄向日本出招

风信子的花
2026-03-19 00:27:25
健身房倒闭,教练自费上完877节课,“发展至今是学员们在为我谋生,不能辜负信任”

健身房倒闭,教练自费上完877节课,“发展至今是学员们在为我谋生,不能辜负信任”

观威海
2026-03-18 09:03:03
比亚迪大唐纯电参数曝光,130度电二代刀片电池包,最高续航950km

比亚迪大唐纯电参数曝光,130度电二代刀片电池包,最高续航950km

光电科技君
2026-03-18 21:54:05
李小璐母亲张伟欣:将女儿李小璐嫁给贾乃亮,是我至今后悔的决定

李小璐母亲张伟欣:将女儿李小璐嫁给贾乃亮,是我至今后悔的决定

探索源自好奇
2025-09-16 16:48:36
看了几百个“凌乱”的家,我窥见了中国家庭的“通病”,太真实了

看了几百个“凌乱”的家,我窥见了中国家庭的“通病”,太真实了

室内设计师有料儿
2026-03-13 22:52:34
“老师最烦这种现眼包家长”,宝妈运动会穿紧身裙,被嘲故作娇弱

“老师最烦这种现眼包家长”,宝妈运动会穿紧身裙,被嘲故作娇弱

妍妍教育日记
2026-03-17 20:29:16
几乎全是假货!利润高达2400%,咋消费者还前赴后继争相购买?

几乎全是假货!利润高达2400%,咋消费者还前赴后继争相购买?

奇思妙想草叶君
2026-01-05 23:13:15
伊朗发动第62波攻势打击美以军事基地

伊朗发动第62波攻势打击美以军事基地

界面新闻
2026-03-18 20:35:57
弗拉泰西倒地时裁判录音公布,主裁&VAR:接触很轻,不是犯规

弗拉泰西倒地时裁判录音公布,主裁&VAR:接触很轻,不是犯规

懂球帝
2026-03-18 11:09:04
2026-03-19 03:39:00
雷科技 incentive-icons
雷科技
专注AI硬科技
36495文章数 811932关注度
往期回顾 全部

科技要闻

实测QClaw:腾讯突袭,给微信装上AI大脑

头条要闻

伊朗大部分地区突然"断网" 与国际互联网全面断联

头条要闻

伊朗大部分地区突然"断网" 与国际互联网全面断联

体育要闻

守住底线的中国女足,下一步该怎么走?

娱乐要闻

姚晨侯雯元绯闻升级 双方否认称是谣言

财经要闻

楼市最大的"赌徒",正在批量抄底老破小

汽车要闻

价格10万级 四驱中级电混轿车银河星耀7来了

态度原创

房产
家居
本地
公开课
军事航空

房产要闻

大规模召回离职员工?碧桂园最新回应!

家居要闻

复古格纹 轻法森系风

本地新闻

春色满城关不住|粉色浪漫已至,来宁波共赏樱花雨

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

以防长:伊朗情报部长哈提卜已身亡

无障碍浏览 进入关怀版