2025年底,全球半导体圈被一则重磅消息引爆:英伟达(Nvidia)宣布与AI芯片初创公司Groq达成协议,斥资200亿美金获取其技术非独家许可并吸纳其核心团队。
尽管是英伟达,200亿美金也不是个小数目,而是占到其年度现金流的三分之一,接近四分之一。那么Groq到底是一家怎样的公司?
Groq代表了目前最先进的LPU(Language Processing Unit,语言处理单元)架构,其创始人Jonathan Ross曾是GoogleTPU(Tensor Processing Unit,张量处理器)的发明者,但这并不意味着LPU是TPU的升级版。
芯片的族谱里确实有很多“PU”,我们熟知的CPU(中央处理器)和GPU(图形处理器)分别代表传统的逻辑处理和统治 AI 训练的大规模并行计算。
TPU试图同时兼顾大规模训练和推理的需求。
而LPU则是一个“新物种”。它抛弃了训练的包袱,更像是一辆专为大模型推理(Inference)设计的 F1 赛车。它抛弃了主流的“存算分离”冯诺依曼架构,追求最极致的低时延。
“长期稳定的低时延”,在具身智能和端侧硬件场景中尤为重要 ,因为它决定了机器与人的交互是否实时、顺畅。或许在消费级硬件中,人机交互不够顺畅或者忽快忽慢,仅仅是让人不适,但在自动驾驶领域却足以致命。
更重要的是,在这类场景中,中国有巨大的发展机会,一个重要原因是我们拥有全球最完整的电子供应链,这代表着我们离供应链更近,离客户更近。
不久前,峰瑞资本合伙人杨永成与拥有20年顶尖大厂造芯经验的杨滨进行了一场深度对话,后者刚创立了元川微,致力于高性价比的AI推理端处理器,类Groq LPU架构。
他们聊天的主要话题包括:
英伟达豪掷200亿美金收购Groq核心团队,究竟是忌惮对手,还是为了补齐自己算力版图的最后一块拼图?
Groq创始人虽是“TPU之父”,但为什么说LPU不是TPU的升级版,而是完全不同的“新物种”?
“领先一步是先烈,领先半步是先进”,LPU架构沉寂九年,如今爆发的原因是什么?
为什么说CPU/GPU的工作原理是“吃满汉全席”,而LPU是“吃回转寿司”?
Groq14nm的“老工艺”芯片凭什么“吊打”英伟达4nm的H100?六分之一的时延、三分之一的功耗、四分之一的成本,Groq的这组“反直觉”数据透露了什么秘密?
为什么说AI推理端是个长尾市场,而长尾市场恰恰是对创业者比较有利的?
这轮人工智能技术会多大程度改变教育行业?
我们整理了部分对话内容,完整对话欢迎移步小宇宙App和Apple Podcast搜索「高能量」收听本期节目。
我们编辑了对谈的部分内容,希望能与LPU架构、AI推理芯片领域的从业者多交流。本篇是「AI产业观察」系列内容之一,该系列将持续分享AI领域创业者的一手实践和思考观察。如果你在AI芯片方向创业,欢迎联系yangyongcheng@freesvc.com
「AI产业观察」系列内容
互动福利
你认为LPU架构会在哪些应用场景中出现?欢迎你在评论区和我们聊聊你的看法。截止至 2026 年1 月31 日 17:00 ,留言最走心的2 位读者将会随机获得丰叔的推荐书籍一本。
英伟达的焦虑与AI算力的“下半场”
杨永成:今天我们请来了元川微的创始人杨滨,一起讨论下AI处理器,包括GPU、NPU,特别是最近火热的LPU分别是什么?先请滨总做个自我介绍吧。
杨滨:我们是一家半导体的设计初创公司,聚焦在端侧和边侧的推理算力方向。其实当前不管是创业者还是投资人,大家都有一个共识:AI产业已经进入了下半场。
上半场是模型能力的竞赛,大家看参数、看Benchmark分数,这其实是在衡量模型能力的天花板。到此刻,模型已经具备了商用能力。
所以进入下半场,本质上是模型价值的兑现。因此,围绕应用落地,AI的推理算力一定是一个非常关键的核心赛道。
杨永成:最近有个很轰动的新闻,英伟达以大概200亿美金的估值收购了LPU的领先企业Groq的技术授权和团队。大家有各种解读,有人说是英伟达为了遏制竞争对手,把它“杀死”在摇篮里。作为行业的资深从业者,你研究LPU很多年,你怎么看这件事?
杨滨:我觉得“阻碍竞争对手”这个观点相对比较狭隘。我们要算笔账,200亿美金对英伟达的股价可能不算大事,但英伟达前三季度的现金流大概是560亿美金,这笔交易可能占到了它全年现金流的1/3到1/4。
这个成本不可谓不高,背后恰恰反映了英伟达对产业发展的深刻认识。他为什么买推理公司而不是训练公司?因为从2025年开始,英伟达的战略重心已经转移到推理侧,特别是具身智能。
你看英伟达的版图:CPU有Grace,GPU有Rubin,DPU来自Mellanox,这三个解决了云端超算的训练需求。但真正走向端侧、走向具身智能时,它缺一个板块——实时推理。LPU恰恰能给它带来极大的补充。
杨永成:我理解一下。英伟达这次收购第一是看中了LPU的技术路线,特别是在推理端的优势;第二也是他对推理市场快速发展的紧迫性预期。收购正好能最快地强强联合,帮助他尽早在推理市场也取得像当年训练市场一样的领先地位。
杨滨:是的。我可以毫不犹豫地说,在AI推理领域,LPU架构是最合适的,没有之一。
杨永成:还有个说法——英伟达是为了收购谷歌TPU的人才,因为Groq的创始人Jonathan Ross此前在谷歌开发了TPU v1,后来TPU v1为AlphaGo战胜李世石提供了算力支持。以及TPU和LPU是同样的东西吗?
杨滨:这个说法我觉得有点“蹭热点”的嫌疑。Jonathan Ross虽然是TPU v1的主架构师,但他2016年就离开了。现在的TPU已经迭代到v7版本了,跟当年比变化很大。
至于LPU和TPU,它们非常不一样,差别太大了,甚至可以说是两个物种。谷歌的TPU还肩负着训练的使命,而LPU是纯粹为推理而生的。
杨永成:其实英伟达此次收购操作是收了知识产权,让核心团队来上班,但Groq品牌还在。
杨滨:我觉得用反垄断法解释更合理。就像当年Intel扶持AMD一样,如果英伟达把CPU、GPU、DPU、LPU都做得很好,市场上没有第二家公司了,他可能面临分拆风险。所以保留Groq这个品牌独立运营,是一种法律上的生存智慧。
从“满汉全席”到“回转寿司”:
LPU的技术真相
杨永成:LPU架构发源于2016年,为什么沉寂了九年,直到今天才火起来?
杨滨:用一句话来形容就是“领先一步是先烈,领先半步是先进”。Groq成立时,大模型还没火,它起早了。现在的LPU热起来,本质是产业与技术的同频共振。
当下的AI产业有两个特征:第一,相对低成本的模型能力非常强了,从 DeepSeek的爆发开始,30B到70B的模型已经是应用的甜点区(sweet spot,性价比最高的平衡点);第二,推理真正规模化了。
杨永成:这就像当年的ARM芯片(当下手机里的通用芯片),等到消费电子兴起才得到大发展。LPU这种“为推理优化而的精打细算”也需要这个契机。
如果是试点式应用,大家对Performance(表现)要求不高,慢几十毫秒0.0几秒没问题。但一旦进入大规模应用,普及到千家万户,就要精打细算。功耗高了,运营成本就高,时延差了,用户体验就崩了。
杨滨:是的,特别是“短时延”这个特点,经常容易被忽略。LPU不仅是绝对时间短,更关键的是:它可以提供长期稳定的短时延。比如机器人或者自动驾驶,如果算力忽快忽慢,响应忽快忽慢,那是致命的。
杨永成:是的,这实际上决定了能不能用的问题。比如AI拍照,现在很多是后处理,拍完发现闭眼了,再来修图。如果时延够低,就能做成“实时推理”,按快门的时候直接把闭眼处理成睁眼,这就是创造了新需求。
杨滨:我这里可以提供一个具体的参数。Groq在2024年的ISCA会上发布过一组数据:他们用14nm的老工艺芯片,对比英伟达4nm的H100,结果是Groq只有H100的六分之一的时延、三分之一的功耗、四分之一的成本。所以整个能效是英伟达的10倍。
杨永成:这几个指标对边缘端太重要了。能不能给读者简单科普一下,LPU和我们熟悉的GPU、CPU到底有什么本质区别?
杨滨:我打个比方。CPU和GPU,其实本质上都是冯·诺依曼结构。它们都有大量的多层次Memory(为了暂存数据的多级缓存体系)结构,大家要去共享区间交换数据。
这就像吃“满汉全席”。桌子不转,所有菜在中间(共享内存)。每个人(核)都要站起来去夹菜,这就可能会出现筷子打架(冲突、不可预测),就像“隐式数据流”。
LPU是完全的非冯·诺依曼结构,是两个物种。它打破了共享内存机制。它更像吃“回转寿司”。你坐着不动,菜(数据)在传送带上转。最神奇的是,当你想吃的时候,那道菜恰好转到你面前。这就是“显式数据流”,也就是确定性。
杨永成:这个比喻很形象。我也补充一个比喻:
GPU/NPU 就像教授带一群博士生(多核)。每个人都很强,但分配工作的时候会有调度损耗,经常出现资源利用的不确定性,时效性不好。
LPU 就像工业流水线。每个工位的人只需要擅长打螺丝或贴标签,动作简单单一,但从头到尾没有停顿,效率极高。
杨永成:这里还有一个深层次的商业竞争问题。在训练端,英伟达几乎垄断了一切,那到了推理端(Inference),是否会很快迎来红海?
杨滨:推理市场对我们创业者最有利的地方在于,它其实是一个非常长尾的市场。
训练的场景很简单,就是在云端堆算力,但在推理端,场景非常碎片化,小到一个智能手环,大到边缘一体机、汽车智驾系统,它们对芯片的需求完全不同。这就决定了:这个市场上不可能存在一个完美的“六边形战士”芯片来解决所有问题。
而且,因为推理侧的机会偏向在应用端,而中国是电子产品领域全世界最大的供应商,我们离供应链和客户是最近的,这也是在中国公司做LPU的机会所在。
换道超车:中国供应链与“LPU Plus”
杨永成:刚才我们聊到LPU发展已经有9年,但是最近才火起来。除了市场驱动的原因外,我还观察到一个现象,行业里跟踪LPU技术路线的人比较少,这是为什么?
杨滨:除了Timing问题,还有极高的技术门槛。
硬件方面,LPU是流水线结构,每一个环节都要精心定制设计,不能像GPU那样复制核,设计验证工作量巨大。
软件方面,编译器挑战极大。既要懂处理器架构,又要懂编译器,还要懂布局布线,这种“三位一体”的人才非常稀少。
杨永成:其实Groq作为先驱也踩了很多雷。比如早期为了追求速度,大量使用片上SRAM,导致晶圆面积过大、成本飙升。
但这对我们来说也是机会。因为Groq离电子消费品供应链太远,迭代慢。而中国是全球最大的电子产品供应商,我们离硬件最近,离客户也最近,我们可以快速迭代。
杨滨:是的,这就是我们在做的“LPU Plus”。我们不是简单复刻Groq,而是在架构上做了大量的升级改造,解决成本和存储的问题。我们跑出来的数据跟Groq极度吻合,甚至有信心做得更好。
杨永成:沿着巨人的足迹想超越他是很难的。但在LPU这个新赛道,加上我们离市场近,超越的机会更多。那么滨总,咱们未来的应用落地场景主要在哪?
杨滨:中期看是具身智能,那是星辰大海。短期看是传统硬件的重构。
背后的逻辑是模型的能力从“分类器”变成了“生成器”。以前摄像头只能分类说“这是猫”,未来摄像头每天能给自己写一份工作报告:“今天有没有可疑的东西”。这都是巨大的商业机会,所有的存量市场都有机会被翻一遍。
杨永成:最后问一个个人问题。那个你决定自己下场创业的moment是什么?
杨滨:我们之前其实扫描了所有的架构,看明白了LPU是最好的,但那个让我决心创业的Moment一直没出现。
直到2025年春节,DeepSeek那篇论文DeepSeek-R1 的技术报告发布。那篇论文给我触动极大:大模型终于不是泡沫了,可用了。模型能力很强,成本降到了大家可以使用的阶段。
那天晚上我把论文看完,觉得终于可以下场了。虽然LPU这条路很难,但我相信峰瑞那句话:做难而正确的事。
![]()
星标峰瑞资本微信公众号
一手商业思考及时送达
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.