公众号记得加星标⭐️,第一时间看推送不会错过。
这些年的人工智能浪潮,让英伟达成为当之无愧的大赢家。如图所示,英伟达的营收屡创新高,公司市值也一度突破五万亿美元。
![]()
从很多报道我们看到,英伟达能取得当下的成绩,除了得益于公司在GPU上的领先投入外,公司在CUDA和NVLINK上的布局也是公司能够今天的必不可少的依仗。相关数据显示,英伟达公司的硬件(特别是其GPU),已经成为人工智能的代名词。许多最先进的程序都运行在英伟达芯片上——事实上,数量之多,以至于英伟达的市场份额达到了85%。
如此强大的市场控制力,相当于英伟达几乎垄断了整个行业,这也吸引了很多英伟达竞争对手拔地而起。尤其是现在随着推理的崛起,英伟达的竞对更是花样百出。在这里我们列举一下,
SambaNova卷土重来,发布新芯片
虽然在过去两年屡经波折,但SambaNova在最近又拿下了一轮融资,并获得了Intel的加持。
SambaNova周二发布公告称,公司已筹集 3.5 亿美元,用于推进其数据流架构,该公司将其定位为基于 GPU 的 AI 系统的替代方案。
值得一提的是,本次融资的部分资金来自英特尔资本,这打破了芯片巨头英特尔有意收购SambaNova的传闻。本轮融资的其他参与者包括Vista Equity、Cambium Capital以及其他几家风险投资基金,他们预期SambaNova最新一代可重构数据流单元(RDU)上市后将带来丰厚的回报。
英特尔将与这家初创公司展开一项“多年”合作,旨在为客户提供生成式人工智能部署中GPU之外的替代方案。这自然意味着SambaNova的新型RDU将采用至强CPU,但除此之外,双方的合作还将包括软硬件协同设计。
![]()
SambaNova 首席执行官 Rodrigo Liang 表示:“我们的产品非常有竞争力。他们有规模;他们有资金;他们有我们可以合作的客户。”
英特尔不仅在生成式人工智能领域落后于时代——可以说,这家巨头在数据中心 GPU 和 Gaudi 产品线屡次失误后,已经完全错失了良机。
英特尔数据中心集团执行副总裁凯沃尔克·凯奇奇安在一份声明中表示:“随着我们从边缘到云端不断发展和扩展人工智能应用,我们正在通过多种方式满足这些需求,以保持我们在生态系统中的关键地位,并保护和扩大市场份额。”
SambaNova 同时还披露,公司将于今年晚些时候交付其新一代加速器 SN50,日本软银集团已签约成为该初创公司的首批客户之一。
据SambaNova 称, SN50的速度是 Nvidia Blackwell 的五倍,吞吐量是后者的三倍,足以运行参数超过 10 万亿的智能体 AI 模型。
与 SN40 类似,SN50 也采用了分层内存架构,结合了 64GB 高带宽内存 (HBM)、432MB 静态随机存取内存 (SRAM) 以及 256GB 至 2TB 的 DDR5 内存。SambaNova 表示,这种内存架构使其能够承载规模最大的 AI 模型,包括参数量高达 10 万亿的模型。该公司在今天发布的一篇博文中写道:“驻留在 HBM 和 SRAM 中的模型可以在几毫秒内进行热插拔,这对于需要在多个模型之间频繁切换的智能体工作负载至关重要。 ”
SambaNova 表示,SN50 的单次加速器计算能力是 SN40 的五倍,网络带宽是 SN40 的四倍。该公司还表示,内部基准测试表明,与 Nvidia 的 Blackwell B200 GPU 相比,SN50 的最大速度是其五倍,在 Meta 的 Llama 3.3 70B 等模型上运行的智能推理工作负载的吞吐量是其三倍以上。
SambaNova 以预配置机架(称为 SambaRack)的形式销售其芯片,每个机架最多可容纳 16 个独立的 SN50 芯片。该公司支持 SambaRack 的扩展能力,可支持最多 256 个 SN50 芯片组成的集群,这些芯片通过每秒数 TB 的互连链路连接。每个 SambaRack 的平均功耗为 20 kW,因此可以使用风冷而非液冷。
SambaNova及其芯片的目标应用是人工智能推理工作负载,SN50也不例外。该公司表示,SN50能够将输入tokens缓存到内存中,从而缩短了相对于主流GPU架构的首次令牌响应时间(TTFT)。此外,SN50还能在内存中存储多个AI模型,并以远低于Nvidia GPU所需的时间进行交换。
SambaNova联合创始人兼首席执行官梁罗德里戈在一份新闻稿中表示:“人工智能不再是构建最大模型的竞赛。凭借SN50以及我们与英特尔的深度合作,真正的竞争在于谁能用即时响应、永不卡顿的AI代理点亮整个数据中心,并且成本能够将人工智能从一项实验转变为云端最赚钱的引擎。”
欧洲AI芯片公司,不甘人后
在同一日,欧洲人工智能芯片初创公司Axelera AI成功完成2.5亿美元的新一轮融资,这是迄今为止欧洲人工智能芯片制造公司获得的最大一笔投资之一。根据周二发布的公告,本轮融资由Innovation Industries领投,知名新投资者贝莱德(BlackRock)和SiteGround Capital也参与其中。这笔巨额资金注入凸显了投资者对欧洲人工智能芯片研发日益增长的信心,欧洲正努力在竞争激烈的半导体行业中占据一席之地。
Axelera AI是欧洲少数几家专注于开发人工智能专用半导体技术的公司之一。该公司总部位于荷兰埃因霍温,致力于打造节能高效的工业应用推理芯片。这些专用处理器旨在运行人工智能模型,而非训练模型,从而满足更广泛的人工智能生态系统中特定细分市场的需求。
该公司专注于推理芯片,使其在不断增长的市场中占据战略优势,该市场要求企业提供经济高效的解决方案,以便在生产环境中部署人工智能模型。然而,与主导全球半导体市场的美国和亚洲竞争对手相比,欧洲人工智能芯片市场规模仍然小得多。
自2021年成立以来,Axelera AI展现了持续的融资能力,迄今已累计融资超过4.5亿美元。最新一轮融资吸引了新老投资者的参与,体现了市场对该公司技术和市场策略的持续信心。
此前参与此轮融资的投资方包括Bitfury、Verve Investments、三星电子的Catalyst基金以及欧洲创新理事会基金。此外,比利时和荷兰政府支持的基金也参与了投资,凸显了欧洲各国对发展本土半导体能力的战略重视。
Axelera AI 的旗舰产品是一款名为 Metis 的人工智能芯片,其每秒可执行 214 万亿次计算。该处理器通常功耗约为 10 瓦,因此非常适合用于电池供电的联网设备。例如,仓库机器人可以使用嵌入式 Metis 处理器来运行人工智能导航软件。
Metis 采用 Axelera AI 称之为数字内存计算(简称 D-IMC)的架构。它通过限制芯片内部的数据传输来降低功耗。
![]()
人工智能处理器通常使用两组不同的电路来存储和处理数据。在处理过程中,数据需要定期在这些电路之间进行交换,这会消耗电力。Axelera AI 的 D-IMC 架构采用高速存储器 SRAM,在同一位置存储和处理信息。这减少了芯片不同部分之间数据传输的需求,从而降低了功耗。
D-IMC 将 SRAM 模块排列成一种称为交叉阵列的配置。这种阵列可以对向量和矩阵进行计算,向量和矩阵是 AI 模型使用的两种基本数据单元。向量是一行数字,而矩阵由多行数字组成。
Axelera AI联合创始人兼首席执行官Fabrizio Del Maffeo表示:“数据中心正面临电力和冷却方面的极限,随着分析越来越靠近数据产生的地方,边缘AI解决方案必须在严格的能源和带宽限制下运行。我们从零开始设计架构,就是为了克服这些障碍。”
Axelera AI 将 Metis 作为两款加速卡的一部分进行销售,客户可将其连接到自己的联网设备。第一款加速卡包含最多四个芯片,并通过 PCIe 端口连接到主机系统。另一款加速卡则包含一个 Metis 单元,并采用 M.2 接口。M.2 接口是一种节省空间的 PCIe 替代方案,常用于低功耗设备。
企业可以使用名为 Voyager SDK 的软件工具包在 Metis 芯片上运行 AI 模型。该工具包依赖于名为 Apache TVM 的开源工具来优化客户针对该芯片的算法。此外,Axelera AI 还提供了一个名为 Model Zoo 的预封装 AI 模型集合。
该公司目前正在研发第二代芯片 Europa。它的运算速度高达每秒 629 万亿次,是 Metis 的两倍多。该芯片包含 8 个 AI 优化核心、16 个中央处理器核心和 128 兆字节的内存。
Axelera AI 表示,Europa 芯片的每瓦性能可达同类产品的三倍。该公司称,该芯片尤其适用于运行计算机视觉模型。Axelera AI 的内部测试表明,其每秒可处理超过 13,168 帧的图像。
谷歌TPU老兵,组团对抗英伟达
由两位前谷歌芯片工程师创立的MatX也在今天宣布:已筹集超过 5 亿美元的新资金,用于开发旨在与NVIDIA 直接竞争的硬件。
据彭博社报道,本轮融资由Jane Street和 Situational Awareness 领投,后者是由前OpenAI研究员 Leopold Aschenbrenner创立的投资公司。其他投资者包括 Marvell Technology、风险投资公司 NFDG 和 Spark Capital,以及 Stripe 的联合创始人 Patrick Collison 和 John Collison。
这笔新的资金将使这家初创公司能够获得生产空间并获得重要零部件,特别是目前半导体行业短缺的存储器。
资料显示,MatX 由Reiner Pope和Mike Gunter创立,两人都曾就职于谷歌半导体部门。他们于 2022 年离开谷歌,目标明确:设计一款专为大型语言模型打造的芯片,而大型语言模型正是当今人工智能聊天机器人背后的技术。
“这让我们能够与那些规模庞大的公司在相对公平的平台上竞争,因为它们可以迅速扩张,”Gunter说。“这一轮融资让我们几乎与那些拥有巨额资金的公司站在了同一起跑线上。”
MatX是众多试图抢占人工智能芯片市场份额的初创公司之一,该市场长期以来一直由英伟达的图形处理器主导。MatX专门为顶级人工智能模型设计硬件,专注于最大限度地提高大规模应用的性能。
这家初创公司计划在今年晚些时候推出其首款芯片——一款名为 MatX One 的 LLM 优化加速器。虽然像 Groq、dMatrix 和 SambaNova 这样的许多人工智能初创公司都将推理作为重点,但 Matx 表示其芯片将涵盖所有功能:预训练、强化学习以及推理预填充和解码。
除此之外,关于这款芯片的具体细节仍然很少。该公司宣称,该芯片的分离式脉动阵列将提供最高的“每平方毫米浮点运算性能”,并可扩展至“数十万个芯片”。
他们的技术提供了十倍的计算能力,使人工智能实验室能够显著提升模型性能。这套硬件可以训练像 GPT-4 这样的高级模型,并运行像 ChatGPT 这样的应用程序,即使是小型初创公司也能轻松使用。
说到规模,如果该公司想将最新的 LLM 集成到 SRAM 中,肯定需要大量的硅片。
与AMD或Nvidia使用的HBM相比,SRAM的速度要快几个数量级。MatX预计其首款芯片能够以每秒超过2000个tokens的速度处理包含100层专家模型的大型混合模型。
SRAM的缺点是空间利用率不高。目前最大的芯片也只能容纳几百兆字节的SRAM数据,而且还要留出计算空间。
据他们在官网所说,MatX One 芯片基于可分割的脉动阵列,它兼具大型脉动阵列闻名遐迩的能效和面积效率,同时在具有灵活形状的小型矩阵上也能实现高利用率。该芯片融合了 SRAM 优先设计的低延迟和 HBM 的长上下文支持。这些特性,加上对数值计算的全新诠释,使得其在 LLM 上的吞吐量高于任何已发布的系统,同时延迟与 SRAM 优先设计相当。更高的吞吐量和更低的延迟,让您以更少的订阅费用获得更智能、更快速的模型。
MatX并非首家采用这种策略的公司。Cerebras通过制造晶圆级芯片绕过了这一限制,而Groq则通过数量取胜:想要运行更大的模型?只需增加(数百个)芯片即可。MatX似乎也借鉴了同样的策略。
然而,与 Groq 或 Cerebras 不同,MatX 也将使用 HBM——只是尽可能避免用它来存储模型权重。MatX 表示,HBM 将用于存储模型的键值 (KV) cache,用于跟踪模型在不同会话中的状态。(您可以将 KV cache理解为模型的短期记忆。)
MatX认为,通过这种方式将SRAM和HBM结合起来,其芯片将能够同时实现GPU的强大吞吐量和基于SRAM的设计的速度。现在,他们有了更多资金来验证这一想法。
将模型“刻”进芯片,Taalas横空出世
在最近融资的AI芯片初创公司中,Taalas无疑是其中最独特的一个。
总部位于多伦多的芯片初创公司 Taalas 上周表示,该公司已筹集了 1.69 亿美元,并开发出一种芯片,能够比传统方法更快、更便宜地运行人工智能应用程序。Taalas 已从 Quiet Capital、Fidelity 和芯片行业风险投资家 Pierre Lamond 等投资者那里筹集了总计 2.19 亿美元的资金。
Taalas成立两年半,已完成三轮风险投资,融资总额超过2亿美元。公司总部位于多伦多,这里是人工智能研究的热点地区之一,也是芯片技术人才的聚集地,包括Tenstorrent——Taalas的三位创始人均曾在此工作。Ljubisa Bajic是Taalas的联合创始人兼首席执行官,他同时也是Tenstorrent的创始人,广为人知。
众所周知,为了大幅提升 AI 推理能力,我们可以将大块 SRAM 添加到 AI 张量引擎集合中,或者更好的是,添加到晶圆级的此类引擎集合中,AI 初创公司 Cerebras Systems、SambaNova Systems、Groq(刚刚被英伟达以 200 亿美元收购)和 Graphcore(一年半前被软银以 6 亿美元收购)在与英伟达和 AMD 的 GPU 进行比较时,已经一次又一次地证明了这一点。
但Taalas认为,如果你真的想突破人工智能推理的极限,那么应该做的就是停止瞎折腾,将完成的人工智能推理的权重直接编码到芯片的晶体管中,并摆脱所有试图使计算引擎可塑性强,以便公司可以不断调整和优化其模型而产生的软件冗余。
通过这样做,还可以从根本上简化 AI 设备的架构,并且像 Taalas 所做的那样,可以消除困扰所有串行和并行计算引擎的计算和内存之间的壁垒——尤其是那些不得不求助于 HBM 堆叠 DRAM 以获得与其浮点和整数性能相称的带宽的 GPU 和 AI XPU。
目前,Taalas 对其硬编码推理架构的具体运作机制仍秘而不宣,但 Bajic 和 Kharya 为我简要概述了其工作原理。不过在此之前,Kharya 和我们一样都是历史爱好者,他展示了一张有趣的图片,完美诠释了“一切照旧”的道理。请看:
![]()
左上角是 1961 年 IBM 7030 Stretch 超级计算机的晶体管计算框架之间相互连接的大量铜缆,右下角是 1946 年 ENIAC 真空管超级计算机的机架,它最终催生了 Sperry Rand 计算机业务(现为 Unisys 的一部分)。
笑点在于,我们以前用的是巨型铜缆,每个机架要150千瓦的功率,而随着GPU和XPU的发展,我们又回到了未来。
那么,硬编码推理芯片究竟是什么,它是如何工作的呢?
![]()
Kharya是这样解释的:
“我们基本上采用了一种嵌入式架构,将模型和权重硬编码到我们称之为掩模ROM调用架构的结构中,该架构与SRAM调用架构配合使用。它们共同能够存储模型并执行KVcache的所有计算。我们提供适配器和定制方案——我们支持所有这些。这种设计使我们能够在计算和存储方面实现超高密度,并且我们可以在该存储上进行极快的计算,这正是提高密度和降低成本的关键所在。”
“在当前一代产品中,我们芯片硬连线部分的参数密度为 80 亿,再加上 SRAM,使我们能够实现键值缓存、微调等自适应功能。在下一代产品中,我们能够在一个芯片上实现高达 200 亿个参数。即使参数数量达到数万亿,我们也只需要几十个芯片,这与目前市场上任何其他产品相比,都是一个非常非常小的规模。”
Bajic没有具体说明建筑结构——Taalas 希望它目前保持某种程度的神秘感——他补充道:
“我们有一个用于掩模ROM调用结构的方案——也就是硬连线部分——我们可以用一个晶体管存储四个比特,并完成与之相关的乘法运算——所有操作都用一个晶体管完成。所以密度简直高得惊人。这可不是什么核物理——它是完全数字化的。这只是一个我们不想公开的巧妙技巧。但是一旦你把所有东西都硬连线,你就有机会以与处理可变数据截然不同的方式进行数据填充。重要的是,我们可以在一个晶体管中设置权重并完成与之相关的乘法运算。你知道,乘法器是计算机的核心部件。”
“我们发明的东西其实并不难。只是因为没人走过这条路,所以才显得很巧妙。两年前,我们开始着手解决这个问题,目标是彻底打破内存和计算之间的壁垒。这就是一切的起源。当时,我们想到的第一个方法——也是我们当时唯一能想到的、能在可预测的时间内推出产品的办法,因为我们不想成为只会钻研三年却搞出个半成品的科研教授——就是迅速转向基于ROM(只读存储器)的方法。我们开始深入研究,然后发现这实际上比我们想象的还要好。”
“实际上,所有这些东西都是我们内部从零开始设计的。我们没有使用任何现成的产品,我们做了很多晶体管级别的设计、手工布局——基本上,我们所有的努力最终都回到了20世纪70年代。”
从一些报道可以看到,Taalas提供了一款名为 HC1的 AI 加速器,它采用硬件硬连线(即在硬件中实现)Llama-3.1 8B 模型,AI 性能接近 17,000 个tokens/秒,优于 NVIDIA B200 或 Cerebras 芯片等数据中心加速器。该芯片采用台积电 (TSMC) 的 6nm 工艺制造,面积为 815mm²,包含 530 亿个晶体管。
据Bajic称,HC1卡的功耗约为200瓦,而一台配备十张HC1卡的双路X86服务器的功耗则高达2500瓦。
顺便一提,由于 HC1 卡速度极快,无需批量处理查询即可实现低延迟推理,这意味着 Taalas 设备的带宽压力很低。低到即使将多张卡并联运行更大的模型,PCI-Express 总线也完全够用。Taalas 将在今年晚些时候允许客户使用流水线并行技术将工作负载分配到多张 HC 卡上。事实上,到今年夏天,Taalas 将推出一款硬编码到 HC 芯片中的 Llama 3.1 模型,该模型包含 200 亿个参数。
Taalas HC1 的速度比 Cerebras 芯片快约 10 倍,制造成本低 20 倍,功耗也低 10 倍。其主要缺点是只能使用硬件中硬编码的模型,目前是 Llama-3.1 8B,不过据称它“通过可配置的上下文窗口大小和对低秩适配器 (LoRA) 微调的支持,保留了一定的灵活性”。
![]()
到今年年底,Taalas 将推出一款前沿的大型语言模型——可能是 Llama,也可能是 DeepSeek,或者两者兼而有之——该模型将在多张 HC 卡上运行推理。这种架构将被命名为 HC2。
从SambaNova的数据流架构,到Axelera AI的存内计算,再到MatX的SRAM+HBM组合,以及Taalas将模型直接“刻进芯片”的极端路线,可以看到,AI芯片的竞争已经进入了真正的百花齐放阶段。
英伟达依然强大,但行业已经不再满足于单一GPU范式。推理时代的到来,正在打开新的窗口——新的架构、新的内存体系、新的系统设计,正在不断挑战传统计算模式。
今天这些疯狂融资的公司,未必都能活下来,但其中很可能会诞生下一代计算架构的奠基者。
正如当年的GPU并不是一开始就统治AI时代一样,未来十年的算力格局,也未必只属于英伟达。
AI芯片虽然经历了几轮的洗礼,但新的战争,也才刚刚开始。
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第4328期内容,欢迎关注。
加星标⭐️第一时间看推送
求推荐
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.