攻破CUDA护城河，英伟达挑战者融资18亿|gpu|amd|cuda|nvidia

分享至

公众号记得加星标⭐️，第一时间看推送不会错过。

来源：内容来自半导体行业观察综合。

人工智能初创公司 Modular Inc.今天表示，其在第三轮融资中筹集了 2.5 亿美元（约18亿人民币），公司估值达到 16 亿美元。

此轮融资由 Thomas Tull 的美国创新科技基金领投，DFJ Growth 跟投。所有现有投资者均参与了此轮融资，包括 Google Ventures、General Catalyst 和 Greylock Ventures。此轮融资使该公司的融资总额达到 3.8 亿美元。

Modular 成立于 2022 年，它提供了一个平台，允许开发人员在不同的计算机芯片（包括中央处理器、图形处理单元、专用集成电路和定制硅片）上运行 AI 应用程序，而无需重写或迁移代码。

在过去三年中，该公司构建了一个软件基础设施层和一种专门的编程语言，旨在让企业能够在多种芯片和服务器上部署人工智能模型。

Modular 的长期目标是为企业用户提供 AI 部署，解决当前碎片化的生态系统，即需要为每个特定架构编写专门的代码。该公司的平台是一个企业级 AI 推理堆栈，可以抽象出硬件。

首席执行官克里斯·拉特纳 (Chris Lattner) 在一份声明中表示：“当我们创立 Modular 时，我们相信世界需要一个统一的人工智能平台，而今天，这一愿景比以往任何时候都更加重要。”

英伟达公司目前在人工智能加速器市场占据主导地位。据估计，其 Hopper 和较新的 Blackwell 架构将为 70% 至 95%的人工智能数据中心 GPU 提供支持。英伟达专有的编程框架 CUDA 进一步巩固了这一主导地位，凭借其强大的并行计算能力，CUDA 已成为人工智能开发事实上的标准。

挑战者确实存在，其中最引人注目的是 AMD 公司，该公司生产Instinct AI 加速器并维护开源 ROCm 软件堆栈。但由于许多开发工具和推理平台都是为 CUDA 编写的，迁移到 ROCm 通常很困难，这使得 AMD 处于不利地位。

Modular 认为，通过赋予企业更多硬件选择自由，可以打破供应商锁定，从而有机会打破这种锁定。其平台已经支持 Nvidia、AMD 和 Apple 定制芯片的架构。该公司表示，与 vLLM 和 SGLang 等领先框架相比，其最新版本在下一代加速器（包括 Nvidia 的 B200 和 AMD 的 MI355）上的性能提升了 20% 至 50%。

这一愿景似乎引起了共鸣：AMD、Nvidia 和亚马逊公司都已加入成为生态系统合作伙伴。Modular 还与人工智能应用开发商合作，例如与Inworld AI合作加速语音合成，以及与运营 GPU 集群市场的San Francisco Compute Co.合作。

该公司总部位于旧金山湾区，员工人数已超过 130 人。借助新一轮融资，Modular 计划在北美和欧洲地区扩大招聘规模，扩展其云平台，扩展对云和边缘硬件的支持，并将业务重点从推理领域拓展到 AI 训练领域。

打造CUDA替代者

构建 CUDA 替代方案从来都不是一件容易的事。

Chris Lattner 在 Modular 的 120 人团队已经为此工作了三年，目标不仅是替换 CUDA，而是从头开始替换整个 AI 软件堆栈。

“这需要什么？嗯，构建一个 CUDA 的替代品实际上相当困难。这需要数年时间，”Lattner表示。“在过去三年里，我们一直在研究编程语言、图形编译器和 LLM 优化，把所有这些事情都整理好、大规模实施、测试和验证。”

现有AI 软件堆栈的问题在于其快速兴起，并且仍在快速发展；为了跟上新的用例和模型，层级被快速添加。如今，在 CUDA 之上，有像 OneMKL、用于推理服务的 vLLM、Nvidia 的 TensorRT-LLM 以及现在的 Nvidia 的 NIM 微服务这样的库——Lattner 称之为“一个巨大的堆栈”。

拉特纳指出，CUDA 本身已有 16 年历史。换句话说，它早在生成式 AI 用例出现之前，以及张量核心和 FP4 等 GPU 硬件特性发明之前就已经存在了。

拉特纳所说的“一次性框架”，即那些被采用但在被取代之前寿命很短的堆栈部分，也无济于事。

“一切都在变化，它并非为通用性而设计的，它会逐渐消失，”他说。“我们正在为企业构建一个真正可扩展的技术平台，以便他们能够跟上人工智能的步伐。”

还有其他项目旨在取代 CUDA，或提供一定程度的 CUDA 代码可移植性，或两者兼而有之。

其中最成功的项目之一是开源项目 ApacheTVM。TVM 的主要目标是通过自动化内核融合，使 AI 能够在各种硬件上高效运行。但事实证明，生成式 AI 是一项技术挑战，因为与传统的计算机视觉应用相比，其算法规模更大、更复杂。生成式 AI 算法也更依赖于硬件（例如 FlashAttention）。TVM 的核心贡献者成立了一家名为 OctoAI 的公司，该公司为企业集群开发了一套生成式 AI 推理堆栈，但该公司最近被英伟达收购，这给该项目的未来蒙上了一层阴影。

另一项广为人知的技术是 OpenCL，它是一项旨在实现 GPU 与其他硬件类型之间代码可移植性的标准。该标准已广泛应用于移动和嵌入式设备。然而，包括 Lattner 在内的批评者指出，OpenCL 缺乏灵活性，无法跟上快速发展的 AI 技术，部分原因是它是由竞争公司之间的“竞合”所驱动，这些公司通常拒绝透露任何有关未来硬件功能的信息。

拉特纳说，其他此类商业项目仍处于早期阶段。

他说：“构建一个演示、解决一个模型和一个用例与构建一个大规模通用的东西之间存在很大差距，这实际上可以跟上人工智能研究的步伐，这是非常重要的。”

拉特纳表示，Modular 作为一家纯软件公司，更适合构建适用于所有硬件的堆栈。

“我们只是希望软件开发者能够使用他们的芯片，”他说，“我们正在帮助打破这些障碍，多年来一直在投资多代能够实现这一点的硬件。”

Modular 的AI 推理引擎 Max 于 2023 年推出，支持 x86 和 Arm CPU，最近还增加了对 Nvidia GPU 的支持。这意味着 Modular 现在拥有了 CUDA 的全栈替代品，包括 CUDA 编程语言和构建在其之上的 LLM 服务堆栈。

至关重要的是，拉特纳表示 Max 可以满足 Nvidia A100 和 H100 GPU 的 CUDA 性能。

“[Nvidia] 比我们领先了一点——他们得到了全世界的帮助，都在针对他们的硬件进行调优，而当时 A100 已经问世 4 年了，人们对它有了很好的理解和优化，所以这是一个非常高的标准，”他说。“[A100 达到 CUDA 性能] 告诉我：我们拥有一个可扩展的堆栈，我们拥有一个能够执行的团队。”

从首次引入 H100 支持开始，达到或超过 CUDA 在 H100 上的生成式 AI 推理性能仅用了两个月的时间——Lattner 相信团队可以在其下一个目标硬件：Nvidia Blackwell 一代 GPU 上复制这一成就。

“我们正在以一种可扩展的方式进行设计，”拉特纳说。“我们在两个月内就让 H100 达到了具有竞争力的性能，而不是两年，因为我们的技术投资使我们能够扩大规模，并真正地解决这些问题。”

最终目标是实现所有类型的 AI 硬件之间的高性能可移植性。

“没有其他堆栈能做到这一点，”拉特纳说。“即使是英伟达，在性能可移植性方面也不占优势……CUDA 可以在 A100 和 H100 上运行，但实际上，你必须重写代码才能获得良好的性能，因为 [英伟达] 在 H100 中引入了 TMA 单元等新功能。”

Hopper 一代 GPU 引入了张量内存加速器（TMA）单元，以支持全局内存和共享内存之间张量的异步传输。Modular 对此类硬件功能的更高层次抽象实现了高性能的可移植性。Lattner 表示，Modular 的目标是成为芯片制造商和只想使用硬件的软件开发者之间的桥梁。

“随着我们释放[这项技术的力量]——我们刚刚开始——我们可以让一类全新的人能够以一致的方式对即将上市的所有新硬件进行编程，”他说道。“开发人员无需了解硬件方面或人工智能研究方面的所有复杂性。他们可以专注于构建自己的代理工作流程或定制的RAG解决方案，并从生态系统中发生的所有创新中受益；我们可以让这一切变得简单易行。”

对非 Nvidia GPU 和其他类型加速器的模块化支持将于 2025 年底开始。

Modular 还在为其堆栈开发集群管理功能。

传统的云系统具有弹性，能够随着需求的增长动态添加更多节点来处理请求，但基于 GPU 的云则有所不同。由于 GPU 价格昂贵，用户通常会在数月或数年内承诺使用固定数量的 GPU。Lattner 表示，从成本管理的角度来看，这与购买和出售本地 GPU 类似。

此外，像聊天机器人这样的生成式 AI 工作负载是有状态的；也就是说，它们需要存储并访问用户之前的输入，以供将来的会话使用。这意味着处理来自同一用户的查询的最有效方式是在同一节点上进行，而不是将查询发送到任何可用的 CPU。

将异构硬件类型（甚至是具有不同大小内存的 Nvidia GPU）添加到可能受内存或计算限制的 LLM 层，平台团队的复杂性就会增加。这些团队面临着管理 AI 业务中多个工程团队不断变化的工作负载和需求的压力。

Modular 构建了数据和控制平面，可以在节点之间一致地路由请求，管理整个集群的状态和分布。

“你需要一定程度的抽象，这样你才能说，‘我想把这个（工作负载）放到这么多机器上’，”拉特纳说。“所以你需要能够确定哪种模型在什么情况下运行最佳。通常情况下，没有人真正理解这些东西是如何运作的，但我们知道。我们可以利用对整个堆栈的理解，说‘好吧，我们将构建这个智能路由器，我们会把东西放进去，让它超级容易部署和扩展。这就是我们现在正在研究的，它非常令人兴奋。”

其理念是在考虑到批量大小和序列长度支持等因素的权衡下，将查询在正确的时间智能地路由到正确的硬件。Lattner 表示，将部分工作负载分配到最合适的 GPU 上是排名前十的公司能够做到的事情，但几乎所有其他公司都不愿考虑。

“我们不会剥夺你的人工智能，而是会提供工具和技术，让你可以在计算机上部署它，无论是在本地还是在云端，”他说。“这与很多[公司]认为人工智能太难的说法截然不同，他们说只要把你的所有数据、所有模型都给我们，我们就能帮你搞定。我们的主张是：人工智能已经民主化了。让我们把它交还给软件开发者。让我们让平台团队拥有人工智能。

Nvidia 对这个 CUDA 替代方案有何看法？Modular 是否适合 CUDA 生态系统？

“这很复杂，”拉特纳说，并指出 Nvidia 已经宣布了一些即将推出的软件功能，他认为这些功能受到了 Modular 的启发，其中包括一些与 Modular 的 Pythonic 编程重点相呼应的功能。

“[Nvidia 的增强功能] 尚不存在，它无法在所有 GPU 上运行，我推测它永远不会在其他任何人的 GPU 上运行，”Lattner 说。“但我认为这是对 Modular 方法的极大认可。我欢迎这个领域的好主意，而且我很高兴他们 [Nvidia] 也认为我们正在朝着正确的方向努力。”

*免责声明：本文由作者原创。文章内容系作者个人观点，半导体行业观察转载仅为了传达一种不同的观点，不代表半导体行业观察对该观点赞同或支持，如果有任何异议，欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第4167期内容，欢迎关注。

加星标⭐️第一时间看推送，小号防走丢

求推荐

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.