网易首页 > 网易号 > 正文 申请入驻

d-Matrix押注内存计算技术突破AI推理瓶颈

0
分享至


AI推理正在成为单一最大的计算工作负载。长期以来,像OpenAI这样的AI服务提供商一直声称他们主要受到计算可用性的限制。即使这些公司建设大规模、高耗能的数据中心来运行训练和推理工作负载,对优化硬件和软件解决方案的需求仍然存在。

与此同时,不仅是前沿AI实验室关注运行这些模型的成本,越来越多的企业也希望完全控制自己的AI堆栈。

开放推理模型在2025年成为主流。这些模型与Anthropic、Google和OpenAI等公司的前沿模型竞争力日益增强。因此,运行专注于特定领域的小型微调模型现在比购买大型通用模型的API访问更加容易且具有成本效益。

运行这些模型存在巨大市场,毫不意外地,我们现在也看到硬件方面的大量创新,尽管这些公司通常需要几年时间才能将推理芯片推向市场。

d-Matrix最近完成了2.75亿美元的融资,该公司通过摆脱标准GPU架构来解决这个问题。该公司的Corsair平台并不像许多同行那样仅仅在原始浮点运算能力上竞争,而是押注专门设计用于突破内存瓶颈的异构架构。

正如d-Matrix首席执行官Sid Sheth在本月早些时候的采访中指出的,他有些幸运没有成为大约十年前开始的第一批AI芯片公司的一部分。当时,卷积神经网络(CNN)是最先进的技术,大多数人认为视觉加速和类似工作负载是这些芯片的杀手级应用。但当Sheth和Sudeep Bhoja在2019年创立d-Matrix时,他们很快意识到不想只是成为另一个计算机视觉加速器。

曾在英特尔从事早期奔腾处理器工作,后来在其他多家半导体和网络公司工作的Sheth看到,英伟达已经拥有了AI训练领域。

Sheth表示,到2019年,英伟达实际上已经赢得了训练的王冠。"除非你有实质性的差异化,否则尝试在那里做些什么将是愚蠢的差事,"他说。

相反,团队决定问自己,如果能从零开始构建,一个新的、高效的推理硬件平台会是什么样子。当然,d-Matrix并不是第一家这样做的公司。毕竟,Google已经构建了好几代张量处理单元(TPU),AWS也有其Trainium芯片(尽管名称如此,现在也针对推理进行了优化)。

d-Matrix团队决定专注的领域是计算核心和内存之间的连接。现代大语言模型需要大量的计算能力和快速的内存访问来生成Token,但分离计算和内存会引入延迟并创建潜在的带宽瓶颈。

"我们知道需要一些特殊的东西,一些更高效的东西,不仅仅解决计算问题,还要解决计算、内存、内存带宽、内存容量以及所有这些问题,"Sheth解释道。"如何以非常高效的方式将所有这些整合在一起并使其可扩展?我们知道需要一些不同的东西,所以我们就开始构建它。"

d-Matrix决定构建的东西看起来与今天经常用于运行模型的GPU大不相同。该公司的解决方案在某种程度上是连接内存和计算的更激进方法,甚至比苹果在其M系列芯片中采用的统一内存架构更加激进,后者将内存和计算结合在单个芯片上,CPU和GPU共享这个内存。

对于基于Transformer的推理,瓶颈很少是计算,而是移动权重。d-Matrix通过其数字内存计算(DIMC)技术解决了这个问题,矩阵乘法直接在内存单元内发生。

"在我们的情况下,内存块不是与计算块分离的。内存块就是计算块。我们基本上在内存单元内进行所有矩阵乘法,然后使用嵌入在内存阵列中的加法器树来进行求和,"Sheth解释道。

通过使用小芯片方法,d-Matrix可以根据需要扩展这些DIMC单元,基于RISC-V架构的控制核心管理整体数据流。

"那个(架构)是信念的飞跃,"Sheth说,构建这种新颖的计算架构花了几年时间。经过团队在整体设计方法上的几次转变,最终确定了当前的方法。使用具有芯片间互连的小芯片来更好地扩展其解决方案的想法是这个周期的一部分。

正如Sheth也强调的,这种小芯片方法不仅允许公司根据客户需求扩展其解决方案,还能在新型模型架构突然流行时快速应对工作负载的变化。

其他AI硬件公司采用略有不同的方法,例如Cerebras专注于拥有90万个AI核心的大规模晶圆尺寸芯片。Cerebras在其最新的WSE-3芯片上放置了44GB的SRAM,但它没有像d-Matrix那样将内存和计算结合,而是继续将两者分离为更独特的单元。

与这个领域的其他一些公司不同,d-Matrix目前专注于将其硬件作为风冷PCIe卡(品牌为Jetstream)或内置加速器的托盘出售,而不是为自己的推理服务提供动力或销售基于机架的解决方案。

与所有定制硬件解决方案一样,软件堆栈可能与底层硬件同样重要。不同的模型需要不同的内核才能在d-Matrix Jetstream卡上运行。Sheth指出,大多数模型彼此看起来相当相似,因此使新的DeepSeek、Llama、Qwen或其他模型在平台上运行所需的更改相当直接。

对于这些模型,公司提供预编译内核。当公司与超大规模云服务商及其第一方模型合作时,为这些公司的开发人员创建或适配现有内核通常不是问题。但随着时间的推移,d-Matrix计划通过与英伟达的Triton推理服务器等集成,让开发人员更容易采用其平台。

Sheth指出,d-Matrix的大多数客户并不运行前沿模型,而是他所称的"亚前沿"模型——通常是从更大版本的开放模型中蒸馏出来的。

对于即将到来的一年,Sheth相信我们将看到真正的异构部署,混合GPU和其他加速器。他还指出,他预计会有更多公司关注生成式视频。虽然我们已经看到Google的Veo和OpenAI的Sora等几个产品获得了相当大的动力,但Sheth认为这些模型还没有真正的"ChatGPT时刻"——这对于可能在d-Matrix芯片上运行的开放视频模型来说绝对是如此。

他还指出,一直有很多AI芯片公司在推出。但他认为,为这些初创公司获得资金是一回事,将芯片推向市场是另一回事。

他相信,很多推理也不会在数据中心运行,而是在用户的手机上或在他们的PC或笔记本电脑上运行。

"你需要有这样一种混合循环,开发人员可以在他们的桌面或笔记本电脑——或其他任何设备——上使用本地化推理,实时开发应用程序,"他说。"但然后他们可以将该应用程序流式传输到云中大规模运行,然后看看它如何运行。如果他们必须做任何更改,那么他们可以将其循环回他们的本地开发环境。……推理如果没有在你的笔记本电脑上本地运行的能力,或者某些本地化的计算形式因素,就不能真正广泛传播。"

Q&A

Q1:d-Matrix的DIMC技术是什么?它是如何工作的?

A:DIMC是数字内存计算技术,它将矩阵乘法直接在内存单元内进行,而不是将内存和计算分离。在这种架构中,内存块就是计算块,所有矩阵乘法都在内存单元内完成,然后使用嵌入在内存阵列中的加法器树进行求和。

Q2:为什么d-Matrix选择专注于AI推理而不是训练?

A:d-Matrix CEO认为到2019年英伟达已经在AI训练领域占据主导地位,除非有实质性差异化,否则在训练领域竞争将是愚蠢的。因此团队决定专注于构建高效的推理硬件平台,解决推理过程中计算和内存之间的瓶颈问题。

Q3:d-Matrix的产品适合运行什么类型的模型?

A:d-Matrix主要客户运行的不是前沿模型,而是"亚前沿"模型——通常是从更大版本的开放模型中蒸馏出来的小型微调模型。这些模型专注于特定领域,比购买大型通用模型的API访问更具成本效益。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
男篮世青赛分组出炉!中国队进死亡之组:淘汰赛冲击八强悬了?

男篮世青赛分组出炉!中国队进死亡之组:淘汰赛冲击八强悬了?

篮球快餐车
2026-01-30 05:36:24
56岁王菲没想到,一头“白发”的谢霆锋,春节还没到就又帅上热搜

56岁王菲没想到,一头“白发”的谢霆锋,春节还没到就又帅上热搜

白宸侃片
2026-01-29 17:48:08
委内瑞拉军方承认代总统罗德里格斯为最高统帅

委内瑞拉军方承认代总统罗德里格斯为最高统帅

新京报
2026-01-29 07:36:01
离婚9年后,39岁马蓉深夜发文控诉“人财两空”,现状引发热议

离婚9年后,39岁马蓉深夜发文控诉“人财两空”,现状引发热议

代军哥哥谈娱乐
2026-01-29 08:36:31
必须把孩子生起来!金灿荣教授罕见发火了,痛批国内不生育的现状

必须把孩子生起来!金灿荣教授罕见发火了,痛批国内不生育的现状

火山诗话
2026-01-30 06:25:28
正部级“老虎”孙绍骋被查

正部级“老虎”孙绍骋被查

界面新闻
2026-01-29 20:43:58
华真,华国锋之孙女,身任世界拍卖巨头苏富比亚洲区副主席,为李云迪前妻

华真,华国锋之孙女,身任世界拍卖巨头苏富比亚洲区副主席,为李云迪前妻

史海孤雁
2026-01-29 16:37:15
2架美军机在南海坠毁,最新进展!

2架美军机在南海坠毁,最新进展!

环球时报国际
2026-01-30 00:10:58
“小婉君”金铭45岁现状:个子太矮事业受挫,住北京豪宅不婚不育

“小婉君”金铭45岁现状:个子太矮事业受挫,住北京豪宅不婚不育

削桐作琴
2026-01-29 00:03:53
张雨绮天生味道很大!

张雨绮天生味道很大!

八卦疯叔
2026-01-29 00:15:23
徐帅听闻老部下的墓被毁坏,立即批示军区:配合地方,限期修复

徐帅听闻老部下的墓被毁坏,立即批示军区:配合地方,限期修复

大运河时空
2026-01-29 07:45:03
刷屏!腾讯阿里争相接入,AI助手Clawdbot火了

刷屏!腾讯阿里争相接入,AI助手Clawdbot火了

第一财经资讯
2026-01-29 08:14:16
22岁巴西后防帝星横空出世 罗马舍不得卖 3大英超豪门却开始疯抢

22岁巴西后防帝星横空出世 罗马舍不得卖 3大英超豪门却开始疯抢

零度眼看球
2026-01-30 08:30:36
TOP14位身高170以上的女神,有颜有灯有演技

TOP14位身高170以上的女神,有颜有灯有演技

素然追光
2026-01-02 02:45:02
拓媒:杨瀚森打出了本赛季最佳一战,他关系着开拓者未来上限

拓媒:杨瀚森打出了本赛季最佳一战,他关系着开拓者未来上限

懂球帝
2026-01-29 10:55:13
陪读妈妈怒怼牢A,脖子上的“认主项链”被沪爷认出,暴露真相

陪读妈妈怒怼牢A,脖子上的“认主项链”被沪爷认出,暴露真相

妍妍教育日记
2026-01-27 20:19:13
不敢复出!塔图姆也太难了吧!

不敢复出!塔图姆也太难了吧!

篮球大图
2026-01-30 07:42:42
黄金平台杰我睿兑付危机持续发酵:有人超5000万元入局!深圳水贝仍有商家玩“预定价”模式

黄金平台杰我睿兑付危机持续发酵:有人超5000万元入局!深圳水贝仍有商家玩“预定价”模式

时代财经
2026-01-29 21:02:18
提前受死?美军公海挑衅中国海军,不料先手优势几秒内就丧失

提前受死?美军公海挑衅中国海军,不料先手优势几秒内就丧失

卷史
2026-01-28 10:32:16
外籍网红双面嘴脸曝光!靠夸中国签证爆火,转头外网骂国人还抹黑

外籍网红双面嘴脸曝光!靠夸中国签证爆火,转头外网骂国人还抹黑

离离言几许
2026-01-28 00:12:12
2026-01-30 09:07:00
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
15776文章数 49687关注度
往期回顾 全部

科技要闻

周亚辉的AI新赌局:国内太卷 出海另起炉灶

头条要闻

牛弹琴:沾满同胞鲜血的罪人被执行死刑 中国干得漂亮

头条要闻

牛弹琴:沾满同胞鲜血的罪人被执行死刑 中国干得漂亮

体育要闻

詹姆斯哭了!骑士视频致敬41岁超巨

娱乐要闻

曝金晨涉嫌交通肇事逃逸 本人尚未回应

财经要闻

黄金"发疯"众生相:投资端"大口吃肉"

汽车要闻

车长超5米还带后轮转向 比亚迪海豹08/海狮08将亮相

态度原创

教育
数码
时尚
本地
军事航空

教育要闻

网爆百万人围观:期末考前的教室现状。老师:就我在学习

数码要闻

曜越推出TR300机箱:可选实木格栅前板款,支持扩展6" LCD屏

“工装混搭风”今年爆火!全世界的时髦女人都在穿

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

军事要闻

中方被指支持俄生产武器 外交部回应

无障碍浏览 进入关怀版