20人团队提前实现DeepSeek构想，AI算力变天？直击大模型算力成本痛点|算法|数据流|gpgpu|高吞吐量内核|deepseek

分享至

新智元报道

编辑：Aeneas 定慧

【新智元导读】20人国内团队，竟然提前2年预判到了DeepSeek的构想？玉盘AI的全新计算架构方案浮出水面后，直接震动业内：当前AI算力的核心瓶颈，他们试图从硬件源头解决！

如果有一种芯片，天生只为大模型而生，能否突破当前AI的算力瓶颈？

要知道，如今的芯片算力，强依赖于制程、工艺等非芯片设计因素。

这是因为，传统通用型的GPGPU计算架构在应对日益庞大的模型和复杂计算时，其硬件固有的局限性日益凸显。

通用图形处理器（General-Purpose Graphics Processing Unit，GPGPU）

在这样的背景下，学术界和产业界都在积极探索新的更针对AI大模型痛点的架构方案。

近期，来自DeepSeek最新一篇论文《Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures》，梳理了用户视角下当前大模型训练与推理中所面临的具体技术挑战，以及对后续AI硬件发展的构想。

论文地址：https://arxiv.org/pdf/2505.09343

与此同时，国内团队玉盘AI的SRDA系统级数据流计算架构方案也浮出水面，意图从硬件源头解决当前AI算力的核心瓶颈。

不少玉盘SRDA在做的事情和DeepSeek构想相似，SRDA在当前节点推出，或某种程度较好集合了业界关于下一代AI硬件的共识。

玉盘核心班底目前仅20余人，平均年龄仅30+，让人不禁联想到硅谷AI芯片明星创企Etched——三名哈佛大学学生创办，流片时团队规模仅35人。

可以说，玉盘团队无疑是AI时代精简团队挑战大象的又一范例，也颠覆了大众对芯片公司规模的传统观念。

Etched芯片是针对Transformer架构做推理ASIC，玉盘SRDA则是精简但可重构的数据流架构，对Transformer、Diffusion、Mamba、MoE等都可支持模型训练与推理。

Etched Sohu：号称世界上第一个专用LLM计算的集成电路

同时，笔者也了解到，早在2023年大模型爆发前，玉盘原班底便开始研究I/O融合技术，并在2023年就发布了eSPUAIHub方案，结合最近DeepSeek论文对比看，简直是AI基础设施版的「我预判了你的预判」。

这，或许就是他们敢于现在就全面开源自己底层的架构思路的底气。

本文将审视玉盘团队白皮书中SRDA架构的核心特性，探讨其设计思路如何针对AI算力基础设施的若干关键问题提供可能的解决路径。

项目地址：https://github.com/moonquest-ai/SRDA

让我们看看，国内的创新硬件团队已经思考到了什么层面，是否和DeepSeek这样高级玩家的所需契合。

大模型凶猛：AI算力面临「N重门」

在探讨SRDA架构之前，有必要先梳理其试图应对的模型挑战，也是DeepSeek论文指出的主要行业痛点：

内存容量不足：模型规模增长迅速，以HBM为代表的内存容量增长缓慢。为了缓解这个问题，DeepSeek采用了低精度计算和MLA两种手段，大幅削减模型参数和KV Cache的存储需求。
内存带宽短缺：尽管芯片的理论峰值算力不断提升，但由于模型规模增速远超内存带宽增速，在许多实际AI应用场景中，计算单元大部分时间可能因等待数据而闲置，未能充分发挥其计算潜力。
计算精度不支持：采用低精度计算能够大幅提高训练和推理的性能，但为了保证模型能力不受影响，需要采用高精度累加和细粒度的量化，纯软件实现的难度较高，也会导致额外的开销。
集群扩展难：随着模型规模的指数级增长，分布式训练和推理成为常态，这要求在集群层面进行高效扩展。然而，目前常见的节点内互联（scale-up，如NVLink）和节点间互联（scale-out，如Infiniband）往往采用不同的技术标准和硬件，这不仅增加了系统优化和管理的复杂度，也可能引入额外的通信延迟，影响整体扩展效率。
PCIe总线带宽竞争：现有架构下，节点间通信和节点内GPU与CPU之间的数据传输（如KV Cache）共享PCIe总线，存在竞争。通信被影响会导致难以预测的性能下降，影响系统整体性能。

SRDA架构：打造AI计算新范式

这些痛点，是否有解决之道？

玉盘团队，从根本上找到了解决问题的思路。

根据团队公开的技术白皮书，SRDA架构的核心理念被描述为回归AI计算的本质——即高度结构化的数据流动和变换。

这个设计目标，似乎并非对现有架构的简单改良，而是尝试进行更根本性的调整。

其关键设计哲学据称包括：

数据流驱动 (Dataflow Driven)：与传统GPGPU的控制流架构不同，SRDA将数据流置于核心地位。其硬件设计旨在直接映射AI计算图，使数据在计算单元间高效流转，从而期望大幅减少对内存的反复访问和不必要的数据搬运。

系统级数据流：当数据流驱动与融合互联相结合，玉盘SRDA将数据流理念放到了整个数据中心层面，与过往数据流架构仅在芯片层面实现很不一样，当所有SRDA芯片都做到all-to-all全互联，整个数据中心会类似一台电脑运转。这是玉盘SRDA架构最引人瞩目的地方，最终让整个数据中心形成一条数据流，这将给大规模并行训练或大规模集群推理带来全新的硬件支撑，值得模型用户关注。
3D堆叠高带宽内存：为了支持其数据流驱动的设计，SRDA计划采用3D堆叠工艺，将大容量、高带宽内存直接集成在计算芯片之上，目标是从硬件层面缓解「内存墙」的压力。

精简高效：作为一种AI专用架构 (AI-DSA) 的设计思路，SRDA旨在剥离通用处理器中可能对AI计算冗余的复杂控制逻辑，将硬件资源聚焦于AI核心运算，以期提升面积效率和能源效率。
融合高速互联：与英伟达互联方案中NVLink + IB双层互联网络不同，SRDA架构构建统一的片内、片间至节点间高速互联网络。DeepSeek论文中也提到了I/O融合、甚至把I/O做进算力芯片内部的思路，玉盘已经在把这一构想变为现实。玉盘进一步构建独立通信引擎，从硬件层面实现计算与通信解耦，这将进一步减轻软件层用户的硬件优化负担。

软件定义的可重构性：据称，其硬件的数据路径、部分计算单元功能组合和内存访问模式，可由编译器根据具体AI模型进行配置优化，赋予架构适应不同算法的潜力。

SRDA能否回应DeepSeek等前沿玩家的需求

数据不再「堵车」！SRDA给每个计算单元配上「专属高速公路」

DeepSeek论文中提到模型增长快于HBM技术发展，注意力机制等场景尤其受内存带宽瓶颈影响。其参考方案中提及了3D DRAM等技术方向。

传统GPGPU架构的核心痛点在于共享内存架构下，所有计算单元需要争抢内存资源，导致内存带宽成为瓶颈，SRDA思路十分巧妙，其采用3D堆叠工艺及特殊内存架构，让每个计算单元独享大容量、高带宽内存。这一思路与DeepSeek提及的3D DRAM方向有共通之处，其目标是从硬件层面提升数据供给能力。

此外，SRDA的「数据流驱动」设计哲学，旨在通过优化计算图的执行路径，减少对内存的反复访问和不必要的数据搬运，从而期望从计算模式层面降低对内存带宽的绝对压力，进而提升计算单元的有效利用率。

研发效率极高

有统计显示，2024年主流大模型中，基于Transformer的架构占比达92%，且70%算力消耗集中于R1、Qwen等开源模型。

这一趋势使得AI专用芯片企业仅需深度优化2-3个主流模型的训推流程，即可覆盖大部分市场需求。

玉盘架构正是抓住这个特点，去繁就简，相较于GPU需构建完整软件生态（如CUDA），玉盘可聚焦硬件加速，据称研发投入可压缩至GPU企业的1/5-1/3。

原生提供合适计算精度

现有的主流硬件的问题是，不直接提供针对低精度数据类型的高精度累加和细粒度量化。

针对这个精度问题，SRDA原生支持DeepSeek等模型厂商开始探索的低精度FP8，并原生支持高精度FP32累加和细粒度量化，充分发挥低精度计算优势。

告别「线程打架」：I/O融合巧解数据传输与通信的「拥堵费」

DeepSeek在观察现有方案后，指出了以下几个关键点——

Scale-up带宽存在限制；Scale-up与Scale-out网络的技术割裂导致通信复杂化并可能消耗计算资源；PCIe总线在某些场景下可能成为数据传输（如KV缓存）与节点间通信的竞争点。

而针对这些问题，DeepSeek提出了一些建议，包括统一内外网络、引入通信协处理器、将NIC功能集成到计算Die上等。

对此，SRDA团队也形成了自己的对策。

在白皮书中，他们就提到将「构建统一的片内、片间至节点间高速互联网络」，统一了scale-up与scale-out网络。

更值得注意的是，其设计中还包括「在片上集成独立通信引擎，实现计算与通信解耦」。

这种「独立通信引擎」如果成功实现，其功能可能将类似于DeepSeek建议的「通信协处理器」，有潜力将网络处理任务从主计算单元中卸载，从而释放计算资源。

同时，这种片上集成的统一网络和通信引擎，其设计目标是使节点间通信能更直接高效，从而可能减少对传统PCIe总线的依赖，进而有机会缓解DeepSeek指出的PCIe带宽竞争问题。

SRDA架构通过上述创新，希望针对大模型训推场景做到以下优势：

极致性能（Token生成效率）：通过可重构数据流、高带宽3D堆叠内存以及存算网融合等设计，大幅减少数据搬运和通信等待，提升算力利用率。
极致成本：通过提升单芯片/单节点算力利用率、超低功耗、简化网络、简化软件栈、降低集群构建和运维复杂度、以及采用成熟的国产工艺，旨在提供更优的整体TCO。
高稳定：通过融合网络设计，简化了网络部署，降低了互联成本，支持构建高稳定、高效费比的超大规模AI计算集群或超节点方案。
灵活的模型与算法适应性：可重构数据流和对多种数据精度的支持，使得SRDA能够灵活适应不断演进的AI模型和算法。
极简易用的软件开发与迁移：兼容主流框架并简化底层开发的软件栈，降低了用户的使用门槛。

可以说，SRDA架构为AI基础设施的未来发展提供了一种全新的构想。

其设计基于对数据流的理解和软硬件协同的理念，展现出应对当前AI算力瓶颈的潜力。

数据流思想的确也逐步出现在更多人的视野中，有望成为共识，SRDA在此基础之上，基于更进一步的互联技术实现了整个数据中心系统级别的数据流架构，无疑走在了前沿的位置。

目前国内外也出现了昇腾达芬奇、Groq LPU、SambaNova RDA等新的计算架构。

不过，这些架构基本上出现在大模型技术需求收敛前，更多针对传统的AI小模型场景，在大模型场景下专用计算架构应有的效果似乎并不突出（相比于GPGPU而言）。

具体来说，在这些AI专用架构里，有些保留了GPGPU架构，有些则难以适应大模型的特殊需求（例如Groq LPU架构在大模型场景的成本问题已让圈内人诟病多时）。

在当下2025年这个时间点，具备实用性的模型架构和技术需求已经趋向收敛。

在相当长一段时间里，现有的Transformer、Diffusion及相关架构会作为主流架构服务于市场，3D-DRAM颗粒也刚好成熟、容量真正契合大模型需求。

玉盘选择此时推行SRDA，或许会带来不一样的效果，甚至可能成为通用性的GPGPU架构与真正AI大模型专用计算架构的分水岭。

从SRDA公开的设计理念来看，其解决问题的思路已与DeepSeek等前沿研究中对某些挑战的分析方向不谋而合。这或许提示我们，以数据流为中心的专用计算架构，会在未来的AI算力发展中扮演越来越重要的角色。

玉盘团队在其公众号中也预告了会在近期发布demo，公开具体的性能指标。

参考资料：

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.