网易首页 > 网易号 > 正文 申请入驻

20人团队提前实现DeepSeek构想,AI算力变天?直击大模型算力成本痛点

0
分享至

新智元报道

编辑:Aeneas 定慧

【新智元导读】20人国内团队,竟然提前2年预判到了DeepSeek的构想?玉盘AI的全新计算架构方案浮出水面后,直接震动业内:当前AI算力的核心瓶颈,他们试图从硬件源头解决!

如果有一种芯片,天生只为大模型而生,能否突破当前AI的算力瓶颈?

要知道,如今的芯片算力,强依赖于制程、工艺等非芯片设计因素。

这是因为,传统通用型的GPGPU计算架构在应对日益庞大的模型和复杂计算时,其硬件固有的局限性日益凸显。

通用图形处理器(General-Purpose Graphics Processing Unit,GPGPU)

在这样的背景下,学术界和产业界都在积极探索新的更针对AI大模型痛点的架构方案。

近期,来自DeepSeek最新一篇论文《Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures》,梳理了用户视角下当前大模型训练与推理中所面临的具体技术挑战,以及对后续AI硬件发展的构想。

论文地址:https://arxiv.org/pdf/2505.09343

与此同时,国内团队玉盘AI的SRDA系统级数据流计算架构方案也浮出水面,意图从硬件源头解决当前AI算力的核心瓶颈。

不少玉盘SRDA在做的事情和DeepSeek构想相似,SRDA在当前节点推出,或某种程度较好集合了业界关于下一代AI硬件的共识。

玉盘核心班底目前仅20余人,平均年龄仅30+,让人不禁联想到硅谷AI芯片明星创企Etched——三名哈佛大学学生创办,流片时团队规模仅35人。

可以说,玉盘团队无疑是AI时代精简团队挑战大象的又一范例,也颠覆了大众对芯片公司规模的传统观念。

Etched芯片是针对Transformer架构做推理ASIC,玉盘SRDA则是精简但可重构的数据流架构,对Transformer、Diffusion、Mamba、MoE等都可支持模型训练与推理。

Etched Sohu:号称世界上第一个专用LLM计算的集成电路

同时,笔者也了解到,早在2023年大模型爆发前,玉盘原班底便开始研究I/O融合技术,并在2023年就发布了eSPUAIHub方案,结合最近DeepSeek论文对比看,简直是AI基础设施版的我预判了你的预判

或许是他们敢于现在就全面开源自己底层的架构思路的底气。

本文将审视玉盘团队白皮书中SRDA架构的核心特性,探讨其设计思路如何针对AI算力基础设施的若干关键问题提供可能的解决路径。

项目地址:https://github.com/moonquest-ai/SRDA

让我们看看,国内的创新硬件团队已经思考到了什么层面,是否和DeepSeek这样高级玩家的所需契合。

大模型凶猛:AI算力面临「N重门」

在探讨SRDA架构之前,有必要先梳理其试图应对的模型挑战,也是DeepSeek论文指出的主要行业痛点:

  1. 内存容量不足:模型规模增长迅速,以HBM为代表的内存容量增长缓慢。为了缓解这个问题,DeepSeek采用了低精度计算和MLA两种手段,大幅削减模型参数和KV Cache的存储需求。

  2. 内存带宽短缺:尽管芯片的理论峰值算力不断提升,但由于模型规模增速远超内存带宽增速,在许多实际AI应用场景中,计算单元大部分时间可能因等待数据而闲置,未能充分发挥其计算潜力。

  3. 计算精度不支持:采用低精度计算能够大幅提高训练和推理的性能,但为了保证模型能力不受影响,需要采用高精度累加和细粒度的量化,纯软件实现的难度较高,也会导致额外的开销。

  4. 集群扩展难随着模型规模的指数级增长,分布式训练和推理成为常态,这要求在集群层面进行高效扩展。然而,目前常见的节点内互联(scale-up,如NVLink)和节点间互联(scale-out,如Infiniband)往往采用不同的技术标准和硬件,这不仅增加了系统优化和管理的复杂度,也可能引入额外的通信延迟,影响整体扩展效率。

  5. PCIe总线带宽竞争:现有架构下,节点间通信和节点内GPU与CPU之间的数据传输(如KV Cache)共享PCIe总线,存在竞争。通信被影响会导致难以预测的性能下降,影响系统整体性能。

SRDA架构:打造AI计算新范式

这些痛点,是否有解决之道?

玉盘团队,从根本上找到了解决问题的思路。

根据团队公开的技术白皮书,SRDA架构的核心理念被描述为回归AI计算的本质——即高度结构化的数据流动和变换。

这个设计目标,似乎并非对现有架构的简单改良,而是尝试进行更根本性的调整。

其关键设计哲学据称包括:

  • 数据流驱动 (Dataflow Driven)与传统GPGPU的控制流架构不同,SRDA将数据流置于核心地位。其硬件设计旨在直接映射AI计算图,使数据在计算单元间高效流转,从而期望大幅减少对内存的反复访问和不必要的数据搬运。

  • 系统级数据流:当数据流驱动与融合互联相结合,玉盘SRDA将数据流理念放到了整个数据中心层面,与过往数据流架构仅在芯片层面实现很不一样,当所有SRDA芯片都做到all-to-all全互联,整个数据中心会类似一台电脑运转。这是玉盘SRDA架构最引人瞩目的地方,最终让整个数据中心形成一条数据流,这将给大规模并行训练或大规模集群推理带来全新的硬件支撑,值得模型用户关注。

  • 3D堆叠高带宽内存为了支持其数据流驱动的设计,SRDA计划采用3D堆叠工艺,将大容量、高带宽内存直接集成在计算芯片之上,目标是从硬件层面缓解「内存墙」的压力。

  • 精简高效作为一种AI专用架构 (AI-DSA) 的设计思路,SRDA旨在剥离通用处理器中可能对AI计算冗余的复杂控制逻辑,将硬件资源聚焦于AI核心运算,以期提升面积效率和能源效率。

  • 融合高速互联与英伟达互联方案中NVLink + IB双层互联网络不同,SRDA架构构建统一的片内、片间至节点间高速互联网络。DeepSeek论文中也提到了I/O融合、甚至把I/O做进算力芯片内部的思路,玉盘已经在把这一构想变为现实。玉盘进一步构建独立通信引擎,从硬件层面实现计算与通信解耦,这将进一步减轻软件层用户的硬件优化负担。

  • 软件定义的可重构性据称,其硬件的数据路径、部分计算单元功能组合和内存访问模式,可由编译器根据具体AI模型进行配置优化,赋予架构适应不同算法的潜力。


SRDA能否回应DeepSeek等前沿玩家的需求

数据不再堵车!SRDA给每个计算单元配上专属高速公路

DeepSeek论文中提到模型增长快于HBM技术发展,注意力机制等场景尤其受内存带宽瓶颈影响。其参考方案中提及了3D DRAM等技术方向。

传统GPGPU架构的核心痛点在于共享内存架构下,所有计算单元需要争抢内存资源,导致内存带宽成为瓶颈,SRDA思路十分巧妙,其采用3D堆叠工艺及特殊内存架构,让每个计算单元独享大容量、高带宽内存。这一思路与DeepSeek提及的3D DRAM方向有共通之处,其目标是从硬件层面提升数据供给能力。

此外,SRDA的「数据流驱动」设计哲学,旨在通过优化计算图的执行路径,减少对内存的反复访问和不必要的数据搬运,从而期望从计算模式层面降低对内存带宽的绝对压力,进而提升计算单元的有效利用率。

研发效率极高

有统计显示,2024年主流大模型中,基于Transformer的架构占比达92%,且70%算力消耗集中于R1、Qwen等开源模型。

这一趋势使得AI专用芯片企业仅需深度优化2-3个主流模型的训推流程,即可覆盖大部分市场需求。

玉盘架构正是抓住这个特点,去繁就简,相较于GPU需构建完整软件生态(如CUDA),玉盘可聚焦硬件加速,据称研发投入可压缩至GPU企业的1/5-1/3。

原生提供合适计算精度

现有的主流硬件的问题是,不直接提供针对低精度数据类型的高精度累加和细粒度量化。

针对这个精度问题,SRDA原生支持DeepSeek等模型厂商开始探索的低精度FP8,并原生支持高精度FP32累加和细粒度量化,充分发挥低精度计算优势。

告别线程打架I/O融合巧解数据传输与通信的拥堵费

DeepSeek在观察现有方案后,指出了以下几个关键点——

Scale-up带宽存在限制;Scale-up与Scale-out网络的技术割裂导致通信复杂化并可能消耗计算资源;PCIe总线在某些场景下可能成为数据传输(如KV缓存)与节点间通信的竞争点。

而针对这些问题,DeepSeek提出了一些建议,包括统一内外网络、引入通信协处理器、将NIC功能集成到计算Die上等。

对此,SRDA团队也形成了自己的对策。

在白皮书中,他们就提到将「构建统一的片内、片间至节点间高速互联网络」,统一了scale-up与scale-out网络。

更值得注意的是,其设计中还包括「在片上集成独立通信引擎,实现计算与通信解耦」。

这种「独立通信引擎」如果成功实现,其功能可能将类似于DeepSeek建议的「通信协处理器」,有潜力将网络处理任务从主计算单元中卸载,从而释放计算资源。

同时,这种片上集成的统一网络和通信引擎,其设计目标是使节点间通信能更直接高效,从而可能减少对传统PCIe总线的依赖,进而有机会缓解DeepSeek指出的PCIe带宽竞争问题。

SRDA架构通过上述创新,希望针对大模型训推场景做到以下优势:

  • 极致性能(Token生成效率):通过可重构数据流、高带宽3D堆叠内存以及存算网融合等设计,大幅减少数据搬运和通信等待,提升算力利用率。

  • 极致成本:通过提升单芯片/单节点算力利用率、超低功耗、简化网络、简化软件栈、降低集群构建和运维复杂度、以及采用成熟的国产工艺,旨在提供更优的整体TCO。

  • 高稳定:通过融合网络设计,简化了网络部署,降低了互联成本,支持构建高稳定、高效费比的超大规模AI计算集群或超节点方案。

  • 灵活的模型与算法适应性可重构数据流和对多种数据精度的支持,使得SRDA能够灵活适应不断演进的AI模型和算法。

  • 极简易用的软件开发与迁移兼容主流框架并简化底层开发的软件栈,降低了用户的使用门槛。

可以说,SRDA架构为AI基础设施的未来发展提供了一种全新的构想。

其设计基于对数据流的理解和软硬件协同的理念,展现出应对当前AI算力瓶颈的潜力。

数据流思想的确也逐步出现在更多人的视野中,有望成为共识,SRDA在此基础之上,基于更进一步的互联技术实现了整个数据中心系统级别的数据流架构,无疑走在了前沿的位置。

目前国内外也出现了昇腾达芬奇、Groq LPU、SambaNova RDA等新的计算架构。

不过,这些架构基本上出现在大模型技术需求收敛前,更多针对传统的AI小模型场景,在大模型场景下专用计算架构应有的效果似乎并不突出(相比于GPGPU而言)

具体来说,在这些AI专用架构里,有些保留了GPGPU架构,有些则难以适应大模型的特殊需求(例如Groq LPU架构在大模型场景的成本问题已让圈内人诟病多时)。

在当下2025年这个时间点,具备实用性的模型架构和技术需求已经趋向收敛

在相当长一段时间里现有的Transformer、Diffusion及相关架构会作为主流架构服务于市场,3D-DRAM颗粒也刚好成熟、容量真正契合大模型需求

玉盘选择此时推行SRDA,或许会带来不一样的效果,甚至可能成为通用性的GPGPU架构与真正AI大模型专用计算架构的分水岭。

从SRDA公开的设计理念来看,其解决问题的思路已与DeepSeek等前沿研究中对某些挑战的分析方向不谋而合。这或许提示我们,以数据流为中心的专用计算架构,会在未来的AI算力发展中扮演越来越重要的角色。

玉盘团队在其公众号中也预告了会在近期发布demo,公开具体的性能指标

参考资料:

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
极限拉扯!杜兰特G2赛前终极抉择,三重博弈揪人心!

极限拉扯!杜兰特G2赛前终极抉择,三重博弈揪人心!

田先生篮球
2026-04-21 22:45:37
霍尔木兹海峡出入口已被伊朗封锁!停火协议到期不足11小时,特朗普:不想延长,没那么多时间了;伊朗:已为战事重燃做好准备

霍尔木兹海峡出入口已被伊朗封锁!停火协议到期不足11小时,特朗普:不想延长,没那么多时间了;伊朗:已为战事重燃做好准备

每日经济新闻
2026-04-21 21:28:11
2026入学迎来“新规定”,9月1日开始执行,家长们总算熬出头了

2026入学迎来“新规定”,9月1日开始执行,家长们总算熬出头了

复转这些年
2026-04-20 19:05:36
尴尬!董宇辉被吐槽:喜欢支教,一天没去;不喜欢带货,一天没停

尴尬!董宇辉被吐槽:喜欢支教,一天没去;不喜欢带货,一天没停

火山詩话
2026-04-21 06:59:47
内塔尼亚胡放话:参与10月7日的人,一个都别想活着离开

内塔尼亚胡放话:参与10月7日的人,一个都别想活着离开

桂系007
2026-04-21 21:18:39
网传054A护航中国商船穿越霍尔木兹,喊话美海军,不受指令约束

网传054A护航中国商船穿越霍尔木兹,喊话美海军,不受指令约束

爱吃醋的猫咪
2026-04-17 20:35:17
孙俪基因太强大!14岁儿子近照神似“少年甄嬛”引热议

孙俪基因太强大!14岁儿子近照神似“少年甄嬛”引热议

韩小娱
2026-04-21 16:16:26
看球24年,我终于敢说这句真话:国足踢不过日本,真不是缺天才

看球24年,我终于敢说这句真话:国足踢不过日本,真不是缺天才

圣西罗的太阳
2026-04-21 09:28:55
合资燃油车集体降价求生:多款经典车型跌成白菜价

合资燃油车集体降价求生:多款经典车型跌成白菜价

快科技
2026-04-21 12:08:07
谁给日本在中国建学校开了绿灯?30年秘辛,一次讲透!

谁给日本在中国建学校开了绿灯?30年秘辛,一次讲透!

南宗历史
2026-04-21 08:41:51
切尔西自2025年2月以来首次英超全场0射正,上次也是对布莱顿

切尔西自2025年2月以来首次英超全场0射正,上次也是对布莱顿

懂球帝
2026-04-22 05:45:03
随着国安1-0绝杀深圳新鹏城,纵观全场,让人产生三点个人感受!

随着国安1-0绝杀深圳新鹏城,纵观全场,让人产生三点个人感受!

田先生篮球
2026-04-21 22:12:28
牌局终了:王石,潘石屹和许加印

牌局终了:王石,潘石屹和许加印

蓝钻故事
2026-04-22 01:33:24
0-3!切尔西惨遭羞辱,英超5连败+近8战7负,欧冠希望破灭

0-3!切尔西惨遭羞辱,英超5连败+近8战7负,欧冠希望破灭

我的护球最独特
2026-04-22 04:58:23
国家杰青、211大学副院长逝世,享年63岁

国家杰青、211大学副院长逝世,享年63岁

双一流高校
2026-04-22 00:09:44
单季273记三分封神!克努佩尔力压弗拉格,当选年度最佳新秀

单季273记三分封神!克努佩尔力压弗拉格,当选年度最佳新秀

夜白侃球
2026-04-21 14:49:04
卡戴珊70岁太后砸百万拉皮不到1年翻车?被嘲像“烤鸡皮”,气得到处求修复…

卡戴珊70岁太后砸百万拉皮不到1年翻车?被嘲像“烤鸡皮”,气得到处求修复…

英国报姐
2026-04-21 21:11:25
小罗凌晨进球首秀:巴萨8万人熬夜吃香肠

小罗凌晨进球首秀:巴萨8万人熬夜吃香肠

体坛观察猿
2026-04-21 02:08:16
高人预测:5年后,持有燃油车的家庭,将面对3个现实问题!

高人预测:5年后,持有燃油车的家庭,将面对3个现实问题!

混沌录
2026-04-21 20:59:07
你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

夜深爱杂谈
2026-02-21 21:37:02
2026-04-22 06:20:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15030文章数 66797关注度
往期回顾 全部

科技要闻

创造4万亿帝国、访华20次,库克留下了什么

头条要闻

三国取消飞航许可 赖清德无法窜访斯威士兰

头条要闻

三国取消飞航许可 赖清德无法窜访斯威士兰

体育要闻

一到NBA季后赛,四届DPOY就成了主角

娱乐要闻

宋承炫晒宝宝B超照,宣布老婆怀孕

财经要闻

现实是最大的荒诞:千亿平台的冲突始末

汽车要闻

全新坦克700正式上市 售价42.8万-50.8万元

态度原创

教育
时尚
本地
亲子
军事航空

教育要闻

家里不让我去留学了,怎么办?

顶流复工,已判若两人

本地新闻

春色满城关不住|白鹃梅浪漫盛放,吴山藏了一片四月雪

亲子要闻

才六天的马宝宝,发这个视频没有别的意思,只是想骗你们生女儿而已

军事要闻

特朗普公开对伊开战真正原因

无障碍浏览 进入关怀版