网易首页 > 网易号 > 正文 申请入驻

从炫技到务实,超节点的祛魅时刻

0
分享至



DeepSeek、通义千问、Kimi-K2等深度思考的大模型,大家应该都用过。用户对AI越来越上头,企业IT对算力保障的焦虑也在加剧。过去跑个小模型,8张GPU的服务器还能应付,可带不动DeepSeek这种上百个专家、毫秒级响应的MoE架构推理模型。

超节点,就是在这一背景下,火起来的。

传统单台8卡服务器,无法满足当下大模型训推的算力需求。由英伟达率先提出的超节点技术,通过内部高速互联,把数十甚至上百个AI计算芯片,集中整合到一个架构内,打造出基于Scale-up的新型架构,以此实现算力的量级跃升。核心优势可以用一个字概括:省。



省钱,超节点通过内部高速互联,每张卡都能满负荷运行,避免传统多机柜间的算力闲置空转,GPU卡和电费就不会浪费了;

省地,以前跑大模型得把多个机柜拼起来,占满半个机房,现在一台超节点就能扛起AI训推任务,物理空间占用更小了;

省事,超节点把硬件、互联、管理系统全集成好了,企业接入就能跑大模型,AI部署更快,而传统多台服务器要单独调试、搭建网络、解决散热,一套流程下来,没半年搞不定……

有不少CIO或IT从业者十分困惑,超节点能帮我们用AI更省,可怎么还是买不着、用不起呢?有一种“出发点很好,但就是出发不了”的无力感。



的确,目前真正用得上、用得起超节点的行业和企业,并不是很多。

原因比较复杂,比如高端N卡断供,国产GPU规模出货量受限等。其中,有一个因素容易被忽视,那就是超节点让AI更省的核心逻辑,似乎正在跑偏。

在超节点的新闻里,常能看到千卡、单柜X百卡等参数互相碾压,媒体追捧超节点的新纪录,围观群众也默认,规模越大卡越多的超节点就越先进。

但对大多数企业来说,真的需要这么大的算力巨兽吗?斥巨资买回数百卡的超节点,能靠AI赚回本吗?这些问题,已经到了必须回答的时刻。



不可否认,数百卡,甚至上千卡的超节点,是国产智算技术进步的证明。但大家有没有想过,我们给手机充电,会关心发电厂的规模有多大,是核电厂还是水电厂吗?只会在乎插上有没有电,电压是否适配,电流是否稳定,会不会把手机烧坏,这些实用层面的问题。

同样的道理,企业部署超节点,除了集成多少卡,也要考虑到实际应用中的隐性成本:

一是故障率升高带来的中断损失。

超节点规模越大,内部光模块、交换机、电源节点就越多,比如某300多卡的超节点架构,就涉及近6900个光模块和100台左右交换机。而在高密度部署场景中,任一环节故障,都可能导致整个训练任务中断。对AI大模型训练来说,故障意味着要从checkpoint检查点重新加载模型、重启训练,浪费数天时间和高额电费。

对企业来说,不中断、不重训,比多几张卡更加重要。



二是GPU闲置导致的每Token成本过高。

业内已有共识,超节点规模存在“甜点”,超过甜点后,继续增加超节点规模,性能提升有限但成本显著上升。有模拟数据显示,十万亿参数模型,甜点大概在32-64卡。也就是说,盲目追求上百张卡的超大规模,算力利用率也许并不高,GPU大部分时间是在闲置。比如说,DeepSeek官方论文给的参考方案,Decode阶段需用144张H800,如果超节点使用的国产卡算力是H800的1/3,那么在PD分离场景下,48卡甚至32卡才是更优选择。

三是运维复杂度提升导致的总体TCO成本增加。

高集成度的超节点产品,对运维团队的专业能力要求极高,一旦规模增大,内部故障点也会随之增多,小团队很难靠自己处理。比如英伟达早期就曾尝试过二层架构超节点,将交换机集成到单机内以扩大规模,但企业客户更倾向于选择单层架构,核心就是为了降低故障点、减少运维难度。英伟达256卡超节点也由于TCO总拥有成本太高,而互联网企业客户对TCO很重视,未能成功商业化。

所以,超节点并不是规模越大卡越多就越好。企业需要的是能解决算力问题,且ROI投资回报率最优的IT基础设施。超节点技术的发展,要回归让企业用AI更省的出发点,与企业AI业务相适配的方案才是最优解。



既然堆卡不是出路,那么如何才能让超节点真正成为企业的省钱利器?产业界已经给出了答案:回归理性,追求规模与需求的适配,并通过开放生态降低综合成本。

一方面,越来越多的厂商将目光投向32卡、64卡这样的更合身的规模。

如前所说,超过性能-成本甜点区之后,超节点的边际效益就会递减。因此,大量国产厂商聚焦在32-64卡的实用化设计,推出贴合企业需求的产品。比如新华三UniPoD S80000,实现了单机柜32/64卡高密部署等,让多数企业能够负担得起大模型训推开销。而且,新华三UniPoD S80000采用单层全互联架构,大幅降低了通信延迟和故障点,在MoE等主流模型场景下,更有助于保障业务连续性。刚好的规模与更高的可靠性,成为AI算力降本增效的关键。



(新华三超节点H3C UniPoD S80000)

另一方面,开放的硬件生态正在成为降低成本的新引擎。

随着国产芯片生态成熟,开放式架构支持多品牌国产加速卡,打破海外高端卡垄断,为用户提供了更多选择,从而降低企业的算力成本。这类开放式超节点,也成为算力普惠的关键。比如新华三超节点支持多品牌国产加速卡,兼容CUDA等主流软件生态,降低企业的供应链成本。

上述实践,有望助力超节点的普及,从头部企业的专属品,成为千行百业的普惠基础设施。



需要说明的是,数百卡、千卡超节点的研发,有其战略意义。这一技术路线,推动了光互联、液冷、高密度布线等底层技术的极限突破,是中国算力产业仰望星空的冲顶之路。

AI发展的速度总是超出预期,可能今天觉得32卡就够了,但明天DeepSeek的新模型,也许内含更多专家,超大规模的超节点或许可以带来更低的每token成本。所以,适当超前,把超节点规模进一步做大,可以给后续技术迭代留下一定的冗余。

但对于更广大的99%普通企业而言,需要的是脚踏实地的普惠之路。他们更迫切地希望,使用成本可控、稳定可靠的超节点产品,解决当下大模型落地的算力焦渴,支撑AI在生产力场景中落地。



所以堆卡炫技之外,这条更合身的普惠之路,同样势在必行,不可偏废。

未来行业发展的理想状态,是这两条路并行不悖。既有震撼世界的算力巨无霸,也有服务千行百业的普惠产品。企业无需关心超节点内部有多少卡,只要插上电,AI就能跑起来,也不用担心基础设施的账单出现天文数字。

实现这一目标,只能靠智算厂商急企业之所急,将可靠性、每token成本、TCO等指标,同步纳入超节点的研发技术路线图。别忘了,让企业用AI更省,才是超节点技术的核心价值,也是商业成功的前提。

声明:个人原创,仅供参考

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
黎真主党导弹袭击以国防部及军营

黎真主党导弹袭击以国防部及军营

北青网-北京青年报
2026-03-26 10:19:17
人民日报转发,三大巧合坐实“遗言”,猝死前说的话全应验了!

人民日报转发,三大巧合坐实“遗言”,猝死前说的话全应验了!

奇思妙想草叶君
2026-03-25 12:40:13
可能出大事了,四名军工系统院士被除名,释放的信号让人不敢细想

可能出大事了,四名军工系统院士被除名,释放的信号让人不敢细想

张嘴说财经
2026-03-25 23:07:05
4月1日医保7号令落地!1965-1985年出生的,这6件事务必抓紧办

4月1日医保7号令落地!1965-1985年出生的,这6件事务必抓紧办

混沌录
2026-03-25 15:50:11
俄罗斯警告日本!俄输油重港接连遭攻击,“现场浓烟滚滚”;俄乌战场惊现持枪机器人:身高180cm,可AI评估战场并侦察射击

俄罗斯警告日本!俄输油重港接连遭攻击,“现场浓烟滚滚”;俄乌战场惊现持枪机器人:身高180cm,可AI评估战场并侦察射击

每日经济新闻
2026-03-26 15:53:05
张少康辞去广东省人民政府副省长职务

张少康辞去广东省人民政府副省长职务

新快报新闻
2026-03-26 11:50:03
引而不发才是王道,封锁霍尔木兹海峡,伊朗打完了最后一张牌……

引而不发才是王道,封锁霍尔木兹海峡,伊朗打完了最后一张牌……

家传编辑部
2026-03-26 10:34:27
和富商离婚后,上海知名主持沦为网红,如今8岁儿子成她唯一依靠

和富商离婚后,上海知名主持沦为网红,如今8岁儿子成她唯一依靠

往史过眼云烟
2026-03-25 14:51:15
太扎心!辽宁一中年男子小便怒斥妻子举布遮挡稍高,就撒手人寰了

太扎心!辽宁一中年男子小便怒斥妻子举布遮挡稍高,就撒手人寰了

火山詩话
2026-03-26 06:16:11
伊朗或开辟新战线!伊朗外长:霍尔木兹海峡只对敌人关闭,中国、俄罗斯、巴基斯坦、伊拉克、印度、孟加拉国等国船只都安全通过了

伊朗或开辟新战线!伊朗外长:霍尔木兹海峡只对敌人关闭,中国、俄罗斯、巴基斯坦、伊拉克、印度、孟加拉国等国船只都安全通过了

每日经济新闻
2026-03-26 09:53:07
新加坡站队了?正式向世界宣布:中方若继续挑衅日本,会让他好看

新加坡站队了?正式向世界宣布:中方若继续挑衅日本,会让他好看

小影的娱乐
2026-03-26 13:45:58
哪吒汽车破产覆灭,最讽刺的不是200亿债务,而是这个名字本身

哪吒汽车破产覆灭,最讽刺的不是200亿债务,而是这个名字本身

蜉蝣说
2026-03-25 10:54:58
张雪峰被骂8年,走后全网才发现:他说的5句话是给普通人的保命符

张雪峰被骂8年,走后全网才发现:他说的5句话是给普通人的保命符

奇思妙想草叶君
2026-03-25 13:22:05
这就是徐志摩爱而不得的林徽因中年时的真实长相,大家看看吧!

这就是徐志摩爱而不得的林徽因中年时的真实长相,大家看看吧!

小椰的奶奶
2026-03-26 09:50:43
郭正亮直播突发脸歪嘴斜,连夜就医引全网担忧:别像张雪峰那样拼

郭正亮直播突发脸歪嘴斜,连夜就医引全网担忧:别像张雪峰那样拼

行者聊官
2026-03-26 11:56:25
新华社消息|伊朗官员:美以袭击已造成伊朗至少1750人死亡

新华社消息|伊朗官员:美以袭击已造成伊朗至少1750人死亡

新华社
2026-03-26 10:06:18
中国电信:全面转向token经营!

中国电信:全面转向token经营!

最通信
2026-03-25 20:45:14
特朗普,开始甩锅

特朗普,开始甩锅

中国基金报
2026-03-26 07:57:39
张雪峰助理万霞:十年相伴,生死相隔最痛的人!

张雪峰助理万霞:十年相伴,生死相隔最痛的人!

天光破云来
2026-03-26 11:55:41
冒充“中国船”闯过伊朗封锁线!日本货轮全速突围,安全抵达澳洲

冒充“中国船”闯过伊朗封锁线!日本货轮全速突围,安全抵达澳洲

澳洲红领巾
2026-03-26 12:22:58
2026-03-26 16:43:00
脑极体 incentive-icons
脑极体
从智能密钥到已知尽头
3631文章数 167386关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

家居
本地
艺术
房产
旅游

家居要闻

傍海而居 静观蝴蝶海

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

艺术要闻

哪一座桥不是风景?

房产要闻

质价比标杆!三亚首创浮岛全景舱亮相,还得是万科!

旅游要闻

德阳绵竹:赏花、览文旅精品......沿山旅游“火”起来

无障碍浏览 进入关怀版