网易首页 > 网易号 > 正文 申请入驻

从炫技到务实,超节点的祛魅时刻

0
分享至



DeepSeek、通义千问、Kimi-K2等深度思考的大模型,大家应该都用过。用户对AI越来越上头,企业IT对算力保障的焦虑也在加剧。过去跑个小模型,8张GPU的服务器还能应付,可带不动DeepSeek这种上百个专家、毫秒级响应的MoE架构推理模型。

超节点,就是在这一背景下,火起来的。

传统单台8卡服务器,无法满足当下大模型训推的算力需求。由英伟达率先提出的超节点技术,通过内部高速互联,把数十甚至上百个AI计算芯片,集中整合到一个架构内,打造出基于Scale-up的新型架构,以此实现算力的量级跃升。核心优势可以用一个字概括:省。



省钱,超节点通过内部高速互联,每张卡都能满负荷运行,避免传统多机柜间的算力闲置空转,GPU卡和电费就不会浪费了;

省地,以前跑大模型得把多个机柜拼起来,占满半个机房,现在一台超节点就能扛起AI训推任务,物理空间占用更小了;

省事,超节点把硬件、互联、管理系统全集成好了,企业接入就能跑大模型,AI部署更快,而传统多台服务器要单独调试、搭建网络、解决散热,一套流程下来,没半年搞不定……

有不少CIO或IT从业者十分困惑,超节点能帮我们用AI更省,可怎么还是买不着、用不起呢?有一种“出发点很好,但就是出发不了”的无力感。



的确,目前真正用得上、用得起超节点的行业和企业,并不是很多。

原因比较复杂,比如高端N卡断供,国产GPU规模出货量受限等。其中,有一个因素容易被忽视,那就是超节点让AI更省的核心逻辑,似乎正在跑偏。

在超节点的新闻里,常能看到千卡、单柜X百卡等参数互相碾压,媒体追捧超节点的新纪录,围观群众也默认,规模越大卡越多的超节点就越先进。

但对大多数企业来说,真的需要这么大的算力巨兽吗?斥巨资买回数百卡的超节点,能靠AI赚回本吗?这些问题,已经到了必须回答的时刻。



不可否认,数百卡,甚至上千卡的超节点,是国产智算技术进步的证明。但大家有没有想过,我们给手机充电,会关心发电厂的规模有多大,是核电厂还是水电厂吗?只会在乎插上有没有电,电压是否适配,电流是否稳定,会不会把手机烧坏,这些实用层面的问题。

同样的道理,企业部署超节点,除了集成多少卡,也要考虑到实际应用中的隐性成本:

一是故障率升高带来的中断损失。

超节点规模越大,内部光模块、交换机、电源节点就越多,比如某300多卡的超节点架构,就涉及近6900个光模块和100台左右交换机。而在高密度部署场景中,任一环节故障,都可能导致整个训练任务中断。对AI大模型训练来说,故障意味着要从checkpoint检查点重新加载模型、重启训练,浪费数天时间和高额电费。

对企业来说,不中断、不重训,比多几张卡更加重要。



二是GPU闲置导致的每Token成本过高。

业内已有共识,超节点规模存在“甜点”,超过甜点后,继续增加超节点规模,性能提升有限但成本显著上升。有模拟数据显示,十万亿参数模型,甜点大概在32-64卡。也就是说,盲目追求上百张卡的超大规模,算力利用率也许并不高,GPU大部分时间是在闲置。比如说,DeepSeek官方论文给的参考方案,Decode阶段需用144张H800,如果超节点使用的国产卡算力是H800的1/3,那么在PD分离场景下,48卡甚至32卡才是更优选择。

三是运维复杂度提升导致的总体TCO成本增加。

高集成度的超节点产品,对运维团队的专业能力要求极高,一旦规模增大,内部故障点也会随之增多,小团队很难靠自己处理。比如英伟达早期就曾尝试过二层架构超节点,将交换机集成到单机内以扩大规模,但企业客户更倾向于选择单层架构,核心就是为了降低故障点、减少运维难度。英伟达256卡超节点也由于TCO总拥有成本太高,而互联网企业客户对TCO很重视,未能成功商业化。

所以,超节点并不是规模越大卡越多就越好。企业需要的是能解决算力问题,且ROI投资回报率最优的IT基础设施。超节点技术的发展,要回归让企业用AI更省的出发点,与企业AI业务相适配的方案才是最优解。



既然堆卡不是出路,那么如何才能让超节点真正成为企业的省钱利器?产业界已经给出了答案:回归理性,追求规模与需求的适配,并通过开放生态降低综合成本。

一方面,越来越多的厂商将目光投向32卡、64卡这样的更合身的规模。

如前所说,超过性能-成本甜点区之后,超节点的边际效益就会递减。因此,大量国产厂商聚焦在32-64卡的实用化设计,推出贴合企业需求的产品。比如新华三UniPoD S80000,实现了单机柜32/64卡高密部署等,让多数企业能够负担得起大模型训推开销。而且,新华三UniPoD S80000采用单层全互联架构,大幅降低了通信延迟和故障点,在MoE等主流模型场景下,更有助于保障业务连续性。刚好的规模与更高的可靠性,成为AI算力降本增效的关键。



(新华三超节点H3C UniPoD S80000)

另一方面,开放的硬件生态正在成为降低成本的新引擎。

随着国产芯片生态成熟,开放式架构支持多品牌国产加速卡,打破海外高端卡垄断,为用户提供了更多选择,从而降低企业的算力成本。这类开放式超节点,也成为算力普惠的关键。比如新华三超节点支持多品牌国产加速卡,兼容CUDA等主流软件生态,降低企业的供应链成本。

上述实践,有望助力超节点的普及,从头部企业的专属品,成为千行百业的普惠基础设施。



需要说明的是,数百卡、千卡超节点的研发,有其战略意义。这一技术路线,推动了光互联、液冷、高密度布线等底层技术的极限突破,是中国算力产业仰望星空的冲顶之路。

AI发展的速度总是超出预期,可能今天觉得32卡就够了,但明天DeepSeek的新模型,也许内含更多专家,超大规模的超节点或许可以带来更低的每token成本。所以,适当超前,把超节点规模进一步做大,可以给后续技术迭代留下一定的冗余。

但对于更广大的99%普通企业而言,需要的是脚踏实地的普惠之路。他们更迫切地希望,使用成本可控、稳定可靠的超节点产品,解决当下大模型落地的算力焦渴,支撑AI在生产力场景中落地。



所以堆卡炫技之外,这条更合身的普惠之路,同样势在必行,不可偏废。

未来行业发展的理想状态,是这两条路并行不悖。既有震撼世界的算力巨无霸,也有服务千行百业的普惠产品。企业无需关心超节点内部有多少卡,只要插上电,AI就能跑起来,也不用担心基础设施的账单出现天文数字。

实现这一目标,只能靠智算厂商急企业之所急,将可靠性、每token成本、TCO等指标,同步纳入超节点的研发技术路线图。别忘了,让企业用AI更省,才是超节点技术的核心价值,也是商业成功的前提。

声明:个人原创,仅供参考

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
小米生态新爆款!米家手持风扇提前售罄:169元买不到了

小米生态新爆款!米家手持风扇提前售罄:169元买不到了

快科技
2026-05-29 10:02:08
《日菲联合声明》,一份对中国发起全方位战略性攻势的公开宣战书!

《日菲联合声明》,一份对中国发起全方位战略性攻势的公开宣战书!

李光满说
2026-05-31 20:01:27
越南为何敢挑衅中国?越军将领认为:1个越军能打30个解放军

越南为何敢挑衅中国?越军将领认为:1个越军能打30个解放军

鸢飞九天
2024-08-30 08:00:15
赵露思回乡为奶奶贺80大寿!砸重金办寿宴超孝顺,私下穿搭接地气

赵露思回乡为奶奶贺80大寿!砸重金办寿宴超孝顺,私下穿搭接地气

TVB的四小花
2026-05-31 18:22:16
加布谈欧冠失利:我为本赛季成就感到自豪,希望大家享受游行

加布谈欧冠失利:我为本赛季成就感到自豪,希望大家享受游行

懂球帝
2026-05-31 20:15:29
印度每年榨糖,剩下7500万吨甘蔗渣,中国人却用它造出了科技王炸

印度每年榨糖,剩下7500万吨甘蔗渣,中国人却用它造出了科技王炸

毒sir财经
2026-05-12 19:34:07
47岁丈夫出差提前回家过生日,发现垃圾桶有避孕套,丈夫:离婚

47岁丈夫出差提前回家过生日,发现垃圾桶有避孕套,丈夫:离婚

烙任情感
2026-05-30 17:51:37
倒反天罡,AI开始给人类打分!Claude评分标准曝光: 优秀人类得7.5分

倒反天罡,AI开始给人类打分!Claude评分标准曝光: 优秀人类得7.5分

新智元
2026-05-30 15:07:01
追了8天终于锁定!日舰抵近辽宁舰侦察,看清阵容后火速撤退

追了8天终于锁定!日舰抵近辽宁舰侦察,看清阵容后火速撤退

混沌录
2026-05-31 03:25:31
林建岳再卖资产套现,4.5亿出售百年游艇公司,买家被曝是刘强东

林建岳再卖资产套现,4.5亿出售百年游艇公司,买家被曝是刘强东

八斗小先生
2026-05-31 16:41:16
50 元专家号嫌亏闹退费,给狗看病花四千不嫌贵

50 元专家号嫌亏闹退费,给狗看病花四千不嫌贵

医脉圈
2026-05-31 20:07:23
日本千年死磕中国真相曝光!原来根源藏在国人不敢直面的千年软肋

日本千年死磕中国真相曝光!原来根源藏在国人不敢直面的千年软肋

阿器谈史
2026-05-21 10:13:00
郝军辉任中央组织部副部长

郝军辉任中央组织部副部长

中国经济网
2026-05-30 14:23:25
中国降级赴会,美防长当场砸场子:怒怼40国,点名盟友少开对话会

中国降级赴会,美防长当场砸场子:怒怼40国,点名盟友少开对话会

阿尢说历史
2026-05-31 18:34:14
奚梦瑶在法国补办婚礼,伴手礼尽显奢华,6岁儿子4岁女儿或当花童

奚梦瑶在法国补办婚礼,伴手礼尽显奢华,6岁儿子4岁女儿或当花童

素衣读史
2026-05-29 21:36:51
筹码集中!最新股东户数环比减少10%以上的公司一览(2026.5.31)

筹码集中!最新股东户数环比减少10%以上的公司一览(2026.5.31)

A股数据表
2026-05-31 11:40:07
台风“蔷薇”加强为台风级!广东高温+暴雨,东莞天气将......

台风“蔷薇”加强为台风级!广东高温+暴雨,东莞天气将......

娱乐圈见解说
2026-05-31 12:21:52
史上最和谐的皇室兄弟:哥哥将皇位让给弟弟,弟弟追封哥哥为皇帝

史上最和谐的皇室兄弟:哥哥将皇位让给弟弟,弟弟追封哥哥为皇帝

鹤羽说个事
2026-05-30 23:07:30
我国灵活就业人员超2.4亿,参保率不足40%

我国灵活就业人员超2.4亿,参保率不足40%

深蓝夜读
2026-05-31 10:07:22
巴萨希望曼联半价卖拉什福德,弗里克仍想要他!签戈登后计划曝光

巴萨希望曼联半价卖拉什福德,弗里克仍想要他!签戈登后计划曝光

罗米的曼联博客
2026-05-31 10:02:29
2026-05-31 20:36:49
脑极体 incentive-icons
脑极体
从智能密钥到已知尽头
3701文章数 167469关注度
往期回顾 全部

科技要闻

戴尔诺基亚又回来了!AI重估老牌科技公司

头条要闻

香会上中方全英文发问菲律宾 菲防长语无伦次答非所问

头条要闻

香会上中方全英文发问菲律宾 菲防长语无伦次答非所问

体育要闻

阿森纳用最悲壮的方式,成就了巴黎王朝

娱乐要闻

朱军退休,正义虽迟但到,女方受惩

财经要闻

医学首席转岗搞科技,A股科技股遭遇巨震

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

亲子
家居
艺术
本地
公开课

亲子要闻

2026年提高免疫力婴幼儿奶粉:免疫配方成分临床验证深度解析

家居要闻

云栖 舒展如流云

艺术要闻

16位欧美画家笔下的儿童肖像

本地新闻

用剪纸的方式,打开江苏扬州

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版