网易首页 > 网易号 > 正文 申请入驻

万卡时代,企业需要怎样的算力集群?

0
分享至


作者 | 陈姚戈

过去两年,AI 算力需求陡峭跃升,推动 AI 基础设施发展进入关键拐点。

从需求结构上看,AI 算力的消耗已经从原来集中的训练主导,转向由推理驱动,推理算力消耗占据行业约七成。

从行业需求看,AI 应用和开发进入规模化落地的阶段,金融、医疗、制造等传统行业的智能化加速,使算力成为嵌入业务流程的刚性资源。同时,高价值场景对延迟、并发、隐私的要求提升,叠加数据规模和复杂度爆发式增长,进一步推高了对底层算力要求。

紧随其后的是算力供给的问题:企业需求往往呈现突发性、百卡级甚至千卡级规模;多架构芯片并存导致有效算力被切碎成“孤岛”;网络与通信效率成为集群扩展的隐性上限;而热、电、空间等工程约束,又让传统算力扩容难以跟上节奏。

在此背景下,智算集群被视为应对算力供给的关键方案。

智算集群通过软硬协同提升有效算力利用率,突破网络瓶颈,实现大规模集群的线性扩展,并在调度层面提供快速弹性和自愈能力。

随着腾讯云等厂商努力将 GPU 有效算力推向 80%—90%,智算集群正成为满足激增需求、缓解结构性短缺、承载企业级 AI 业务的基础设施答案。

为了帮助更多 AI 从业者、企业决策者在数智化转型中,做出更好的业务决策,InfoQ 联合腾讯云发起了「InfraTalk」直播 IP 系列,聚焦云基础设施的技术演进与产业价值,邀请行业分析师、企业实践者与云厂商共同探讨 AI Infra 的能力框架、落地路径与未来趋势。

以下内容为第二期圆桌直播内容精要。InfoQ 特别邀请腾讯云异构计算研发总监陈煜东、弗若斯特沙利文资深分析师蔚迪诺,和 AI SEMI LIMITED 联合创始人、CEO Yoyo Lu,解析目前 AI 算力行业面临的挑战和解决方案。

完整回放详细看:
https://www.infoq.cn/video/VelpaCIEoBCQTkKOlxQb

宝藏观点集中看

扫描二维码,获取腾讯云联合 IDC 发布的《AI Infra:加速智能体落地的基础架构发展趋势与产业实践》白皮书,了解更多行业知识。

算力供给和建设,缺口在哪?

过去几年,国内数据中心与超算中心持续扩容,AI 产业的算力底座显著增强。然而,目前的算力供给依旧难以完全匹配行业节奏。

出现算力短缺,是供给弹性稳定性、效率和行业差异等多重因素叠加的结果:

  • 供给弹性不足。AI 工作负载天然具备强烈的峰谷特征,模型训练、推理上线、业务爆发等都会带来百卡乃至千卡级的瞬时需求。面对这种突发需求业内缺乏解决方案。

  • 供给稳定性难以保证。对于半导体制造这样精密度和稳定度要求极高的行业,目前更追求整体性能的稳定,即均值效果。他们期望长期稳定、持续性、可复用的算力供给。

  • 调度效率上,多架构芯片的并存容易形成算力孤岛。一旦通信链路或 I/O 跟不上集群建设,实际利用率就会大打折扣。

  • 短缺并不仅在 GPU 本身,也在配套工程侧。机房机位、电力容量、制冷能力、高速网络等基础设施,都可能成为限制算力供给的关键瓶颈。

  • 不同行业对算力的需求也不同。在某些应用密集或新兴场景,如半导体 AI 应用早期,可能存在“缺芯缺算力”的情况,但在某些传统行业场景,如零售中,算力可能并不短缺。

上述瓶颈,也对 AI 基础设施的建设也提出了新的需求,促使行业重视高通量网络技术、高性能存储体系和算力弹性调度能力的建设。

  • 高通量网络技术:随着 Al 计算集群规模不断扩大,如何保持算力的线性扩展成为业界难题。Al 模型的训练与推理具备规模大、周期长的特点。网络间的高效互联及构建高通量规模网络成为保障 Al 工作负载的核心条件之一。

  • 高性能存储体系:正在成为新的“硬门槛”。数据总量与质量决定 Al 模型上限,Al 的发展离不开海量的数据,高性能存储能力能够满足 AI 系统对数据存储容量的需求,确保数据安全可靠性。当前高性能存储能力仍面临性能、能耗、成本等多方面挑战与压力。

  • 算力弹性调度能力:Al 应用存在显著的波峰波谷和突发请求,弹性调度可基于业务需求,实现资源的动态分配,保障 Al 服务的稳定性与连续性。虚拟化、容器化与池化是算力弹性调度基础。当前,异构兼容技术与预测性弹性伸缩技术逐渐成为基础技术外的算力调度新选择。

由于集群可以通过协同调度来解决对峰值和均值的需求,在保证服务器稳定性的同时提升 GPU 的利用率,业界正在从单机性能转向集群能力。

集群的构建和交付

目前,行业对 AI 业务落地的紧迫需求,也为云厂商设置了紧张的交付周期。

根据 Yoyo Lu,对于小规模的云部署,半导体行业客户期待交付时间不超过一周;对于私有化部署,行业常见交付周期在 1 到 2 个月,节点规模更大时可能在 2 到 6 个月。

这就要求厂商不仅要有构建大规模集群的能力,更要有将其快速交付、并灵活匹配不同企业技术栈的解决方案。

为了满足云上客户快速的需求,腾讯云采取了以下策略:

  1. 提前做好资源建设: 通过提前建设大量的资源,管理库存水位,保障客户资源供应。

  2. 即时交付小规模资源: 少量资源(例如几十卡)基本上可以随时买到。

  3. 周级交付百卡规模: 对于百卡规模的需求,腾讯云能够做到一周之内满足资源交付。

更进一步,集群的价值最终需要通过易用的服务来体现。 为此,腾讯云提供了 IaaS + PaaS + MaaS 三位一体的服务模式,以适配不同技术能力的企业用户:

  • IaaS 层面,对于自身开发能力完备的客户,提供算力资源,方便客户自行搭建上层的 PaaS/SaaS 平台。

  • PaaS 层面,提供开箱即用的训练与推理平台,用户只需专注算法,平台则负责作业重试、任务编排、监控和故障自愈等

  • MaaS 层面,适用于 AI 应用用户,按 Token 收费,让 AI 应用开发者无需关注底层基础设施,按需调用,快速构建应用。

集群性能优化

构建大规模集群并实现快速交付仅是第一步。未来集群的竞争力,关键在于克服性能随规模增长而出现的“线性损耗”。

在半导体制造这一领域,AI SEMI LIMITED 联合创始人 Yoyo Lu 分享了其光刻软件的实测案例。、“我们发现,在单机内,从 1 张卡到 8 张卡,性能提升接近线性。比如单卡训练 10 小时,8 卡大约 1 个多小时就能完成。但当我们开始使用多个节点时,就必然会出现线性损失。” Yoyo Lu 补充道,“从工程角度看,我们认为如果偏离线性的幅度能控制在 10% 到 20% 之间,最好是十几个百分点左右,就是一个相对可接受的范围。”

这一行业实证,恰恰点明了大规模算力集群的共性挑战:如何通过系统级优化,将理论算力最大限度地转化为有效输出?

而腾讯云作为算力提供方,通过无损网络和各种优化措施,将 GPU 算力的线性扩展比提升到 95%。

腾讯的优化方案是,围绕计算、存储与网络三个核心层面展开协同设计:

网络与通信优化

通过自研通信库和无损网络调度机制,减少链路拥塞、确保带宽稳定;引入“最优路径选择”和 GPU 拓扑感知调度,尽量让通信在同交换机内完成,避免跨交换机产生额外延迟;同时,通过类似“智能红绿灯”的网络控制方式,协调数据包传输,降低拥塞风险。

存储与数据管线优化

训练过程需要频繁加载远端数据,并写入 checkpoint。为避免 GPU 等待 I/O,腾讯云设计了多级存储加速方案,加快从对象存储到显存的数据流动。

针对推理场景,对模型文件做分片、热节点感知调度,并提供多机 KV cache 存储,加速多轮对话。

调度、作业管理与框架优化

训练平台会监控节点状态,并在节点异常时快速隔离、恢复,当前自愈时间可缩短至 5–10 分钟。

在训练框架层(如 PyTorch)做软件级优化,尽可能压榨硬件性能;在推理端,通过自研权重加载工具加速模型上线与扩容。

通过多层协同策略,腾讯云提升了大规模集群的训练与推理效率,为企业提供更高利用率、更稳定的算力支撑。

AI 算力演进方向

未来一年,智算集群的演进将进入新的加速期。行业共识是,未来算力基础设施的竞争将聚焦于集群的规模和效率、软硬协同的深化,以及场景专有算力的落地。

从集群建设维度看,规模提升已成为明确趋势。各大厂商正推进超高密度建设,单集群迈向“万卡级”,甚至探索“十万卡级”的超级节点。

但规模扩张同步带来系统性复杂度提升:节点间通信更频繁、故障影响更广泛、网络结构更容易出现瓶颈。如何在大规模架构下确保训练稳定性、作业内的通信一致性,是未来一年集群建设面临的最大工程挑战。其中,软硬协同,是集群规模化后提升效率的必然路径。

与此同时,行业将从通用算力转向场景专有算力方案,针对半导体制造、工业、医疗、汽车等细分领域,形成标准化配置的集群,以提升资源匹配度。

这也意味着,在生态协作上,芯片和软件必须提高协同能力;云厂商与行业客户、应用开发方与基础设施方进行多方的磨合,共同推进标准的共建。

高效、稳定、经济地获取与利用算力,已经成为行业 AI 落地的核心诉求。

在这一背景下,智算集群所具备的软硬协同、弹性供给能力,已经获得行业肯定。

展望未来,算力集群的演进将沿两条主线深化:一是纵向的规模深化,突破“万卡集群”带来的通信与能效瓶颈,提升大规模训练的线性扩展能力;二是横向的场景融合,从通用算力走向融入行业知识的专有算力方案,让底层基础设施能够更贴近业务需求、高效支撑关键场景。

这条道路无法仅靠单一厂商完成,它需要芯片、软件、云厂商与行业客户形成更紧密的产业协同,共同构建下一代 AI 基础设施。

11 月 27 日,「InfraTalk」第三期“AI 存储”专场,将在视频号直播间进行。


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
辽宁男篮开始调整外援阵容!同时裁掉奥利弗和布朗,杨鸣不留情面

辽宁男篮开始调整外援阵容!同时裁掉奥利弗和布朗,杨鸣不留情面

老叶评球
2026-01-10 15:11:59
俄军凌晨突袭乌克兰全境,北约军火库遭重创,基辅陷入黑暗迷雾

俄军凌晨突袭乌克兰全境,北约军火库遭重创,基辅陷入黑暗迷雾

乐天闲聊
2026-01-10 15:47:19
高圆圆,妥妥的老天爷赏饭吃,不会演戏,但长得的确好看

高圆圆,妥妥的老天爷赏饭吃,不会演戏,但长得的确好看

草莓解说体育
2026-01-10 01:19:35
海空英雄、一等战斗功臣高翔逝世,曾驾驶歼-6打爆美军机

海空英雄、一等战斗功臣高翔逝世,曾驾驶歼-6打爆美军机

澎湃新闻
2026-01-10 12:52:26
乌官员:袭击乌方设施的俄“榛树”导弹未携带弹头

乌官员:袭击乌方设施的俄“榛树”导弹未携带弹头

环球网资讯
2026-01-10 06:21:37
我使馆发布关于中国公民免签入境土耳其的提示

我使馆发布关于中国公民免签入境土耳其的提示

环球网资讯
2026-01-10 06:21:56
最讨厌的演员排名,潘长江仅第五,闫学晶第二,第一毋庸置疑

最讨厌的演员排名,潘长江仅第五,闫学晶第二,第一毋庸置疑

林雁飞
2026-01-04 19:29:51
36年前陈宝国主演的盗墓恐怖片!尺度大到少儿不宜

36年前陈宝国主演的盗墓恐怖片!尺度大到少儿不宜

释凡电影
2025-08-14 09:33:19
李在明送中方5件国礼,深夜回国收到噩耗,美驻韩一把手突然撤离

李在明送中方5件国礼,深夜回国收到噩耗,美驻韩一把手突然撤离

博览历史
2026-01-09 18:08:29
26年央视春晚嘉宾名单曝光,牛鬼蛇神混子引争议

26年央视春晚嘉宾名单曝光,牛鬼蛇神混子引争议

杜鱂手工制作
2026-01-06 18:48:05
破案了!北京最后不叫暂停原因公布 许利民给出理由,球迷人才啊

破案了!北京最后不叫暂停原因公布 许利民给出理由,球迷人才啊

篮球看比赛
2026-01-10 15:12:15
一年一度的噩梦要来了!吃不完,根本吃不完!四川那个我最爱

一年一度的噩梦要来了!吃不完,根本吃不完!四川那个我最爱

有趣的火烈鸟
2026-01-10 11:28:11
中国重磅出击!特朗普的噩梦降临!

中国重磅出击!特朗普的噩梦降临!

李荣茂
2026-01-09 19:15:36
特朗普抡起“台湾牌”,郑丽文急忙向大陆交底,1句话化解危机

特朗普抡起“台湾牌”,郑丽文急忙向大陆交底,1句话化解危机

时事佳人
2026-01-10 13:45:35
WTT多哈冠军赛1月10日赛程:国乒对决张本美和!两大主力内战

WTT多哈冠军赛1月10日赛程:国乒对决张本美和!两大主力内战

全言作品
2026-01-10 04:13:00
古巴雇佣兵遭遇美军特种兵:死战到底打光最后一人,32人集体阵亡

古巴雇佣兵遭遇美军特种兵:死战到底打光最后一人,32人集体阵亡

趣生活
2026-01-05 21:20:12
某体制内单位的工作时间,真的实名羡慕了

某体制内单位的工作时间,真的实名羡慕了

微微热评
2025-12-23 00:38:18
中国人民大学国家金融研究院院长吴晓求:资本市场应做好资产端、投资端、制度端三重改革

中国人民大学国家金融研究院院长吴晓求:资本市场应做好资产端、投资端、制度端三重改革

财联社
2026-01-10 15:48:28
半场22分+三节31分!36岁哈登重游故里回巅峰?暖心一幕无愧超巨

半场22分+三节31分!36岁哈登重游故里回巅峰?暖心一幕无愧超巨

颜小白的篮球梦
2026-01-10 10:56:31
官媒主动下场,53岁孟晚舟再掀天花板,让任正非与整个商界沉默了

官媒主动下场,53岁孟晚舟再掀天花板,让任正非与整个商界沉默了

牛牛叨史
2026-01-07 13:34:04
2026-01-10 16:40:49
InfoQ incentive-icons
InfoQ
有内容的技术社区媒体
11923文章数 51691关注度
往期回顾 全部

科技要闻

传DeepSeek准备第二次震惊全世界

头条要闻

闫学晶"哭穷"后多账号被禁止关注 其代言品牌:将索赔

头条要闻

闫学晶"哭穷"后多账号被禁止关注 其代言品牌:将索赔

体育要闻

怒摔水瓶!杜兰特30+12 难阻火箭遭双杀

娱乐要闻

吴速玲曝儿子Joe是恋爱脑

财经要闻

投资必看!瑞银李萌给出3大核心配置建议

汽车要闻

宝马25年全球销量246.3万台 中国仍是第一大市场

态度原创

教育
时尚
游戏
房产
本地

教育要闻

三年级培优,和差问题,一图看懂

专栏 | 做“主语”的体验

主播抨击《ARC Raiders》作弊猖獗 开发商正在应对

房产要闻

66万方!4755套!三亚巨量房源正疯狂砸出!

本地新闻

云游内蒙|“包”你再来?一座在硬核里酿出诗意的城

无障碍浏览 进入关怀版