网易首页 > 网易号 > 正文 申请入驻

打造智算新高地:正阳恒卓助力智算中心建设 1000P AI 算力集群

0
分享至

在数字化与智能化浪潮的驱动下,AI 正成为推动科研进步与产业升级的核心引擎。无论是气象模拟、海洋研究,还是医药研发、工业设计,算力已逐渐演变为关键资源,而智算中心则成为这一进程的重要承载平台。

在此背景下,北京正阳恒卓科技有限公司(以下简称“正阳恒卓”)依托 NVIDIA 全栈式解决方案,为某超大型智算中心规划并交付了1000PFlops@FP16规模的算力集群。项目以 NVIDIA H800 Tensor Core GPU 作为核心算力引擎,结合 NVIDIA Quantum InfiniBand 高速网络与 NVIDIA UFM® 统一架构管理平台,构建起覆盖硬件基础设施、软件系统与运维服务的全生命周期方案。该超大型智算中心实现了计算、存储与网络资源的高效协同,在跨机房部署等复杂场景下依然能够保障系统的稳定性与可扩展性,最终将算力密度提升至行业领先水平。

超大规模智算集群建设挑战

该超大型智算中心项目在规划与实施阶段面临三重核心挑战:

其一,网络架构的极致性能需求。由于该超算中心面向气候模拟、药物研发等需要大规模并行计算与海量数据交互的前沿任务,网络架构必须满足极致的性能需求,计算网络需实现 400Gbps 节点间通信,存储网络需达到 200Gbps 带宽,同时整体延迟需控制在亚微秒级别,这对网络拓扑设计与硬件选型提出严苛要求。

其二,大规模部署的物理限制。与以往同等规模项目通常需要 6-12 个月的建设周期相比,该项目必须在 3 个月内完成跨 A、B 两个机房的硬件集成,其中计算服务器位于 A 机房,存储与安全设备部署于 B 机房,存储网络的跨机房布线需克服 200G AOC 线缆 100 米的传输距离限制。

其三,现场施工的适应性调整,原设计采用上走线方案,但实际机房为下走线布局,导致线槽操作空间狭窄、焊接式设计穿线困难,工人需在无法站立行走的环境中作业,直接影响施工进度与质量。

系统性构建高效可靠的 AI 算力集群

面对上述挑战,正阳恒卓基于其在智算中心建设领域的丰富经验,提出了一系列创新性解决方案。

高速互连:借助 NVIDIA InfiniBand 构建高效、低延迟的网络架构

NVIDIA Quantum InfiniBand 是全球唯一完全硬件卸载的网络计算平台,具备卓越的数据吞吐量和端口密度,并支持网络自愈、增强服务质量 (QoS)、拥塞控制和动态路由等特性,使数据中心能够以更低的成本和复杂性实现出色性能和更高的总体应用程序吞吐量。

在网络架构设计上,正阳恒卓采用了NVIDIA Quantum QM9790 NDR 400G InfiniBand 交换机作为核心交换设备,构建了无阻塞胖树组网架构(包含 8 台 Spine 交换机和 16 台 Leaf 交换机)(见下图)。这种架构保证了任意节点间的数据传输路径始终等价,避免了网络拥塞和带宽瓶颈,从而实现超低延迟和超高吞吐量,支撑现代工作负载在性能加速、可扩展性和功能丰富性方面的需求。


NVIDIA Quantum QM9790 NDR 400G InfiniBand 交换机

同时,部署了 1000 多条 400G MPO 线缆确保高速连接,总长度达 20 公里,通过精细化的机柜空间规划和布线路径设计,实现了高密度互连与稳定的高速传输,有效保障了大规模集群的高效运行。


某大型智算中心网络架构设计

存储网络方面,采用NVIDIA Quantum QM8790 HDR 200G InfiniBand 交换机作为核心设备,构建了 Spine-Leaf 架构(10 台 Spine 和 11 台 Leaf)(见下图),使用 400 多条 200G AOC 线缆进行连接,这一架构不仅保证了存储节点之间的多路径并行访问能力,显著提升了 I/O 并发处理效率,还能在大规模并发读写时保持稳定的低延迟表现。


NVIDIA Quantum QM8790 HDR 200G InfiniBand 交换机

此外,NVIDIA InfiniBand 的 SHARP™ 技术可卸载聚合通信运算、减少数据传输量并缩短消息传递时间;网络自愈功能能快速应对链路故障,实现远超软件方案的恢复速度;成熟的服务质量机制提供高级拥塞控制和动态路由;并支持多种网络拓扑及优化路由算法,从而进一步提升整体数据中心的吞吐效率和稳定性。

由此,整体系统在实际运行中实现了 1TB/s 级别的数据流动,为大数据分析、AI 训练和科学计算工作负载提供了极高的存储吞吐能力。


某大型智算中心存储网络架构

复杂部署环境中的施工优化与调整

为解决跨机房布线难题,正阳恒卓团队需要克服 200G AOC 线缆最长 100 米的物理传输限制,而计算与存储设备分属 A、B 两个机房,距离接近极限。如果交换机位置稍有偏差,就可能导致线缆超长、信号衰减甚至无法部署。针对这一困难,项目团队通过精确测量机房间距与设备位置,反复推演布线方案,最终合理规划交换机安装位置,确保所有跨机房连接线缆连接都严格控制在 100 米限制内。同时,跨机房 AOC 线缆采用了特殊保护套管,防止线缆受损,并在关键路径部署了冗余连接,保证了整体网络的稳定性和安全性。

高压之下,项目团队在仅有不到 1 周时间内完成了走线方案的全面重新设计,制定了精确到机柜和管槽的的下走线规划图,并通过线缆长度自动计算工具快速生成并更新了上千条线缆的采购清单。这一过程不仅需要工程师对现场环境进行反复测量和建模,还要在极短时间内完成从设计到采购的全链条闭环。为保障进度,正阳恒卓同步优化了施工计划与人员安排,将原本顺序式的施工转为多工序并行,增派数十名工程人员分批次开展布线作业,确保在拥挤、工人无法站立的机柜底部空间中依然能够有序推进。对于不合理的焊接式线槽,项目团队还协调相关方拆除并重新设计为卡扣式线槽,大幅提高了穿线效率,最终在紧迫工期内完成了高密度布线任务。

NVIDIA UFM 平台赋能智算中心的智能化运维

在软件与管理层面,正阳恒卓为该超大型智算中心引入了NVIDIA UFM 平台,这一平台能够实时监控网络的性能与健康状态,提供自动化故障诊断与报警,以及流量分析与优化建议。NVIDIA UFM 平台将增强的实时网络遥测与 AI 驱动的网络智能和分析相结合,为 InfiniBand 高性能数据中心网络的高效调配、监控、管理和预防性故障排除提供了强大支持。


打造科学计算平台,支撑多领域科研突破

通过正阳恒卓专业的技术方案和高效的落地实施,该智算中心项目在 NVIDIA 网络解决方案的赋能下取得了显著成果。

通过精准的网络架构设计与优化部署,该超大型智算中心实现了稳定、高效的集群互连。这不仅充分发挥了 NVIDIA InfiniBand 网络技术的潜力,还确保大规模分布式训练能够顺利进行,实现了规模扩展和硬件升级带来的性能提升。

系统稳定运行表现同样令人印象深刻,项目交付后持续稳定运行,实现了网络零宕机的优秀记录。这得益于 NVIDIA UFM 监控系统能够提前发现潜在问题,避免故障发生。

支持科研突破方面,该智算中心已经为多个大型科研项目提供了强大算力支持,加速了 AI 产业发展与数字化转型,包括:

气象领域:参与精细化气象预报,提高了天气预报的准确性和时效性;

海洋科学:与高校合作开展海洋环境模拟,支持海洋生态系统研究和气候变化分析;

医药研发:加速新药分子筛选与蛋白质结构解析,缩短药物研发周期;

工业领域:支持重工领域在高端装备制造中的仿真设计,大幅降低研发成本;

大型科技项目:支撑大飞机、深空探测等大型科技项目的计算需求。

AI 基础设施建设是一个系统工程,需要从硬件到软件进行全面系统性开发,并将具备稳定性和高效性的技术进行封装,对用户尽可能透明。正阳恒卓通过这一项目,展示了高性能、高稳定性如何成为智算中心的基本能力和发展趋势。

构建智算生态新格局

这一超大型智算中心项目的成功,不仅推动了科研与产业的融合发展,也为智算建设积累了宝贵经验。正阳恒卓计划将该项目的成功实践推广至更多大型智算中心,并与高校共建联合实验室,培养新一代科学计算人才。

作为 NVIDIA 网络产品精英级合作伙伴,未来,正阳恒卓致力于将领先的智算中心网络解决方案应用于各行各业,助力更多行业实现智能化转型与升级,探索智算中心在智慧城市、生命科学、工业互联网等更多应用场景中的潜力

*与 NVIDIA 产品相关的图片或视频(完整或部分)的版权均归 NVIDIA Corporation 所有。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张钧甯现在太好看了!高级美,瘦而不垮。

张钧甯现在太好看了!高级美,瘦而不垮。

动物奇奇怪怪
2026-01-14 11:57:38
痴人说梦:俄高层要求4月前拿下顿巴斯,世界最先进战车入列乌军

痴人说梦:俄高层要求4月前拿下顿巴斯,世界最先进战车入列乌军

史政先锋
2026-01-13 19:34:38
广州交警:1月16日起,粤A号牌“上新”

广州交警:1月16日起,粤A号牌“上新”

鲁中晨报
2026-01-14 11:15:03
英联杯阿森纳3-2客胜切尔西占先机,加纳乔替补双响,哲凯赖什传射

英联杯阿森纳3-2客胜切尔西占先机,加纳乔替补双响,哲凯赖什传射

懂球帝
2026-01-15 06:08:31
访问中国刚结束,韩国同时在两大方向搞事!果然不出中方所料

访问中国刚结束,韩国同时在两大方向搞事!果然不出中方所料

别让往昔的悲伤和对未来的恐惧
2026-01-15 03:07:50
四川一男子称因夜间点外卖次数过多,名下银行卡被银行风控,需要到反诈中心签字盖章后才能解封

四川一男子称因夜间点外卖次数过多,名下银行卡被银行风控,需要到反诈中心签字盖章后才能解封

观威海
2026-01-14 16:22:05
CBA积分榜最新排名出炉!广厦广东稳居前2:辽宁队已下滑至第11?

CBA积分榜最新排名出炉!广厦广东稳居前2:辽宁队已下滑至第11?

篮球快餐车
2026-01-15 04:03:24
邱彪难以抉择,鲍威尔该不该留?山东高速男篮后面赛程将给出答案

邱彪难以抉择,鲍威尔该不该留?山东高速男篮后面赛程将给出答案

吴锎旅行ing
2026-01-15 05:56:52
伊朗抗议者亲手击毙下令射杀群众的伊朗军官

伊朗抗议者亲手击毙下令射杀群众的伊朗军官

桂系007
2026-01-12 00:31:50
连续6场无缘大名单!切尔西冬窗大清洗 19岁新星面临离队

连续6场无缘大名单!切尔西冬窗大清洗 19岁新星面临离队

球事百科吖
2026-01-15 04:39:05
宁波多地居民凌晨听到巨响,有人报警,多方回应

宁波多地居民凌晨听到巨响,有人报警,多方回应

极目新闻
2026-01-14 12:37:29
吴彦祖夫妇:岁月沉淀的默契与颜值

吴彦祖夫妇:岁月沉淀的默契与颜值

述家娱记
2026-01-10 17:50:31
韩国籍主帅金相植率越南U23男足亚洲杯小组赛全胜,韩媒问“这是偶然吗?”

韩国籍主帅金相植率越南U23男足亚洲杯小组赛全胜,韩媒问“这是偶然吗?”

寒律
2026-01-15 05:41:06
赛季至今,36岁哈登得了927分,37岁的杜兰特得了多少分呢?

赛季至今,36岁哈登得了927分,37岁的杜兰特得了多少分呢?

越岭寻踪
2026-01-14 06:32:33
伊朗库尔德武装声称攻占伊斯兰革命卫队一基地

伊朗库尔德武装声称攻占伊斯兰革命卫队一基地

参考消息
2026-01-14 14:12:25
回顾探花大神:害人害己,多位女主被亲戚认出当场“社死”

回顾探花大神:害人害己,多位女主被亲戚认出当场“社死”

就一点
2025-10-09 12:19:42
睡一觉,拢了就看海!成都即将动卧直达→

睡一觉,拢了就看海!成都即将动卧直达→

掌上金牛
2026-01-14 15:11:07
84年,邓小平赴广东视察,老部下拒绝见面,邓:我压了他十年

84年,邓小平赴广东视察,老部下拒绝见面,邓:我压了他十年

雍亲王府
2026-01-14 11:15:03
《寻秦记》郭羡妮25年前上台综宣传片翻红,靓到令主持人两眼发光

《寻秦记》郭羡妮25年前上台综宣传片翻红,靓到令主持人两眼发光

粤睇先生
2026-01-15 00:13:17
醒醒吧!没气质就别硬演“黑老大”,贱嗖嗖的样子,内娱没人了吗

醒醒吧!没气质就别硬演“黑老大”,贱嗖嗖的样子,内娱没人了吗

娱乐圈笔娱君
2025-12-26 14:32:48
2026-01-15 06:39:00
鲜枣课堂 incentive-icons
鲜枣课堂
ICT知识科普。
998文章数 1257关注度
往期回顾 全部

科技要闻

携程因涉嫌垄断被市场监管总局调查

头条要闻

外媒揭美对伊朗动手方案:派特种部队对高层实施"斩首"

头条要闻

外媒揭美对伊朗动手方案:派特种部队对高层实施"斩首"

体育要闻

你是个好球员,我们就拿你交易吧

娱乐要闻

网红彭十六偷税被封杀 曾成功转型明星

财经要闻

携程被立案调查,最高或被罚超50亿

汽车要闻

曝Model Y或降到20万以内!

态度原创

教育
健康
数码
时尚
家居

教育要闻

27的老师们如果实在无从下手:

血常规3项异常,是身体警报!

数码要闻

存储涨价冲击DIY市场,DDR3主板销量意外逆势倍增

最时髦的单品,难道不是背肌吗?

家居要闻

心之所向 现代建构之美

无障碍浏览 进入关怀版