网易首页 > 网易号 > 正文 申请入驻

打造智算新高地:正阳恒卓助力智算中心建设 1000P AI 算力集群

0
分享至

在数字化与智能化浪潮的驱动下,AI 正成为推动科研进步与产业升级的核心引擎。无论是气象模拟、海洋研究,还是医药研发、工业设计,算力已逐渐演变为关键资源,而智算中心则成为这一进程的重要承载平台。

在此背景下,北京正阳恒卓科技有限公司(以下简称“正阳恒卓”)依托 NVIDIA 全栈式解决方案,为某超大型智算中心规划并交付了1000PFlops@FP16规模的算力集群。项目以 NVIDIA H800 Tensor Core GPU 作为核心算力引擎,结合 NVIDIA QuantumInfiniBand 高速网络与 NVIDIA UFM® 统一架构管理平台,构建起覆盖硬件基础设施、软件系统与运维服务的全生命周期方案。该超大型智算中心实现了计算、存储与网络资源的高效协同,在跨机房部署等复杂场景下依然能够保障系统的稳定性与可扩展性,最终将算力密度提升至行业领先水平。

超大规模智算集群建设挑战

该超大型智算中心项目在规划与实施阶段面临三重核心挑战:

其一,网络架构的极致性能需求。由于该超算中心面向气候模拟、药物研发等需要大规模并行计算与海量数据交互的前沿任务,网络架构必须满足极致的性能需求,计算网络需实现 400Gbps 节点间通信,存储网络需达到 200Gbps 带宽,同时整体延迟需控制在亚微秒级别,这对网络拓扑设计与硬件选型提出严苛要求。

其二,大规模部署的物理限制。与以往同等规模项目通常需要 6-12 个月的建设周期相比,该项目必须在 3 个月内完成跨 A、B 两个机房的硬件集成,其中计算服务器位于 A 机房,存储与安全设备部署于 B 机房,存储网络的跨机房布线需克服 200G AOC 线缆 100 米的传输距离限制。

其三,现场施工的适应性调整,原设计采用上走线方案,但实际机房为下走线布局,导致线槽操作空间狭窄、焊接式设计穿线困难,工人需在无法站立行走的环境中作业,直接影响施工进度与质量。

系统性构建高效可靠的 AI 算力集群

面对上述挑战,正阳恒卓基于其在智算中心建设领域的丰富经验,提出了一系列创新性解决方案。

高速互连:借助 NVIDIA InfiniBand 构建高效、低延迟的网络架构

NVIDIA Quantum InfiniBand 是全球唯一完全硬件卸载的网络计算平台,具备卓越的数据吞吐量和端口密度,并支持网络自愈、增强服务质量(QoS)、拥塞控制和动态路由等特性,使数据中心能够以更低的成本和复杂性实现出色性能和更高的总体应用程序吞吐量。

在网络架构设计上,正阳恒卓采用了NVIDIA Quantum QM9790 NDR 400G InfiniBand 交换机作为核心交换设备,构建了无阻塞胖树组网架构(包含 8 台 Spine 交换机和 16 台 Leaf 交换机)(见下图)。这种架构保证了任意节点间的数据传输路径始终等价,避免了网络拥塞和带宽瓶颈,从而实现超低延迟和超高吞吐量,支撑现代工作负载在性能加速、可扩展性和功能丰富性方面的需求。


NVIDIA Quantum QM9790 NDR 400G InfiniBand 交换机

同时,部署了 1000 多条 400G MPO 线缆确保高速连接,总长度达 20 公里,通过精细化的机柜空间规划和布线路径设计,实现了高密度互连与稳定的高速传输,有效保障了大规模集群的高效运行。


某大型智算中心网络架构设计

存储网络方面,采用NVIDIA Quantum QM8790 HDR 200G InfiniBand 交换机作为核心设备,构建了 Spine-Leaf 架构(10 台 Spine 和 11 台 Leaf)(见下图),使用 400 多条 200G AOC线缆进行连接,这一架构不仅保证了存储节点之间的多路径并行访问能力,显著提升了 I/O 并发处理效率,还能在大规模并发读写时保持稳定的低延迟表现。


NVIDIA Quantum QM8790 HDR 200G InfiniBand 交换机

此外,NVIDIA InfiniBand 的 SHARP™ 技术可卸载聚合通信运算、减少数据传输量并缩短消息传递时间;网络自愈功能能快速应对链路故障,实现远超软件方案的恢复速度;成熟的服务质量机制提供高级拥塞控制和动态路由;并支持多种网络拓扑及优化路由算法,从而进一步提升整体数据中心的吞吐效率和稳定性。

由此,整体系统在实际运行中实现了 1TB/s 级别的数据流动,为大数据分析、AI 训练和科学计算工作负载提供了极高的存储吞吐能力。


某大型智算中心存储网络架构

复杂部署环境中的施工优化与调整

为解决跨机房布线难题,正阳恒卓团队需要克服 200G AOC 线缆最长 100 米的物理传输限制,而计算与存储设备分属 A、B 两个机房,距离接近极限。如果交换机位置稍有偏差,就可能导致线缆超长、信号衰减甚至无法部署。针对这一困难,项目团队通过精确测量机房间距与设备位置,反复推演布线方案,最终合理规划交换机安装位置,确保所有跨机房连接线缆连接都严格控制在 100 米限制内。同时,跨机房 AOC 线缆采用了特殊保护套管,防止线缆受损,并在关键路径部署了冗余连接,保证了整体网络的稳定性和安全性。

高压之下,项目团队在仅有不到 1 周时间内完成了走线方案的全面重新设计,制定了精确到机柜和管槽的的下走线规划图,并通过线缆长度自动计算工具快速生成并更新了上千条线缆的采购清单。这一过程不仅需要工程师对现场环境进行反复测量和建模,还要在极短时间内完成从设计到采购的全链条闭环。为保障进度,正阳恒卓同步优化了施工计划与人员安排,将原本顺序式的施工转为多工序并行,增派数十名工程人员分批次开展布线作业,确保在拥挤、工人无法站立的机柜底部空间中依然能够有序推进。对于不合理的焊接式线槽,项目团队还协调相关方拆除并重新设计为卡扣式线槽,大幅提高了穿线效率,最终在紧迫工期内完成了高密度布线任务。

NVIDIA UFM 平台赋能智算中心的智能化运维

在软件与管理层面,正阳恒卓为该超大型智算中心引入了NVIDIA UFM 平台,这一平台能够实时监控网络的性能与健康状态,提供自动化故障诊断与报警,以及流量分析与优化建议。NVIDIA UFM 平台将增强的实时网络遥测与 AI 驱动的网络智能和分析相结合,为 InfiniBand 高性能数据中心网络的高效调配、监控、管理和预防性故障排除提供了强大支持。


打造科学计算平台,支撑多领域科研突破

通过正阳恒卓专业的技术方案和高效的落地实施,该智算中心项目在 NVIDIA 网络解决方案的赋能下取得了显著成果。

通过精准的网络架构设计与优化部署,该超大型智算中心实现了稳定、高效的集群互连。这不仅充分发挥了 NVIDIA InfiniBand 网络技术的潜力,还确保大规模分布式训练能够顺利进行,实现了规模扩展和硬件升级带来的性能提升。

系统稳定运行表现同样令人印象深刻,项目交付后持续稳定运行,实现了网络零宕机的优秀记录。这得益于 NVIDIA UFM 监控系统能够提前发现潜在问题,避免故障发生。

支持科研突破方面,该智算中心已经为多个大型科研项目提供了强大算力支持,加速了 AI 产业发展与数字化转型,包括:

气象领域:参与精细化气象预报,提高了天气预报的准确性和时效性;

海洋科学:与高校合作开展海洋环境模拟,支持海洋生态系统研究和气候变化分析;

医药研发:加速新药分子筛选与蛋白质结构解析,缩短药物研发周期;

工业领域:支持重工领域在高端装备制造中的仿真设计,大幅降低研发成本;

大型科技项目:支撑大飞机、深空探测等大型科技项目的计算需求。

AI 基础设施建设是一个系统工程,需要从硬件到软件进行全面系统性开发,并将具备稳定性和高效性的技术进行封装,对用户尽可能透明。正阳恒卓通过这一项目,展示了高性能、高稳定性如何成为智算中心的基本能力和发展趋势。

构建智算生态新格局

这一超大型智算中心项目的成功,不仅推动了科研与产业的融合发展,也为智算建设积累了宝贵经验。正阳恒卓计划将该项目的成功实践推广至更多大型智算中心,并与高校共建联合实验室,培养新一代科学计算人才。

作为 NVIDIA 网络产品精英级合作伙伴,未来,正阳恒卓致力于将领先的智算中心网络解决方案应用于各行各业,助力更多行业实现智能化转型与升级,探索智算中心在智慧城市、生命科学、工业互联网等更多应用场景中的潜力。

*与 NVIDIA 产品相关的图片或视频(完整或部分)的版权均归 NVIDIA Corporation 所有。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
辽宁96-88深圳2喜2忧!继伟延续状态,哈维首秀获赞,2将作用拉胯

辽宁96-88深圳2喜2忧!继伟延续状态,哈维首秀获赞,2将作用拉胯

篮球资讯达人
2026-03-12 01:31:14
庆祝阿德巴约83分,热火官方商店上架83美元球衣和13美元门票

庆祝阿德巴约83分,热火官方商店上架83美元球衣和13美元门票

懂球帝
2026-03-12 01:50:06
怪不得印度不闹腾!雅鲁藏布江水电工程,让水资源威胁论失效

怪不得印度不闹腾!雅鲁藏布江水电工程,让水资源威胁论失效

谢葥邮轮摄影
2026-03-11 14:21:57
“写真界的皇帝”:田渊正浩,36年与近万女优共创的视觉神话

“写真界的皇帝”:田渊正浩,36年与近万女优共创的视觉神话

碧波万览
2026-03-11 18:14:43
2B的丁字裤呢?《守望先锋》尼尔联动皮肤遭质疑和谐

2B的丁字裤呢?《守望先锋》尼尔联动皮肤遭质疑和谐

游民星空
2026-03-11 12:26:05
同样煮饺子,“盖盖煮”和“不盖盖煮”区别大,难怪煮出来不一样

同样煮饺子,“盖盖煮”和“不盖盖煮”区别大,难怪煮出来不一样

阿龙美食记
2026-02-23 17:00:18
为什么领导很少生病请假,总是精力充沛?主要有这4点

为什么领导很少生病请假,总是精力充沛?主要有这4点

细说职场
2026-02-11 17:27:08
CBA疯狂一夜:30分惨案+冷门频出,季后赛积分榜变天

CBA疯狂一夜:30分惨案+冷门频出,季后赛积分榜变天

曦言说
2026-03-12 02:22:58
南昌赣江售票员的逆袭:38万买长江电力,持有13年,狂赚近200万

南昌赣江售票员的逆袭:38万买长江电力,持有13年,狂赚近200万

真实人物采访
2026-03-11 06:40:05
实锤!曼城巨星摊牌了,明着要去皇马,瓜帅急疯了

实锤!曼城巨星摊牌了,明着要去皇马,瓜帅急疯了

奶盖熊本熊
2026-03-12 02:48:03
小S再度开炮,枪口还是对准汪小菲!

小S再度开炮,枪口还是对准汪小菲!

达文西看世界
2026-02-04 11:43:26
刚从吉林回来,毫不客气的说,舒兰就是全国郊区城建天花板~

刚从吉林回来,毫不客气的说,舒兰就是全国郊区城建天花板~

阿芒娱乐说
2026-03-12 06:27:43
见过什么毁三观的事网友讲述自身经历,真的是很毁三观。

见过什么毁三观的事网友讲述自身经历,真的是很毁三观。

侃神评故事
2026-03-09 19:30:03
你的龙虾可能在裸奔——从一篇让人后背发凉的论文聊起

你的龙虾可能在裸奔——从一篇让人后背发凉的论文聊起

卫夕指北
2026-03-10 10:50:59
纽卡挖到宝了!新 “亿元瑰宝” 横空出世,比放走的安德森还香?

纽卡挖到宝了!新 “亿元瑰宝” 横空出世,比放走的安德森还香?

奶盖熊本熊
2026-03-12 03:11:51
向华强公开指责小儿子向佑专门结交猪朋狗友,守着金山去要饭

向华强公开指责小儿子向佑专门结交猪朋狗友,守着金山去要饭

倔强的毛驴
2026-03-10 23:27:47
白酒可以天天喝吗?医生忠告:过了60岁,喝白酒牢记这7个关键

白酒可以天天喝吗?医生忠告:过了60岁,喝白酒牢记这7个关键

新时代的两性情感
2026-03-09 12:05:19
中东硝烟未散,盟友反目成仇,普京来电是救火还是添乱?

中东硝烟未散,盟友反目成仇,普京来电是救火还是添乱?

你是我的小甜甜
2026-03-12 05:00:34
王晶没撒谎!退出春晚、和沈腾决裂,性格大变的贾玲印证他说的话

王晶没撒谎!退出春晚、和沈腾决裂,性格大变的贾玲印证他说的话

胡一舸南游y
2026-01-25 14:54:04
她得了金庸全书最难听的名字,小时候乍一听很美,长大却越听越怪

她得了金庸全书最难听的名字,小时候乍一听很美,长大却越听越怪

耳东文史
2026-03-08 00:05:33
2026-03-12 07:07:01
芯智讯 incentive-icons
芯智讯
聚焦科技万象,报道前沿资讯。
8307文章数 32090关注度
往期回顾 全部

科技要闻

腾讯"养虾"暴涨后,百度急得在门口"装虾"

头条要闻

伊朗实施“真实承诺4”第40轮军事行动 视频公布

头条要闻

伊朗实施“真实承诺4”第40轮军事行动 视频公布

体育要闻

郭艾伦重伤,CBA下半赛季还能期待些什么

娱乐要闻

蔡少芬晒全家福照,两女儿成最大亮点

财经要闻

唤醒10万亿存量资金 公积金改革大潮来了

汽车要闻

莲花纠偏, 冯擎峰的“收”与“守”

态度原创

亲子
家居
本地
旅游
公开课

亲子要闻

生娃时胎儿脖子被脐带勒住。结果护士自己吓跑,留孕妇独自凌乱??幸亏...

家居要闻

中式风格 人间朝与暮

本地新闻

这档韩国玄学综艺,让多少人看得头皮发麻

旅游要闻

昆明呈贡第十四届“万溪梨花节”将于3月13日启幕

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版