来源:市场资讯
(来源:华为计算)
2026年4月9-10日,2026 Open AI Infra Summit在北京举办,openUBMC社区技术委员会委员&iBMC集群管理软件专家黄晗,在超节点生态分论坛发表《基于 openUBMC打造超节点硬件智能管理平台》主题演讲,分享开源体系下硬件智能管理最新实践,以标准化方案破解智算集群运维痛点,引发行业广泛关注。
![]()
openUBMC社区技术委员会委员&iBMC集群管理软件专家黄晗发表主题演讲
智算规模化发展运维标准供需失衡凸显
随着智算集群快速扩张,硬件模块化、供应多元化趋势明显,也对 BMC带外管理提出新要求。以灵衢为代表的高速互联技术普及,推动超节点Scale-up架构快速落地,统一内存语义技术进一步实现硬件资源池化,BMC随之面临可组合解耦基础设施(CDI)的管理挑战,以Redfish、Sunfish等BMC北向模型,正在突破传统单机管理的物理边界,为超节点多设备协同管理提供了技术基础。
![]()
图片部分内容引用自The OpenFabrics Alliance官网
与此同时,用户对统一设备北向运维接入能力的需求日益迫切,但现有标准难以适配新一代智算硬件的复杂场景:整机与部件厂商虽希望通过差异化构建竞争力,却因缺乏统一规范导致北向接口参差不齐,形成用户统一运维诉求与厂商差异化规划之间的行业鸿沟。以互联网为代表的客户趋向硬件与BMC固件规范白盒化,却未形成全行业统一标准,一方面导致各厂商需基于同一代码基线适配多套客户规范,代码复用率极低,研发与适配成本居高不下;另一方面,用户运维系统仍需针对设备能力差异做定制化适配(如屏蔽不支持的功能),进一步推高设备接入与运维开发成本。
![]()
以服务器硬件指标采集为例,不同客户在采集范围上各有定义,采集方式也呈现碎片化:
采集范围:无统一界定
![]()
采集方式:
IPMI传感器
自定义rest接口下载csv文件
自定义redfish查询接口
其他定制化方式
构建超节点多BMC协同底座CDI资源透明管理
针对超节点管理的核心痛点,openUBMC从软件架构层面给出针对性解决方案:统一超节点计算域与交换域的设备管理对象模型,并基于统一模型实现高性能数据同步,进而实现超节点系统在资产、故障、能效等维度的多节点协同管理,让CDI资源可被上层运维系统透明感知、统一调度。
![]()
以标准筑基以社区赋能AI智能运维
面对行业痛点,openUBMC以开源生态为底座,从标准协同与技术实现双重维度给出系统性解决方案。
接轨国际标准:openUBMC社区提前布局技术预研,平台满足国际主流标准,为北向运维接入提供稳定、通用的基础能力。
共建行业统一标准:联合行业标准组织、用户、整机及部件厂商共建统一北向标准,当前正在围绕灵衢部件、DPU等关键部件制定管理接口规范,同步搭建测评认证体系,相关标准在社区优先落地并实现100%复用,以“社区+标准”推动产业协同创新。
![]()
标准化遥测接口,赋能AI运维闭环:通过标准化流式遥测接口与统一指标定义,用户运维系统可以无缝对接不同厂商的设备,采集高精准、低时延的数据,支撑AI运维系统完成“收集–分析–决策–执行”全流程闭环。
![]()
数据主动推送重构硬件运维效能
![]()
相比传统轮询模式,openUBMC采用的主动推送模式优势显著:
分层架构,被采集侧主动上报,无需采集侧频繁轮询;
采集侧与被采集侧仅一次订阅交互,大幅降低交互开销;
亚秒级实时采集并推送,无采样盲区,保障数据实时性。
通过数据主动推送,用户运维系统可实现从硬件到固件的全方位可观测,经过LLM训练推理,硬件运维管理从传统的故障被动响应升级为主动预防,同时支撑系统负载与能耗的深度调优,为智算集群高效稳定运行提供坚实保障。
生态共建携手共筑硬件管理统一标准
openUBMC社区诚邀整机、部件、云厂商及行业用户,携手共建算力基础设施硬件管理北向统一标准,使能产业高质量发展,欢迎加入openUBMC社区interface SIG,共商标准、共建生态、共启智算硬件管理新未来。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.