网易首页 > 网易号 > 正文 申请入驻

直面数据中心“运维暴击”,AI时代元脑服务器如何“见招拆招”

0
分享至

文|宋辰

编辑|李薇

AI时代,数据中心正经历一场前所未有的“进化”。

爆发的AI训练、推理,还有大数据分析、云计算等业务,让数据中心算力需求暴涨、能耗持续攀升,运维团队每天都在“刀尖上跳舞”——高负载、高并行的各类应用给服务器内存、风扇、硬盘带来“暴击”,稍有不慎就可能造成宕机、数据丢失甚至业务中断

而不同的应用要运行在几百种不同型号的异构设备上,随着数据中心服务器规模快速攀升,大规模基础设施的运维也面临重重挑战

元脑服务器作为浪潮信息最新一代智算品牌,依托数百万级服务器运维管理经验,全新升级服务器智能管理功能,直面数据中心运维的多重暴击,帮助运维团队“见招拆招”,成为大规模数据中心运维团队的必备“智囊”。

大咖科技

Tech Chic

数据中心运维面临

三大“暴击”

暴击一:内存资源“告急”,宕机风险步步紧逼。

AI模型的训练和推理对内存的需求堪称“饕餮”。 AI计算任务往往涉及大规模并行计算,对内存的使用更加密集,以GPT-3为例,其训练需要数百GB甚至TB级别的内存资源。随着模型规模的不断扩大,内存的需求还在持续增长。

内存资源不仅昂贵,还非常“娇气”。一旦出现故障,轻则影响单台服务器的性能,重则导致整个集群的崩溃。更糟糕的是,内存故障往往难以预测,传统的监控手段只能“事后补救”,无法做到“未卜先知”。

据统计,由服务器硬件异常导致的宕机中,高达74%是由内存故障引发的。内存故障可分为不可纠正错误UCE和可纠正错误CE,UCE故障可能会导致服务器立马宕机。

安全研究机构波洛蒙研究所的统计结果显示,具有一定规模的企业发生服务器宕机事件,会带来平均每分钟近9000美元的损失成本,小型企业的损失在每分钟137至427美元之间。

元脑服务器全新升级的内存故障智能预警修复技术MUPR,从单端预警升级为BIOS、BMC两级防护,通过对上万台服务器故障数据的建模分析和AI模型算法的训练,实现了对内存UCE故障的精准预测和实时修复。

搭载了MUPR技术的元脑服务器,全天候、多方位监测服务器内存健康状态,50万台服务器级别的数据中心,内存UCE发生率按年化1%计算,MUPR技术可以有效规避80%以上的内存UCE发生,每年节省约5400万元的内存故障维护费用

暴击二:温控压力“爆表”,开机如起飞

算力越强,发热量就越大。一台高性能的服务器功耗可能高达数千瓦,相当于几十台普通服务器的总和。而数据中心的散热系统往往“跟不上节奏”,导致服务器温度过高,性能下降甚至硬件损坏。

光听服务器开机的声音以为是“飞机起飞”。“明明刚开机,服务器内部各个部件还未完全上电,风扇转速为什么要拉满?”运维人员大为不解却无可奈何。而且,伴随着风扇的呼啸声,服务器启动“龟速”,开机时间要三五分钟甚至更久。

症结就在于,服务器传统控温策略中为了尽可能满足散热安全性要求,上电之后会以最大配置的方式来进行风扇速度调节,而此时BMC Linux系统尚未启动,热量传感器数据无法采集,导致风扇满载状态会持续较长时间,带来能耗、噪音的攀升和稳定性的降低。而且,为了避免开机过程中散热风险,一般会设置等待BMC Linux系统启动完成后再启动POST过程,导致服务器从AC上电到进入OS的时间被拉长。

元脑服务器首创服务器开机3秒智能控温技术,通过BMC Linux/RTOS异构双系统并行管理技术,实现了上电即开机,开机时间缩短一半以上。同时,该技术通过实时感知环境温度,动态调控风扇转速,噪音比优化前最大下降30.4%,开机功耗也可大幅降低。

暴击三:硬盘故障“频发”,数据安全岌岌可危

AI时代,数据就是“命根子”。然而,随着数据量的爆炸式增长,硬盘的故障率也在不断上升。一块硬盘的故障可能导致数TB的数据丢失,而数据恢复的时间成本和经济成本都高得惊人。

某互联网大厂的数据中心4年内的29万次硬件故障中,硬盘故障占比高达81.84%。一旦硬盘故障,就会导致阵列降级,读写性能下降,期间还会存在二次掉盘导致的数据丢失风险。虽然传统存储有RAID、副本等机制,但是数据重建过程中要使用大量IO资源,而且重建时间很长,往往以天计算,这会对业务连续性造成严重影响。

传统的硬盘监控手段往往只能“亡羊补牢”,无法提前预警。更糟糕的是,硬盘故障的排查和修复需要大量人力,运维团队常常疲于奔命,类似于中医“治未病”理念的准确预测成为硬盘真正“硬”起来的最优解。

根据当前技术规范,服务器系统可提取的硬盘参数大约60多种,这是磁盘故障判断的基础。元脑服务器的研发工程师们选择采用AI算法技术来建立硬盘的失效预测模型。模型累计分析了超过300亿条故障特征数据,引入GAN、XGBoost、PCCs算法,基于567种预处理参数的近百种模型组合,以匹配不同型号、不同厂商的硬盘,最终实现最优的失效模型建模。

目前,元脑服务器已经实现HDD故障预测、SSD寿命预测,提前14天预测风险盘,故障预测准确率超95%,误报率小于1%

大咖科技

Tech Chic

设备规模爆发,

大规模数据中心运维新挑战

一方面,数据中心运维的三大“暴击”依旧需要面对,另一方面,AI时代的算力需求,让数据中心的设备规模快速攀升,基础设施运维管理面临全新挑战。

在大规模数据中心,随着业务量的快速增长,服务器数量爆发式增长,设备规模从最初的1000台逐渐增加到10万台,规模扩大了100倍,涵盖了不同年代和厂商的服务器、存储、网络设备等,设备种类多,内存、电源、硬盘、风扇等各类故障发生的不确定性大。

以拥有10万+设备的大规模数据中心为例,每日产生近30TB的设备运行状态、亿级监控指标、数千条告警推送等。如何秒级反馈海量并发需求,保证管理平台稳定运行;如何避免将每秒近千条的大规模设备告警风暴强塞给客户,进行根因定位并避免误报、漏报。这些挑战正伴随服务器、存储和网络设备规模的持续增长,成为超大规模数据中心管理亟待解决的难题。

在最近的一项调查中,57%的数据中心所有者表示,他们会相信人工智能模型来做出运营决策,借助智能平台来简化日常运维——这比上一年增长了近20%。

面对数据中心大规模的设备运维管理需求,元脑服务器数据中心基础设施管理平台结合在数据中心大规模IT设备运维实践经验,通过统一接口、协议,能够纳管多达400种不同厂商、不同型号的服务器、存储、网络等机型,设备规模最多可达10万台,不仅创造了金融行业单一数据中心带外管理的最大纪录,还实现了数据中心基础设施全生命周期管理,整体运维效率提升两倍,为超大规模数据中心运维提供智能均衡调度、实时精准告警等管理功能;同时在智能化方面,管理平台通过智能均衡作业调度平台,能够在秒级内处理超大规模数据中心亿级实时并发运维管理数据,并基于自研的告警管理框架,实现5秒内响应上千条告警风暴,显著降低告警误报与漏报的风险。

目前,元脑服务器和基础设施管理平台的全新智能升级,已在海内外收获了广泛的认可,为全球互联网、金融、通信、IT、教科研等用户的数据中心,提供了数字化、智能化的运维服务,保障数据中心业务安全、稳定地运行。

未来,随着AI技术的进一步成熟,数据中心的运维工作将从“人力密集型”持续向“技术密集型”转型。元脑服务器将以技术创新为驱动,助力数据中心在AI时代“乘风破浪“,为基础设施的数智化转型提供更加智能、高效、稳定、可靠的算力产品,加速智能时代的到来。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
人无知能到什么程度,网友:这种人真的太可怕了,引起全网共鸣

人无知能到什么程度,网友:这种人真的太可怕了,引起全网共鸣

夜深爱杂谈
2026-01-27 21:19:06
朝鲜“新星女将军”金主爱:下一代领导者?她频频露面原因为何?

朝鲜“新星女将军”金主爱:下一代领导者?她频频露面原因为何?

洞鉴历史
2024-04-24 15:10:54
中华人民共和国和德意志联邦共和国联合新闻声明

中华人民共和国和德意志联邦共和国联合新闻声明

新华社
2026-02-25 21:46:25
全民皆兵,中国男篮除张镇麟外,其余出场球员均有得分入账

全民皆兵,中国男篮除张镇麟外,其余出场球员均有得分入账

懂球帝
2026-02-26 20:54:04
聚焦|中国男篮逆转日本队,贺希宁成奇兵,赵继伟显担当

聚焦|中国男篮逆转日本队,贺希宁成奇兵,赵继伟显担当

北青网-北京青年报
2026-02-26 21:24:30
成本19元卖300元!又一骗局暴雷,专坑老年人,9万养老钱血本无归

成本19元卖300元!又一骗局暴雷,专坑老年人,9万养老钱血本无归

财经八卦
2026-02-25 22:57:34
继混双之后,女双也再次出局,这一切背后离不开王励勤的战略布局

继混双之后,女双也再次出局,这一切背后离不开王励勤的战略布局

杨哥乒乓
2026-02-26 21:14:51
中到大雪 局部暴雪!27日夜里至3月1日河南大范围雨雪“上线”

中到大雪 局部暴雪!27日夜里至3月1日河南大范围雨雪“上线”

玉乡镇平
2026-02-26 18:42:46
雷军带火蕉内滑雪服:客服表示299元优惠已结束,当前为629元

雷军带火蕉内滑雪服:客服表示299元优惠已结束,当前为629元

PChome电脑之家
2026-02-24 17:02:37
掘金103-84凯尔特人,约基奇30+12,布朗23+11,穆雷病退

掘金103-84凯尔特人,约基奇30+12,布朗23+11,穆雷病退

懂球帝
2026-02-26 13:49:51
特朗普启程中国前,美高官放话:从不相信中国,访华只有1个目的

特朗普启程中国前,美高官放话:从不相信中国,访华只有1个目的

触摸史迹
2026-02-26 22:38:44
携程总裁辞职

携程总裁辞职

观察者网
2026-02-26 15:05:38
汪小菲喜得三胎仅2天,荒唐事接连发生,马筱梅或走上大S的老路

汪小菲喜得三胎仅2天,荒唐事接连发生,马筱梅或走上大S的老路

揽星河的笔记
2026-02-26 19:35:46
26日战报:8强赛5席定,国乒有败,王楚钦逆转对手确定

26日战报:8强赛5席定,国乒有败,王楚钦逆转对手确定

春日筆記
2026-02-26 22:32:44
煮汤圆,有人用开水,用冷水!厨师长:都不对,教您做法,不粘锅

煮汤圆,有人用开水,用冷水!厨师长:都不对,教您做法,不粘锅

阿龙美食记
2026-02-23 17:09:09
历史第四人!约基奇连续三场30+无愧联盟一哥 NBA官方:不可阻挡

历史第四人!约基奇连续三场30+无愧联盟一哥 NBA官方:不可阻挡

颜小白的篮球梦
2026-02-26 14:59:08
CBA最新消息!曝2米18大外援加盟广东宏远,青岛男篮有意克劳福德

CBA最新消息!曝2米18大外援加盟广东宏远,青岛男篮有意克劳福德

体坛瞎白话
2026-02-26 11:53:27
猪油再次被关注!调查发现:高血压患者常吃猪油,或出现4种变化

猪油再次被关注!调查发现:高血压患者常吃猪油,或出现4种变化

蜉蝣说
2026-02-26 10:37:12
拾石村妈祖被替后续: 女孩账号曝光,当了八年被选定,今年满18岁

拾石村妈祖被替后续: 女孩账号曝光,当了八年被选定,今年满18岁

离离言几许
2026-02-20 14:02:55
液冷全线大涨,海外巨量订单砸向中国,这6只龙头要起飞 !

液冷全线大涨,海外巨量订单砸向中国,这6只龙头要起飞 !

宇量信息
2026-02-26 21:29:25
2026-02-26 23:19:00
大咖科技TechChic incentive-icons
大咖科技TechChic
聚焦科技领域,用财经视角穿透商业世界。
293文章数 17关注度
往期回顾 全部

科技要闻

单季营收681亿净利429亿!英伟达再次炸裂

头条要闻

男子因银行系统错误"欠款1000万亿":工厂可能会被拍卖

头条要闻

男子因银行系统错误"欠款1000万亿":工厂可能会被拍卖

体育要闻

从排球少女到冰壶女神,她在米兰冬奥练出6块腹肌

娱乐要闻

向华强公开表态 财产留给儿媳妇郭碧婷

财经要闻

中国AI调用量超美国 4款大模型霸榜前5

汽车要闻

40岁的吉利,不惑于内外

态度原创

家居
教育
健康
本地
公开课

家居要闻

归隐于都市 慢享自由

教育要闻

教育部将实施学生体质强健计划,提升学生健康水平

转头就晕的耳石症,能开车上班吗?

本地新闻

津南好·四时总相宜

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版