作为企业IT运维的“老黄牛”,服务器的稳定运行直接关乎业务连续性。
上周我们就收到一台同行送过来的华为鲲鹏920服务器,客户描述为突发启动故障。
今天就把整个排查过程复盘分享,旨在抛砖引玉,建议收藏备用~
![]()
一、突发故障:核心服务器突然“罢工”
客户发现部署的算力服务器无法连接,赶到机房后发现服务器开机屏幕停留在“尝试从网卡引导”的提示界面,反复重启后问题依旧。
二、初步排查:锁定“启动设备识别”核心问题
收到同行送来的服务器后,我司技术人员进行了简单的沟通和交流,然后上电,开始最基本的检测。
开机后,自检阶段未出现阵列卡型号和自检提示,说明阵列卡未完成基础自检;
然后屏幕提示“无引导设备”,然后开始反复尝试从网卡引导,当然不可能引导成功。
这台鲲鹏920服务器配置了独立阵列卡,所有硬盘均连接至阵列卡,作为系统和数据存储的载体。
于是,进入BIOS,遗憾的是,阵列卡未被识别。
如果阵列卡无法正常工作,自然无法识别到由其管理的硬盘,进而导致服务器找不到启动设备。
关闭服务器电源,打开机盖,拆下阵列卡观察,并未发现异常,于是擦拭金手指后,换了个PCIe插槽,但仍未被正确识别,排除插槽故障。
三、深入定位:阵列卡“隐身”是关键
在BIOS界面反复查找无果后,发现有一项叫做“有些驱动程序不健康”,在里面找到了阵列卡。
![]()
尝试修复操作,并重启后,BIOS能正确识别到阵列卡型号,也能识别到硬盘了。
![]()
但此时服务器有红灯告警,系统无法引导。
登录iBMC带外管理,发现有阵列卡告警信息。
四、尝试修复:既然BIOS操作无效,那更换就是唯一出路
由于硬件尚在质保期内,于是我司技术人员联系了宝德售后,虽然是鲲鹏920服务器,但是经查询,售后服务由宝德负责。
工程师远程确认故障后,以航空件的方式,发来了同型号的阵列卡。
更换过程很顺利:关闭服务器电源后,取下故障阵列卡,将新阵列卡插入PCIe插槽并固定,重新连接硬盘数据线。
![]()
五、故障解决:更换阵列卡后恢复正常
更换阵列卡后,我们重新开机,自检阶段顺利显示阵列卡型号和RAID阵列信息。进入BIOS后,“存储设备”栏成功识别到阵列卡,启动项中“阵列卡引导”也显示“可用设备”。
将硬盘里面的阵列信息导入到新的阵列卡后,设置为阵列卡为首选启动项,然后服务器顺利进入操作系系统。
此时联系客户,准备进入系统检查数据,结果被告知,root密码忘记了,于是又为客户重置了root密码,这才得以进入系统,好在客户还是幸运的,经查看,数据未丢失。
![]()
六、运维反思:3点经验避坑指南
这次故障排查虽然最终顺利解决,但也给我们敲响了警钟。结合此次经历,总结3点运维经验:
这次故障排查虽顺利解决,但也给客户敲响了警钟。结合经历总结3点核心运维经验,发给同行及客户:
核心备件必储备:承载核心业务的服务器,阵列卡、电源模块等关键硬件必须备足备件,避免因等待备件延长宕机时间;
硬件巡检不松懈:除软件监控外,每月用官方诊断工具做一次硬件深度巡检,重点检测阵列卡、硬盘的健康状态,提前发现老化隐患;
排查逻辑要清晰:遵循“先基础后核心、先软件后硬件”原则,逐步缩小范围,避免盲目操作造成二次故障。
日常运维重在备份:数据无价,本次算是幸运,数据未丢失,但是如果还是不注重备份,迟早有一天会破防后悔。
互动时间:你在运维中遇到过哪些“诡异”的服务器故障?排查时踩过什么坑?欢迎在评论区分享,一起交流避坑技巧~
服务器运维容不得半点马虎,每一次故障都是一次经验积累。如果大家有类似的排查经历,欢迎在评论区分享交流,一起提升运维能力~
觉得这篇排查干货有用的话,记得 点赞+在看+收藏,转发给团队里的运维伙伴,一起提升故障处理效率~
关注我们,后续还会分享更多服务器运维、故障排查的实战技巧!
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.