前言
众所周知,我们硬盘吧评测室人均都有几块机械硬盘几块固态硬盘几套NAS,而硬盘这种东西,用得越多,坏得越多,坏得越多,用得越少,所以用得越多,用得越少。这次坏的就是工作室里的一套NAS硬盘。
过程
事情是这样的。工作室里有一台我组装的NAS服务器。这套服务器从2021年4月疫情的时候开始搭建,因为快递、内存涨价等一系列问题,最终快到2021年10月份才开始正式使用。当然,其实这个NAS早在20年底就想搭建了……欠下的债就不细说了。
当时工作室还有一台老NAS服务器,用的是Windows NAS。从实际体验来看,Windows NAS对机械硬盘组阵列非常不友好。200M/s读写速度的硬盘4个软Raid0速度都没法突破500M/s,因此只能转投其他系统,思来想去就用了TrueNAS。于是,这台NAS便由8块16T机械硬盘+Intel 750 800G+96G RECC搭建了起来。
熟悉TrueNAS的粉丝们都知道,这个系统常用的Raid格式是RaidZ1/RaidZ2。但是RaidZ对硬盘的读写负荷比较大,因此大内存+SSD缓存是一个很好的缓解方式。但缓解归缓解,终究是无法避免数据会损坏。
于是,真的损坏了。而且很不幸的是,这次损坏是非常早的,最早再2023年就有了警报。但是因为当时TrueNAS不支持RTL8125和X540两张2.5G和万兆网卡,所以我们一直用千兆连接着这个明明有很多性能却没处释放的NAS。更没察觉到其实已经有坏盘。
但也不得不说RaidZ2很强,直到今年9月重建以前,一直用着坏的镜像到今天。而且检查之后基本上没有数据损坏。于是这两块坏的硬盘终于拆下来开始检测。
老生常谈的变废为宝(ICU急救)
机械硬盘坏道这个事情,组机械硬盘NAS的朋友再熟悉不过了。那首先有一件事要说明的是,一旦SMART开始提示警告,无论你用什么方法进行了修复,即使后续显示了正常,都要记住,备份!备份!一定要备份!
损坏的两块硬盘也分了情况,一个是红标一个是黄标。黄标的05(代表损坏扇区替换次数,只会增加不会减少)已经到99了,同时C5和C6(代表了检测到的损坏扇区数量,可以减少)也有明显增加。而另一块则惨了,05显示1,也就是说能替换的区域已经全部用完了。C5和C6更不用说了。
经典的科普时间
什么是坏道?
这个我想不用多说了,就是机械硬盘中无法读取的扇区,相当于是读不了数据的地方。通常坏道有逻辑坏道和机械坏道,逻辑坏道一般只是软件性的坏道,比如写错了数据之类的,机械坏道则是物理损坏,比如读写的时候震动,磁头划伤盘面,这种伤害一般是大面积的。
(扫盘时一大片区域红了基本是物理的)
05,C5,C6是什么?
通俗的来说,他们代表了一块机械硬盘损坏扇区的统计数据,05是累计值,当硬盘出现了05增加,代表了出现过无法读取的扇区,而启用了备用扇区。当硬盘无法读写这个区域,无论是逻辑还是物理,都会触发这个数值的增加。而C5和C6,则是统计这些触发的次数的数值。它代表了当前的不能读取扇区的情况。如果后续又能读取了,那么这个数值就会被消掉。
坏道到底会不会扩散?
谈到坏道,很多人都说坏道实际上会扩散。其实这个说法对,也不对。对的地方在于,如果坏道是物理坏道,因为盘面出现划痕,不可避免可能有碎屑附着在盘面上,而机械硬盘的磁头并不是真的悬浮在盘面上,而是通过旋转的盘面形成的空气薄膜把磁头撑起来。所以当盘面静止时,磁头是会落在盘面上的。当出现物理坏道,盘面达不到一致性,确实会有概率进一步划伤盘面,扩大损伤面积。
而逻辑坏道同理,如果逻辑坏道存在与扇区与扇区之间,那么这种位移就会像滚雪球一样不断扩散,直到遇到一个正常的数据为止。物理坏道和逻辑坏道往往是同时发生的,而逻辑坏道基本不会导致物理坏道。
不对的地方在于,物理坏道只要不读,就不会扩散,逻辑坏道本身就是可修复的,所以再怎么扩散,都可能会被纠正。
怎么修复?
很多人喜欢用一些工具(比如DiskGenius)先检测,后修复的方式修复硬盘。那正如上面所说,物理只能隔离,逻辑才能修复。对于一块有问题的硬盘,第一步不是检测,而是光速进行数据备份,能救多少数据就救多少数据。而如果不巧的是物理坏道,说不定就会像上图一样各种东非大裂谷,坏更多的数据。
假设所有数据的拯救到位了,那么不用等了,记下此时的05数据。直接低格硬盘。运气好的话,十几个小时完成,如果此时C5和C6完全消失,只剩05,并且后续没有增加,那么恭喜你,只是一些逻辑坏道(也可能有物理,但是很小一部分)。
但是如果低格了8天还完成不了,后续提示需要20天完成,那么恭喜你,这块硬盘就走到尽头了(↓)。
(要不是中间停电可能我真的让他跑下去)
谈谈我的操作导致的后果
这是两块硬盘从到手,到最终的结果。其实可以看到,刚开始这两块硬盘到我手上时候,红标的盘其实还有60多的05值,也就是说坏道有点多,但也不多。黄标盘就好多了。
此时我做了一个错误的操作就是,急急忙忙火速用DiskGenius扫描坏道。其实两块硬盘无论最终是逻辑还是物理坏道,光速扫盘的结果都会是让两块硬盘的05急速增加。只不过红标盘更严重一点。于是一顿操作下,红盘05直接爆炸,而一旦备份扇区用完了,机械硬盘就会彻底乱套,因为他已经不知道往哪写备份数据了。
等到扫盘彻底走不下去之后,我才暂停然后用低格修复。此时可以看到红盘的05从原来的1重新提升到3,而黄盘回到了100。但可惜的是,红盘已经彻底损坏了,大量的物理坏道加上两次频繁读写彻底损坏了所有的备份区。于是现在这块硬盘除了能读取到,读写几KB基本都是分钟为单位。
其实回过头来看,这块红盘并不是完全没法救,因为从命令超时来看,虽然刚开始经常无响应,但是至少还是可控的状态,直到最后05彻底爆炸,盘才没救。
而C5也说明了,当一切都不可挽回的时候,怎么扫都没救了。
硬盘的去处
红盘毫无疑问只有报废处理了,而黄盘,虽然05不再增加,但是可靠性基本不可确定了。拿去当BT硬盘不错。反正只能去养老类型的应用,走完余生了。
给各位硬盘宝宝的祝福
当然我也是希望各位粉丝的NAS里的硬盘,或者一直在柜桶里的硬盘能健健康康。我想通过我这次应对故障的硬盘的经历给各位粉丝做个警醒,当然如果一坏就换新的,有一套一直互相备份的当我没说。硬盘有价,数据无价,勤备份,多留意,只要使用环境正常,用上几万小时的硬盘也能正常工作。而我手上一块最年长的硬盘还是一块2.5寸的SMR 4T移动硬盘!
所以说,只要各位想保存好,你的大姐姐们一定能一直陪伴你的。希望各位硬盘宝宝们永不爆破!
买电脑讨论群:386615430
电脑吧评测室二手群:829132489
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.