创新路
我们一直在努力

一场RAID磁盘受损后raid5数据恢复经历

磁盘告警后一场重启导致raid5数据恢复经历

 

某某IDC业务服务器突然告警,远程了不一会出现卡住,随后便失去联接,无耐通知IDC机房手动硬重启服务器,经机房几次重启后仍无法正常联接,再次联系机房联接显示器观察,发现重启服务器后一直出现以下界面:

图片.png

机房初步判断系统有问题接下来需要自行处理,机房不提供技术支持,于是发工单亲临现在自行处理,大约一个小时后打车来到成都某电信机房,再次重启发现仍然停留上面的画面。接着尝试开机进入RAID查看下RAID及磁盘状态,前些天机房工作人员提过此服务器有磁盘(0号)报警的现象。果不其然,进入RAID配置界面后发现0号磁盘已经FAILD

图片.png

图片.png

尝试断电重新拔插后再次进入发现状态变为REBUILD状态,但是进度一直为零,不一会raid配置出现卡死状态。

图片.png

因为当时没有带有相同型号配置的硬盘无法做替换处理,但是根据raid5两块硬盘正常情况下也能启(经常几轮自动修复系统也无果),说明还存在其它问题,分析是否是硬件上存在(特别是raid卡)问题。于是找了一台业务量较少的服务器关机后把原硬盘取出(注意磁盘顺序一定要按顺序标记好),把故障机上两块确认没问题的硬盘的RAID信息导入(导入成功无异常报错),然后尝试开机启动,但是仍然无法正常引导系统,这样排除了故障机上RAID卡故障(将好的服务器硬盘RAID信息导入故障机也启动正常)

图片.png

Raid损坏应该不算很严重,手里刚好有张安装优盘尝试进去查看磁盘状态,因为当时想的是想办法先把WEB站点数据先导出,以免造成更大损失,用2019安装盘进去加载出的画面如下:

图片.png

diskpart查看磁盘状态如下:状态显示为错误的为RAID5磁盘

图片.png

图片.png

RAID磁盘0CD状态不正常(后来验证这一点)其它盘的数据及状态正常,但是也不敢的操作(理论上重新格式化,再安装系统,调整配置上线服务即可),但是为了安全需要先把数据导出后再进行下一步工作(后来也验证了此RAID自身配置也存在是存在一定的问题)。壮士也为五斗米折腰之时,难为无米之炊,受限于IDC机房,装备不全,只待天亮处理。

 

天亮新硬盘到位后,用新硬盘尝试修复重建RAID5,但是不成功,还是会出现卡死状态,说明RAID组建已经出现问题了(磁盘RAID信息已经无法同步),现在希望的就是能找回需要的部分数据即可,然后重新用新硬盘组建新RAID,转移数据,再上线服务。

回到公司刻录一张带RAID驱动PE引导盘,然后引导进入(见证奇迹的时候到了)

thanks goodness!!! 数据盘都还在,网站数据在在在…

图片.png

赶紧用FASTCOPY拷备数据:

图片.png

数据量有点大,在约复制了10来个小时(网站数据+平时备份数据)当然是先拷网站数据,然后恢复站点服务了。

网站数据大约用时一个多小时。

把新硬盘重新组建RAID5后,分区,安装操作系统,导入站点数据,配置站点,恢复服务。

图片.png

小结:1、不要轻易闪电重启服务器。

           2、磁盘报警信息有时不容小视,软件信息有时会欺骗你。

           3、理清头续再往下一步一步走,这样不易出错,规范化的操作,提升效率。

客官点个赞呗! (0)
分享到:

评论 抢沙发

评论前必须登录!

天府云博 - 做有态度的开发&运维&设计学习分享平台!

联系我们百度云主机