一、故障描述
客户报修HP EVA4400存储硬盘故障,外观显示slot2的位置硬盘故障。工程师准备更换故障硬盘,登录EVA管理控制台时提示controller2(图1)需要注意磁盘组(图2)被标记感叹号,查看日志报错信息,显示controller2 DP1B端口link丢失,默认磁盘组被标记感叹号。更换故障硬盘时,剔除故障硬盘的操作顺利完成,但将新硬盘加到磁盘组时,提示图3报错:
图1
图2
图3
报错信息:页面刷新提示 Operation failed! The target device is not in the right condition to perform the operation
二、故障分析
更换故障硬盘时,EVA 4400存储控制台页面反馈的错误信息说明,当前添加磁盘组的操作不满足条件去执行且不能进行后续磁盘数据盘的leveling操作。存储系统限制人为更换新硬盘添加组的操作,实际上是存储数据均衡机制触发数据一致性及数据安全的保护机制。因为人为操作将新磁盘重新添加回原磁盘组,很可能因controller2 的DP1B链路link丢失而导致数据的leveling操作失败,而且造成存储上的数据内容不一致。因此整套存储设备中同时出现多个故障点时,需结合存储保护机制和具体故障情况,分析故障之间的关联性、延展性、影响范围、风险等级以及故障是否会导致业务数据不一致的情况。
结合上述情况,在存储硬盘损坏1块,同时控制器和I/O模块的连接链路丢失一路,结合存储冗余模式是double还是single(说明:理论上double模式有4块盘的冗余空间应对坏盘,single模式有2块盘的冗余空间应对坏盘)的故障保护机制下,存储系统数据保护策略判断坏盘可以正常剔除,存储自身会将故障盘移动至ungroup disk组,在ungroup disk组里的盘可以正常拔插,不影响存储的使用及数据安全。
另外存储的硬盘更换机制是manual方式,即提示硬盘的物理更换流程是人为操作,存储系统设计之初提出了一个备件更换的操作时间间隙,这个时间间隙在HP EVA4400中被称为disk replacement delay,默认配置阈值是1分钟,因此在更换故障硬盘时,disk replacement delay的时间太长(大于1分钟)或太短(低于15秒),均可能导致存储无法正常识别新硬盘而无法加组。工程师在满足disk replacement delay机制的情况下,通过2次尝试不同位置的硬盘插拔测试,明确了故障并非由更换硬盘的时间间隔引起,亦非磁盘柜插槽问题,而是有其他风险等级更高或故障等级更高的故障需要优先解决。
三、故障解决
经过分析确认了故障原因:是由于控制器DP1B链路丢失,触发了存储系统的数据保护策略,从而限制人为误操作。本次故障处理原理上不能优先更换硬盘,而应先恢复链路;当存储处于正常的链路模式,存储安全策略判断数据及存储得到冗余保护的情况下,便可正常更换硬盘。
如图4、图5显示,DE2磁盘柜的I/O B模块和controller2的DP1B连接的链路出现问题。图4显示Failed,这时不能直观的定性为controller2 DP1B故障或DE2磁盘柜的I/O B模块故障,应从3个角度分析:
a、控制器2故障(模块是集成的)
b、DE2磁盘柜的I/O B模块故障
c、控制器2与DE2磁盘柜的I/O B之间的互联线路松动(该故障可以提前排查)
图4:控制器DP1B状态截图
图5:磁盘柜I/O模块状态截图
经过分析,故障点风险等级排序:
磁盘DE2 I/O B模块故障 = 控制器故障 > 磁盘
根据故障情况,控制器2的DP1B端口链路丢失,而DP1A端口链路正常,从逻辑上看,导致控制器2出现告警的可能性有3种:
a、控制器2自身DP1B端口故障;
b、控制器2连接的磁盘柜DE2的I/O B模块故障;
c、控制器2 DP1B口连接的DE2磁盘柜的 I/O B-IN口上的数据线缆故障。
由于控制器2的DP1B端口指示灯熄灭,DP1B端口又是集成在控制器控制主板上,并非独立的可更换的模块,而DP1A模块显示正常,控制器2损坏的可能性较低。因此控制器2损坏的可能性比I/O模块损坏的可能性低,线缆损坏的可能性最低(第一步需要检查该线缆),由此,本次故障处理中的备件更换顺序如下:
1、控制器2的DP1B口的线缆检查及DE2 I/O B模块的IN口线缆检查(直接手动检查)
2、更换DE2磁盘I/O B模块
3、更换控制器2(备注:若更换I/O模块故障恢复,该步骤省略)
4、更换DE2 SLOT2磁盘
01 更换磁盘I/O模块(Disk Enclosure 2 I/O B)
1、物理移除与disk enclosure2 I/O B模块相连的互连线,并记录或打上标签;
4、将控制器与DE2磁盘柜I/O B模块的互连线插回;5、将控制器完全插入DE2磁盘柜的I/O B插槽里;7、等待1分钟,若控制器B仍未正常识别,需要对控制器B进行重启。登录EVA控制管理台,登录网址:https://192.168.0.1:2372
点击网页窗口Power down or restart system导航菜单,窗口右边页面刷新出现如图6界面:
图6
找到页面中restart a controller导航窗口,该窗口restart按钮后面对应下拉列表选框,选择控制器2,点击restart后,控制器2进入重启过程,等待1分钟,重新刷新EVA控制台页面,查看存储整体状态是否恢复正常,查看控制器2的DP1B口上的Failed标识是否恢复正常;若仍未恢复,则继续执行更换控制器操作,或者执行重启管理模块操作。
02 更换控制器
重启管理模块和控制器后,若控制器的DP1B Link丢失故障现象仍未消除,需要继续更换控制器2:
2、扳动控制器2上的物理锁扣,向外拔出控制器(需要拔掉缓存模块);4、将控制器2连接的DE2磁盘柜的I/OB IN/OUT口上的链路线插回原位置;6、刷新EVA控制器,查看控制器2 Failed故障是否恢复。说明:更换控制器时,可能会遇到点击左边的导航菜单Launch Command View EVA按钮后不能正常进入的情况,此时重启管理模块即可。点击如图7restart the Management Module页面中的restart按钮,等待1分钟左右,刷新当前登录页面,再次进入登录界面。
图7
03 更换硬盘
1、查看物理故障硬盘位置;
2、点击ungroup disks里面的磁盘;
3、核对故障磁盘的物理位置(slot2)和逻辑位置(slot2)是否一致,如图8;
图8
4、点击slot2位置的硬盘窗口,点击remove按钮,将slot2槽位的硬盘移除;
5、物理拔掉DE2 slot2槽位上的故障硬盘;
6、等待15s后插入新硬盘,等待存储识别;
7、新添加的磁盘会再次出现在ungroup disks磁盘组里,点击该磁盘,将其重新添加回原磁盘组(备注:当前存储默认只有一个磁盘组,若磁盘阵列有多个磁盘组,需要将磁盘添加回原磁盘组)。操作如下图:
图9
图10
图11
图12
至此,硬盘更换完毕,数据Leveling中,故障处理完毕。
四、经验总结
1、本次故障是I/O模块B的IN口故障导致了硬盘更换识别故障,需要整体分析故障原因,梳理处理流程,不宜简单机械地进行备件更换。
2、在存储类的硬盘故障修复中,需要结合故障现象综合判断,进行故障定性分析,不宜急于单点的故障修复。
如欲了解更多,请登录安图特官方网站:www.antute.com.cn