EN 联系我们加入我们
典型案例
您现在的位置:首页 > 典型案例
【案例分享】IBM XIV存储节点失效故障处理案例



一、故障背景


某客户IBM XIV存储一个interface类型节点失效,导致整个存储数据进行重新分布。



二、故障描述



IBM XIV存储一个Interface类型节点失效,节点中的12块硬盘模块状态全部不可用,且通过管理软件无法获取节点的硬件状态(包括风扇、电源等)。

相关故障现象截图如下:

image001.png


image003.png


进一步查证故障原因发现,涉及此节点相关的故障信息时间点为同一时刻,数据服务状态与节点状态均为Failed。


相关故障事件截图如下:

image005.png



三、故障处理


IBM XIV存储每个节点采用的是通用x86服务器硬件架构,节点后端预留VGA接口,通过VGA接口连接显示器。但接上USB键盘,并没有显示输出。

1、尝试重启节点

由于显示器没有显示任何输出,通过节点前面板电源键按钮,强制关机并重新开机,仍无输出,工程师初步判断节点模块硬件损坏。


2、更换节点硬件

将节点模块下电,移除节点后端Flash卡、电源模块和连接线缆,移除节点前端12块物理硬盘模块,将节点模块下架;

上架新节点模块,恢复此前移除的硬盘模块、Flash卡、电源模块和连接线缆;

重新开机,此时显示器有信息输入,最终显示器出现Login登录字样,表示节点模块底层系统已经完全启动成功。

3、测试与初始化

在管理软件中,对目标节点模块进行Test操作,使XIV系统识别新的节点模块。模块6硬件处理初始化的过程及状态变更信息如下:

image007.png


初始化成功后,变为Ready状态,变更信息如下:

image009.png


image011.png


识别到节点模块,12块硬盘及节点模块状态就绪,变更信息如下:

image013.png


4、开始阶段采用

节点模块状态为Ready,对其进行阶段采用操作,进行阶段采用操作后,整个XIV存储数据将进行重新分布。变更信息如下:

image015.png


经过一段时间的数据重新分布,最终XIV存储状态恢复正常,数据完全冗余,变更信息如下:

image017.png



四、故障总结


IBM XIV存储整个节点模块完全坏死的情况比较少见,首先需要确定故障节点模块并未逻辑假死,再进行下一步的更换处理。这里需要注意的是,在更换处理时,XIV的节点模块不能更换Flash卡,且不需强制更换硬盘模块、电源模块。最终节点模块状态就绪可用,直到阶段采用数据重新分布完全冗余后,方能确认故障完全解决。


如欲了解更多,请登录安图特官方网站:www.antute.com.cn

版权所有 安图特(北京)科技有限公司 备案号:京ICP备17074963号-1
技术支持:创世网络