EN 联系我们加入我们
典型案例
您现在的位置:首页 > 典型案例
【案例分享】V7000unified存储故障处理实操



安图特客户一台IBM V7000 unified存储离线升级微码,微码升级在从机头进行,重启之后存储告警降级。


一、现象描述


IBM storwize v7000 unified 升级微码失败,V7000unified 存储降级。

登陆node2 ,在node2上执行操作

1、微码当前版本及最新版本信息如下:

1.jpg

2、微码升级过渡版本如下:

2.webp.jpg

3、升级到过渡版本一(1.5.0.6-4)
执行升级前检查,执行test utility工具,提示升级错误。更换补丁包 
4、安装微码
执行升级前检查(大约1小时),如下报错:

3.jpg


上传补丁包(时间约2小时):

4.jpg


安装微码:

5.jpg


安装报错,提示补丁包无效:

6.jpg


存储降级:

7.jpg

8.jpg


查看发现node2于主控制柜(control enclusure)链接状态为down;
Node1 光纤线链路显示为断开:

9.jpg


二、处理过程


1、由于存储降级,开始修复相关硬件错误

2、重启机头(node1、node2),重启命令执行失败,

对故障执行fix流程,进行node重启,发现软件中无法进行该操作(restart没有反应)。

3、冷启动机头,故障依旧

4、再次执行fix流程,进行故障修复

5、Node2重启之后,链路全部UP恢复正常。之后重启node1链路恢复正常。

存储硬件恢复正常。

6、处理系统中关于filesystem的报错,其中ADDOMIN无法mount.

7、由于停机时间窗口已到,征得客户同意后,暂时停止操作,启动业务。

8、后续通过存储替代方案进行业务保证,业务迁移到替代存储上

9、执行文件修复命令(mmchkfs),并且进行挂载 .

10、启动GPFS文件系统,修复GPFS cluster文件系统无法正常在NODE2上启动的问题

11、经底层问题定位,修复CIMSERVER 报错问题

12、设备运行正常,且之前反应的运行慢等问题都得到了解决,也就是说无需升级微码即解决了问题。


三、经验总结


1、在允许的情况下,升级微码之前重启设备,确定硬件本身没有问题

2、尽量选择影响小的方式进行操作,本次选择离线升级亦是考虑到对业务影响而定

3、V7000unified统一存储,不同于V7000标准存储,它的市场占有率较低,相关技术资源较少。所以再升级之前需要有详尽的升级方案及相关资源准备。

4、在操作过程中,会出现各种各样的意外,在申请停机时间上,需要考虑到处理故障时间。


如欲了解更多,请登录安图特官方网站:www.antute.com.cn

版权所有 安图特(北京)科技有限公司 备案号:京ICP备17074963号-1
技术支持:创世网络