安图特客户一台IBM V7000 unified存储离线升级微码,微码升级在从机头进行,重启之后存储告警降级。
一、现象描述
IBM storwize v7000 unified 升级微码失败,V7000unified 存储降级。
登陆node2 ,在node2上执行操作
1、微码当前版本及最新版本信息如下:
2、微码升级过渡版本如下:
3、升级到过渡版本一(1.5.0.6-4)
执行升级前检查,执行test utility工具,提示升级错误。更换补丁包
4、安装微码
执行升级前检查(大约1小时),如下报错:
上传补丁包(时间约2小时):
安装微码:
安装报错,提示补丁包无效:
存储降级:
查看发现node2于主控制柜(control enclusure)链接状态为down;
Node1 光纤线链路显示为断开:
二、处理过程
1、由于存储降级,开始修复相关硬件错误
2、重启机头(node1、node2),重启命令执行失败,
对故障执行fix流程,进行node重启,发现软件中无法进行该操作(restart没有反应)。
3、冷启动机头,故障依旧
4、再次执行fix流程,进行故障修复
5、Node2重启之后,链路全部UP恢复正常。之后重启node1链路恢复正常。
存储硬件恢复正常。
6、处理系统中关于filesystem的报错,其中ADDOMIN无法mount.
7、由于停机时间窗口已到,征得客户同意后,暂时停止操作,启动业务。
8、后续通过存储替代方案进行业务保证,业务迁移到替代存储上
9、执行文件修复命令(mmchkfs),并且进行挂载 .
10、启动GPFS文件系统,修复GPFS cluster文件系统无法正常在NODE2上启动的问题
11、经底层问题定位,修复CIMSERVER 报错问题
12、设备运行正常,且之前反应的运行慢等问题都得到了解决,也就是说无需升级微码即解决了问题。
三、经验总结
1、在允许的情况下,升级微码之前重启设备,确定硬件本身没有问题
2、尽量选择影响小的方式进行操作,本次选择离线升级亦是考虑到对业务影响而定
3、V7000unified统一存储,不同于V7000标准存储,它的市场占有率较低,相关技术资源较少。所以再升级之前需要有详尽的升级方案及相关资源准备。
4、在操作过程中,会出现各种各样的意外,在申请停机时间上,需要考虑到处理故障时间。
如欲了解更多,请登录安图特官方网站:www.antute.com.cn