一、故障描述
某客户核心生产存储由两台HDS G200搭建GAD双活。机房突发掉电,所有设备宕机,电力恢复后,紧急恢复单台G200对外提供服务(某服务商操作),且客户不知哪台G200对外提供服务。现在客户需要恢复存储GAD双活。
二、故障分析
1、GAD架构
2、检查事项
根据GAD架构,检查现网环境。
检查Primary和Secondary存储之间的链路。
检查Primary和Secondary存储与External存储之间的链路。
检查主机到Primary和Secondary存储的链路。
由存储交换机和主机端确认,以上链路均正常。
3、确认目前提供服务的存储
开启Primary存储端口监控,查看流量统计。
开启Secondary存储端口监控,查看流量统计。
综上:目前对外提供业务的存储为Primary。
4、GAD状态
登陆CCI管理端,检查GAD现状,执行如下命令:
pairdisplay -g ORA_GAD -fxce -IH100
Primary存储端P-VOL处于SMPL状态,Secondary存储端S-VOL处于PSUE状态。
SMPL:The volume is not paired.
PSUE:The pair was suspended due to a failure.
三、故障解决
基于上述分析,链路状态正常。确认Primary对外提供服务,GAD目前处于运行状态,满足恢复GAD双活的配置。
1、Secondary端强制删除Pair
删除ORA_GAD_00至ORA_GAD_07,示例如下:
pairsplit -g ORA_GAD -d ORA_GAD_00 -RF -IH200
2、检查P-VOL和S-VOL状态
P-VOL LDEV显示正常,S-VOL VIR_LDEV为ffff,如下所示,均为正常状态。
3、检查Pair状态
P-VOL和S-VOL状态均为SMPL。
4、重建Pair,恢复双活
paircreate -g ORA_GAD -f never -vl -jq 0 -IH100
注意:该创建命令需从Primary存储端,即对外提供业务存储端执行,相反则会造成存储同步错误,数据丢失。
检查状态:
以上可知:数据开始同步,状态恢复正常,为PAIR。
5、主机链路检查
同步完成后,主机扫描识别,验证链路增加一倍。
四、经验总结
当GAD故障发生时,切忌盲目操作。需要理清现网架构,确认对外提供服务的存储。明确目前Pair状态,当需要同步或者重建时,一定要谨慎小心,切勿反向同步,否则会造成数据错乱,丢失。
如欲了解更多,请登录安图特官方网站:www.antute.com.cn