一、背景描述
客户报修一台NS480出现故障,Control Station无法访问,直连Block端访问正常,NAS功能未受影响。工程师到达现场检查发现,设备无故障灯,对CS进行重启,通过串口输出发现无启动项,判断为硬盘故障。在更换硬盘、恢复系统过程中,发生了一些突发状况。
二、故障处理
1、系统恢复过程中,配置CS的IP信息及Domain信息时,无法通过验证,导致恢复无法进行。
中断恢复,登录到CS系统中查看hosts文件及网络情况,均无异常;尝试重建Domain也未能解决问题;重启K10等底层服务仍未见成效。与客户协商后,决定分别对两个控制器进行重启操作。重启后,验证通过,系统恢复得以继续进行。
2、恢复过程出现下图所示报错,分析是由于control lun不在目标位置,使得恢复无法继续,需将lun进行trespass:
中断恢复,登录CS系统,通过命令t2tty进行查询及配置,该命令位于/nasmcd/sbin下,如果没有该目录可从/tftpboot/bin下执行。通过命令t2tty -C 2 “camshowconfig”查询lun的情况:
可以看到Lun0和Lun1不在chain0 and target 0,对Lun0和Lun1进行trespass。
执行命令t2tty -C 2 “camtrespass c0t0l0”、 t2tty -C 2 “camtrespass c0t0l1”:
再次执行t2tty -C 2 “camshowconfig”,luns(0-5)均正常:
3.系统恢复完成后,外部可访问CS的地址,但却无法访问SPA、SPB的地址。
登录CS查看路由配置,未发现问题,Proxy-ARP运行状态亦正常:
分析该问题是由于内部网络出现问题,通过命令clariion_mgmt命令对SP的地址进行一次重置后即解决。
切换到root用户,执行命令/nas/sbin/clariion_mgmt -stop
命令完成后,执行命令/nas/sbin/clariion_mgmt -start
完成后,查看Proxy-ARP运行状态,确认CS、SPA、SPB地址均无访问异常。
四、经验总结
1、对于EMC Unifid设备,应及时收集support_materials日志,以备不时之需。该日志的收集方法为在CS上用root用户执行/nas/tools/collect_support_materials;
2、由于CS系统在单盘的环境下运行,没有冗余,存在故障风险,建议对整套系统做备份;
3、虽然CS故障不会导致配置的丢失,但home目录下文件易丢失,应提醒客户做好备份。
如欲了解更多,请登录安图特官方网站:www.antute.com.cn