一、故障背景
设备型号:IBM P780 9179-MHD
安图特接到IBM P780小型机故障报修,工程师远程诊断后,推断是稳压模块故障。进行更换后,小型机开机,但资源缺少,造成部署在此小型机的部分业务系统不能运行。经过现场排查,确认是小型机FSP模块故障。更换FSP卡后小型机启动成功,资源正常识别无报错,业务恢复正常。
二、故障处理
1、客户监控发现小型机告警,工程师远程诊断发现设备HMC控制台有告警信息,从告警信息判断出设备的稳压模块故障,工程师按照报错信息PN:00E6371申请备件:
2、工程师到达现场后,进行了备份分区信息、关闭分区、设备下电等一系列操作后,更换稳压模块。更换完成后在HMC控制管理台上发现设备未连接,同时管理地址也ping不同,设备无法加电:
该P780是双机头、双FSP模块,可通过下面的机头来管理整台设备,由小型机的前面板获取连接地址,HMC控制管理台成功与P780连接。对设备加电后,第一个机头不能加电,第二个机头正常运行,导致CPU和内存配置减少一半,分区不能正常运行,怀疑是由于更换VRM时未插紧或者互联线未正常连接。
VRM更换完成后,对设备加电,第一个机头仍不能供电,在HMC控制管理台和ASM上未看到硬件报错。再次对设备下电,将第一个机头的系统背板笼子与第二个机头的系统背板笼子对调,测试是否是笼子问题。经过排查,第一个机头仍不能加电,系统背板笼子正常,在处理过程中,FSP卡不亮灯且无反应。此时在ASM管理界面也看到FSP报错。
将2个机头的FSP卡互换位置后加电,第一个机头正常运行,第二个机头无反应,故判断FSP卡故障导致设备不能加电。
注意:P780下电更换备件,极易造成FSP模块同时损坏,在处理类似故障时,根据情况最好提前准备FSP模块。更换FSP模块时,微码需和现有设备保持一致。
3、关闭分区,对设备下电后更换FSP模块,设备重新加电后小型机可正常运行,起VIOS和VIOC,备份分区配置信息等待客户验证。验证完成,故障处理完毕。
三、经验总结
1、申请备件时要保证备件的具体型号与故障备件一致。本次案例中P780有2种类型VRM,处理故障前需仔细确认;
2、小型机下电更换备件时,务必备份分区信息,防止信息丢失;
3、P780下电更换备件容易造成FSP模块故障,在处理类似故障前,需根据实际情况,提前准备FSP模块。如需更换FSP模块,须与现有FSP模块微码保持一致。
如欲了解更多,请登录安图特官方网站:www.antute.com.cn