EN 联系我们加入我们
典型案例
您现在的位置:首页 > 典型案例
【案例分享】IBM P780 VRM故障处理方案



一、故障背景


设备型号:IBM P780 9179-MHD 

安图特接到IBM P780小型机故障报修,工程师远程诊断后,推断是稳压模块故障。进行更换后,小型机开机,但资源缺少,造成部署在此小型机的部分业务系统不能运行。经过现场排查,确认是小型机FSP模块故障。更换FSP卡后小型机启动成功,资源正常识别无报错,业务恢复正常。


二、故障处理


1、客户监控发现小型机告警,工程师远程诊断发现设备HMC控制台有告警信息,从告警信息判断出设备的稳压模块故障,工程师按照报错信息PN:00E6371申请备件:

image001.png

2、工程师到达现场后,进行了备份分区信息、关闭分区、设备下电等一系列操作后,更换稳压模块。更换完成后在HMC控制管理台上发现设备未连接,同时管理地址也ping不同,设备无法加电:

image007.png


该P780是双机头、双FSP模块,可通过下面的机头来管理整台设备,由小型机的前面板获取连接地址,HMC控制管理台成功与P780连接。对设备加电后,第一个机头不能加电,第二个机头正常运行,导致CPU和内存配置减少一半,分区不能正常运行,怀疑是由于更换VRM时未插紧或者互联线未正常连接。

VRM更换完成后,对设备加电,第一个机头仍不能供电,在HMC控制管理台和ASM上未看到硬件报错。再次对设备下电,将第一个机头的系统背板笼子与第二个机头的系统背板笼子对调,测试是否是笼子问题。经过排查,第一个机头仍不能加电,系统背板笼子正常,在处理过程中,FSP卡不亮灯且无反应。此时在ASM管理界面也看到FSP报错。

image009.png


将2个机头的FSP卡互换位置后加电,第一个机头正常运行,第二个机头无反应,故判断FSP卡故障导致设备不能加电。

注意:P780下电更换备件,极易造成FSP模块同时损坏,在处理类似故障时,根据情况最好提前准备FSP模块。更换FSP模块时,微码需和现有设备保持一致。

image012.png


3、关闭分区,对设备下电后更换FSP模块,设备重新加电后小型机可正常运行,起VIOS和VIOC,备份分区配置信息等待客户验证。验证完成,故障处理完毕。


三、经验总结


1、申请备件时要保证备件的具体型号与故障备件一致。本次案例中P780有2种类型VRM,处理故障前需仔细确认;

2、小型机下电更换备件时,务必备份分区信息,防止信息丢失;

3、P780下电更换备件容易造成FSP模块故障,在处理类似故障前,需根据实际情况,提前准备FSP模块。如需更换FSP模块,须与现有FSP模块微码保持一致。

 

 如欲了解更多,请登录安图特官方网站:www.antute.com.cn

版权所有 安图特(北京)科技有限公司 备案号:京ICP备17074963号-1
技术支持:创世网络