一、故障背景
某客户想利旧使用华为 RH5885H V3设备
二、故障描述
加电检查,设备风扇3的状态为LED红灯告警,风扇不转,iMana显示fault status,重新插拔故障依旧,申请风扇备件更换。
三、初步处理
第一次更换风扇3,故障依旧;怀疑更换的备件有问题,用状态健康的风扇4交叉测试,风扇4在风扇3槽位,状态LED亮红灯,风扇不转;风扇3在风扇4槽位,状态LED亮红灯,风扇不转;还原风扇3、4,状态LED都亮红灯,风扇不转,都变为故障状态,iMana显示如下:
怀疑是风扇背板出现问题,申请风扇背板更换。
第二次更换硬盘背板,故障依旧;交叉健康风扇2,5测试,故障扩散,设备风扇2,3,4,5都为故障状态,风扇状态LED亮红灯,iMana显示如下:
之后又更换过硬盘背板(再次)、风扇(再次)信号线、主板、BMC卡,进行最小化测试后,故障仍然存在。
四、故障分析
服务器 RH5885 V3 /RH5885H V3 风扇监控管理机制中,风扇模块是通过硬盘背板连接到整机的。结构图如下:
物理接线(连接器):包括12V供电(由风扇检测在位后打开)、风扇在位检测(背板CPLD检测在位)、转速控制信号 (背板的CPLD控制) 、转速检测信号 (背板的CPLD检测)。
信号线缆:硬盘背板的CPLD通过信号线缆来实现同主板的信号通讯,来传递硬盘在位、风扇在位、风扇转速监控、风扇转速控制等。
从上图来看,风扇控制链路涉及:ibmc软件 — 主板(CPLD) — 信号缆 — 硬盘背板 — 风扇模块。
我们有交叉测试链路上所有相关备件,但故障仍然没有解决,只有在交叉测试风扇时,发现故障有扩散,所以怀疑可能是风扇和背板上的连接器有互损,即风扇故障会导致背板连接器损坏,损坏的连接器会导致风扇损坏。
定位到风扇和背板上的连接器有互损后,联系超聚变售后支持,得到确认。
五、故障处理
更换硬盘背板(即风扇背板)和所有故障风扇,故障解决。
六、经验总结
一般性风扇故障处理思路:
a.故障跟随风扇模块发生,更换风扇模块;
b.故障跟随槽位发生,更换硬盘背板;
c.故障扩散到原先健康的槽位,同时更换硬盘背板和风扇模块 (故障风扇模块都需要更换)。
但是,对于华为 RH5885H V3服务器,此次遇到的是有2台该型号服务器出现了坏风扇导致风扇连接器损坏现象,建议以后在处理华为的4路服务器风扇故障时,停机更换故障风扇和硬盘背板。
如欲了解更多,请登录安图特官方网站:www.antute.com.cn