一、故障描述
客户IBM x3650 M5服务器宕机。
重启机器发现无法正常启动,登录IMM查看event log,发现DIMM16报错,初步判断内存损坏。
二、故障处理
1、更换相同型号批次内存,进行内存检查;
2、内存测试正常,机器正常启动,前面板出现黄灯告警;
3、登录IMM查看日志,发现CPU存在降级;
4、初步怀疑是微码问题,于是升级IMM及uefi微码固件版本,重启机器仍存在CPU降级告警日志;
5、检查风扇和电源状态均正常,将电源线拔除,取出全部电源,等待5分钟后重新插入,重启IMM后仍存在CPU降级报警;
6、查看对应CPU、电源型号,满足正常使用条件,判断电源策略存在问题;
7、重启服务器F1 进入bios;
F1 setup -->system settings
操作模式 -->ChooseOperatingMode=自定义模式
F1 setup --> system settings--> 处理器 --> C-States=禁用
处理器 --> 节能 Turbo=禁用
处理器--> Uncore Frequency Scaling=Enable
Power --> Active Energy Manager=Capping Disable
F1 setup -->system settings -->Power --> Platform Controlled Type=Maximum Performance
8、设置完成后,重启机器发现CPU降级消失,机器全部状态正常。
三、经验总结
1、CPU降级情况出现并不意味着CPU损坏,要从多个方面进行判断,如果未经任何操作出现降级情况,优先采取升级固件版本的方式;如有其它操作,可以从电源风扇角度作为优先故障判断条件,因为CPU自身功率需要相对的电源和温度作为支持。
2、本次故障处理通过更改CPU及电源的冗余模式等操作,使CPU获得了最大性能,但这会增加CPU的空闲功率,可在前两个操作均无效的情况下实施。
如欲了解更多,请登录安图特官方网站:www.antute.com.cn