一、故障描述
客户IBM x3650 M5服务器宕机。
重启机器发现无法正常启动,登录IMM查看event log,发现DIMM16报错,初步判断内存损坏。
![1653464960101169.jpg image001.jpg](/data/upload/image/20220525/1653464960101169.jpg)
二、故障处理
1、更换相同型号批次内存,进行内存检查;
![1653465040884216.jpg image003.jpg](/data/upload/image/20220525/1653465040884216.jpg)
2、内存测试正常,机器正常启动,前面板出现黄灯告警;
3、登录IMM查看日志,发现CPU存在降级;
![1653465132755654.jpg image005.jpg](/data/upload/image/20220525/1653465132755654.jpg)
![1653465143843240.jpg image007.jpg](/data/upload/image/20220525/1653465143843240.jpg)
4、初步怀疑是微码问题,于是升级IMM及uefi微码固件版本,重启机器仍存在CPU降级告警日志;
![1653465177295758.jpg image009.jpg](/data/upload/image/20220525/1653465177295758.jpg)
![1653465189815338.jpg image011.jpg](/data/upload/image/20220525/1653465189815338.jpg)
5、检查风扇和电源状态均正常,将电源线拔除,取出全部电源,等待5分钟后重新插入,重启IMM后仍存在CPU降级报警;
![1653465295287919.png image013.png](/data/upload/image/20220525/1653465295287919.png)
6、查看对应CPU、电源型号,满足正常使用条件,判断电源策略存在问题;
![1653465325688037.jpg image015.jpg](/data/upload/image/20220525/1653465325688037.jpg)
![1653465649862412.jpg image017.jpg](/data/upload/image/20220525/1653465649862412.jpg)
7、重启服务器F1 进入bios;
F1 setup -->system settings
操作模式 -->ChooseOperatingMode=自定义模式
F1 setup --> system settings--> 处理器 --> C-States=禁用
处理器 --> 节能 Turbo=禁用
处理器--> Uncore Frequency Scaling=Enable
Power --> Active Energy Manager=Capping Disable
F1 setup -->system settings -->Power --> Platform Controlled Type=Maximum Performance
8、设置完成后,重启机器发现CPU降级消失,机器全部状态正常。
三、经验总结
1、CPU降级情况出现并不意味着CPU损坏,要从多个方面进行判断,如果未经任何操作出现降级情况,优先采取升级固件版本的方式;如有其它操作,可以从电源风扇角度作为优先故障判断条件,因为CPU自身功率需要相对的电源和温度作为支持。
2、本次故障处理通过更改CPU及电源的冗余模式等操作,使CPU获得了最大性能,但这会增加CPU的空闲功率,可在前两个操作均无效的情况下实施。
如欲了解更多,请登录安图特官方网站:www.antute.com.cn