一、故障场景
客 户:某银行
系统版本:SuSE 12SP5
内核版本:4.12.14-122.91-default
设备环境:虚拟机
二、故障现象
接到客户电话,告知一台Linux系统频繁重启。我方工程师登录查看,发现日志中有大量的OOM,内存溢出告警。每次重启后,不启动任何应用程序,主机内存很快被用满,同时其余客户端使用sftp传输数据,经常因内存溢出而失败,影响业务。
三、故障收集
2. 系统资源使用情况
经过与客户沟通,PotralAgent是常规进程,其他机器也有此进程,资源使用并无异常,可以看到主机配置了8G内存,已经所剩无几,同时swap也有一部分被使用,说明内存资源紧张。
3. 内存使用分析
4. 查看系统配置
四、故障分析
通过messages信息来看,系统由于内存不足触发OOM机制,kill进程释放内存。
主机内存为8G内存,通过系统命令top的输出看到系统内存所剩无几,同时swap也使用了一部分,说明此时系统内存资源紧张。
通过重启前后的/proc/meminfo信息对比查看可知,内存超分严重不足,未开启THP,每个页大小为2M,实际运行中分配了3559个大页。
通过内核参数可知,系统配置了5120个大页。