一、故障背景
安图特接到大连某客户报修AIX主机应用访问缓慢,工程师随即到达现场进行处理,经排查后得到初步结果,存储、交换机、主机以及链路并无明显故障。后进行深入排查,发现主机端powerpath多路径软件进程CPU占用率非常高,导致CPU 100% busy,从而造成应用访问缓慢。
现场工程师立即咨询了二线工程师,得知此问题在powerpath 5.5属于常见问题,如出现可对其执行kill操作,并不会造成任何影响后,现场工程师开始对powerpath进行操作。
具体如下:
在IBM AIX上运行Powerpath 5.5时, PowerPath xcryptd进程时常会在AIX主机消耗大量的CPU 和内存资源。
PID %CPU ResSize Char Command10682438 63.6 263676 0 [emcp_xcrypt]
二、故障处理
1、杀死在运行的emcp_xcrypt进程.用kill -9 <pid no. >
2、为防止系统重启动后这个进程再回来, 编辑文件 /etc/PowerPathExtensions , 这个文件包含:
mpxext:cfgmpx
gpxext
dmext:cfgdm
vlumdext:cfgvlumd
xcryptext:cfgxcrypt
3、我们要将“vlumdext:cfgvlumd”与“xcryptext:cfgxcrypt” 进行删除。
4、从/etc/inittab文件中删除 “rcxcrypt:2:wait:/etc/rc.emcp_xcryptd xcrypt_rc >/dev/null 2>&1”并保存文件。
PS: 客户往往比较在意的是emcp_xcr和emcp_xcrypt是否为同一进程以及什么时候显示为emcp_xcr,什么时候显示为emcp_xcrypt。 其实,这个问题和AIX服务器上不同的命令来显示进程名字有关。比如:ps这个命令和topas这个命令,对同一台服务器上PowerPath进程显示出来的名称就不同,见下图:
如上图所见,同一个进程号204900就可以有两种不同的显示结果。但相同的进程号已经验证了他们是同一个进程。ps命令显示的进程名称可能有的时候只会显示前8位。到这里为止我们已经能够充分的证明,emcp_xcr和emcp_xcrypt是同一个进程,因为他们的进程号相同。
三、经验总结
1、在AIX中有两种情况下进程不能通过kill或者kill -9来终止。一是处于Zombie状态,二是在kernel mode。只有在user mode的进程才可以通过kill命令终止。
2、对于PPID为1,有时会发生进入kernel mode的情况。不管由于什么原因导致kill不能终止进程,都可以通过重启来解决。
3、对于不能kill的Zombie状态的进程,资源已经释放,对系统没有影响。对于处于kernel mode的进程,如果该进程没有占用过多资源,那么也没有影响,可以等下次有机会系统重启来解决。如果占用系统资源过高,那么就只能通过重启来解决。
如欲了解更多,请登录安图特官方网站:www.antute.com.cn