EN 联系我们加入我们
典型案例
您现在的位置:首页 > 典型案例
【案例分享】AIX主机powerpath 高CPU占用率解决实例



一、故障背景


安图特接到大连某客户报修AIX主机应用访问缓慢,工程师随即到达现场进行处理,经排查后得到初步结果,存储、交换机、主机以及链路并无明显故障。后进行深入排查,发现主机端powerpath多路径软件进程CPU占用率非常高,导致CPU 100% busy,从而造成应用访问缓慢。  

现场工程师立即咨询了二线工程师,得知此问题在powerpath 5.5属于常见问题,如出现可对其执行kill操作,并不会造成任何影响后,现场工程师开始对powerpath进行操作。

具体如下:  

在IBM AIX上运行Powerpath 5.5时,   PowerPath xcryptd进程时常会在AIX主机消耗大量的CPU 和内存资源。

PID             %CPU      ResSize Char    Command

10682438   63.6          263676  0      [emcp_xcrypt]



二、故障处理


1、杀死在运行的emcp_xcrypt进程.用kill -9 <pid no. >

2、为防止系统重启动后这个进程再回来, 编辑文件 /etc/PowerPathExtensions    , 这个文件包含:

mpxext:cfgmpx

gpxext

dmext:cfgdm

vlumdext:cfgvlumd

xcryptext:cfgxcrypt 


3、我们要将“vlumdext:cfgvlumd”与“xcryptext:cfgxcrypt” 进行删除。

4、从/etc/inittab文件中删除 “rcxcrypt:2:wait:/etc/rc.emcp_xcryptd xcrypt_rc >/dev/null 2>&1”并保存文件。

PS:  客户往往比较在意的是emcp_xcr和emcp_xcrypt是否为同一进程以及什么时候显示为emcp_xcr,什么时候显示为emcp_xcrypt。 其实,这个问题和AIX服务器上不同的命令来显示进程名字有关。比如:ps这个命令和topas这个命令,对同一台服务器上PowerPath进程显示出来的名称就不同,见下图:

1.jpg

2.png

如上图所见,同一个进程号204900就可以有两种不同的显示结果。但相同的进程号已经验证了他们是同一个进程。ps命令显示的进程名称可能有的时候只会显示前8位。到这里为止我们已经能够充分的证明,emcp_xcr和emcp_xcrypt是同一个进程,因为他们的进程号相同。


三、经验总结


1、在AIX中有两种情况下进程不能通过kill或者kill -9来终止。一是处于Zombie状态,二是在kernel mode。只有在user mode的进程才可以通过kill命令终止。

2、对于PPID为1,有时会发生进入kernel mode的情况。不管由于什么原因导致kill不能终止进程,都可以通过重启来解决。

3、对于不能kill的Zombie状态的进程,资源已经释放,对系统没有影响。对于处于kernel mode的进程,如果该进程没有占用过多资源,那么也没有影响,可以等下次有机会系统重启来解决。如果占用系统资源过高,那么就只能通过重启来解决。


如欲了解更多,请登录安图特官方网站:www.antute.com.cn

版权所有 安图特(北京)科技有限公司 备案号:京ICP备17074963号-1
技术支持:创世网络