EN 联系我们加入我们
典型案例
您现在的位置:首页 > 典型案例
【案例分享】CEPH pg activating状态处理

一、故障描述

某客户机房电源改造,电源修复完好后,将物理服务器加电至正常状态,启动openstack中的虚机,其中一台虚机无法启动,同时还有一台虚机在启动后,无法对文件系统进行写操作,并且IO使用率飙升,但是IO并没有实际的读写量。

图片1.jpg

图片2.jpg


二、故障分析

1、通过和客户沟通询问,在服务器正常下电前,客户将openstack的虚机全部shutdown,openstack服务停止后,才将ceph及openstack物理服务器正常关机。

2、服务器加电后,先启动ceph,后启动openstack。

3、启动openstack服务后,手动将所有vm启动。

4、此时并未发现不正常的情况,直到接到应用人员反馈后,发现一台vm启动不正常,一台vm文件系统读写不正常。登录openstack及ceph管理平台查看状态,发现openstack中一台vm状态如下:

图片3.jpg


ceph状态如下:

图片4.jpg


尝试重启状态不正常的虚机,报错如下:

图片5.jpg


三、故障处理

通过ceph的输出,发现osd.7提示slow ops,同时有1个pg处于activating状态。

1、确定osd状态

图片6.jpg

通过以上命令确定osd.7属于ceph03节点。

2、确定pg状态

图片7.jpg

通过以上命令,发现pg 7.1d在昨晚关机时就已经出现stuck状态。

ceph中activating状态代表pg之间已经互联,但是不能正常active。

3、查看ceph日志

查看ceph03节点的ceph日志,/var/log/ceph/ceph-osd.7.log,内容如下:

图片8.jpg

四、故障解决

1、尝试重启mon服务

      尝试重启ceph.mon服务,未生效。

图片9.jpg

2、尝试重启修复pg

尝试修复pg,未生效。

图片10.jpg

3、重启osd服务

尝试重启osd服务,问题得以解决。

图片11.jpg

ceph问题解决后,openstack中vm状态也变为正常。

 

五、经验总结

1、ceph变更,需要关机时,建议将应用全部停止后,再对ceph进行关机操作。

2、重新加电开机以后,先确保ceph状态正常,再去启动应用。

3、对于ceph日常的运维,要多进行监控,建立性能基线,在发现问题时,可以进行有效对比。




如欲了解更多,请登录安图特官方网站:www.antute.com.cn



版权所有 安图特(北京)科技有限公司 备案号:京ICP备17074963号-1
技术支持:创世网络