一、故障描述
某客户机房电源改造,电源修复完好后,将物理服务器加电至正常状态,启动openstack中的虚机,其中一台虚机无法启动,同时还有一台虚机在启动后,无法对文件系统进行写操作,并且IO使用率飙升,但是IO并没有实际的读写量。
二、故障分析
1、通过和客户沟通询问,在服务器正常下电前,客户将openstack的虚机全部shutdown,openstack服务停止后,才将ceph及openstack物理服务器正常关机。
2、服务器加电后,先启动ceph,后启动openstack。
3、启动openstack服务后,手动将所有vm启动。
4、此时并未发现不正常的情况,直到接到应用人员反馈后,发现一台vm启动不正常,一台vm文件系统读写不正常。登录openstack及ceph管理平台查看状态,发现openstack中一台vm状态如下:
ceph状态如下:
尝试重启状态不正常的虚机,报错如下:
三、故障处理
通过ceph的输出,发现osd.7提示slow ops,同时有1个pg处于activating状态。
1、确定osd状态
通过以上命令确定osd.7属于ceph03节点。
2、确定pg状态
通过以上命令,发现pg 7.1d在昨晚关机时就已经出现stuck状态。
ceph中activating状态代表pg之间已经互联,但是不能正常active。
3、查看ceph日志
查看ceph03节点的ceph日志,/var/log/ceph/ceph-osd.7.log,内容如下:
四、故障解决
1、尝试重启mon服务
尝试重启ceph.mon服务,未生效。
2、尝试重启修复pg
尝试修复pg,未生效。
3、重启osd服务
尝试重启osd服务,问题得以解决。
ceph问题解决后,openstack中vm状态也变为正常。
五、经验总结
1、ceph变更,需要关机时,建议将应用全部停止后,再对ceph进行关机操作。
2、重新加电开机以后,先确保ceph状态正常,再去启动应用。
3、对于ceph日常的运维,要多进行监控,建立性能基线,在发现问题时,可以进行有效对比。
如欲了解更多,请登录安图特官方网站:www.antute.com.cn