EN 联系我们加入我们
典型案例
您现在的位置:首页 > 典型案例
【案例分享】操作疏忽导致ceph集群不可用

一、故障描述

由5台物理服务器组成的ceph集群,其中一台因为内存损坏,需要停机进行更换。更换完成后,发现该节点集群状态不正常。

图片1.jpg

二、故障分析

l  该集群中5台物理服务器均为mon节点;

l  其中一台出现问题,暂时不会导致整个集群停止服务;

l  前一日变更操作只对内存进行了更换,并未对其他部件做变更。

日志分析

查看故障节点的操作系统日志及ceph日志

messages:

图片2.jpg

ceph的日志:

图片3.jpg

三、故障处理

1、重启服务

通过如上日志描述,尝试对ceph服务进行重启,故障依旧

图片4.jpg

2、检查ceph配置

对ceph所涉及的配置文件,及认证keyring进行检查,发现配置一样,并无改动。

3、检查网络配置

通过对网络进行测试,发现ceph所涉及的public及cluster网络不能联通其他节点,检查网卡发现网线并未连接。

图片5.jpg

四、经验总结

最终确定此次故障是由于变更操作时,将网线拔出,然而变更结束后,由于网线连接状态不对引发的。

通过此次故障得出结论,运维人员在平时的运维操作中,定要注意操作的规范性,在操作前要做好记录,操作后要复合相关操作是否全部完成。对于变更完成后的测试工作,也要多加注意,做到严谨、全面。



如欲了解更多,请登录安图特官方网站:www.antute.com.cn



版权所有 安图特(北京)科技有限公司 备案号:京ICP备17074963号-1
技术支持:创世网络