EN 联系我们加入我们
典型案例
您现在的位置:首页 > 典型案例
【案例分享】DB2 PureScale无法启动处理报告


一、问题描述


客户核心营销系统DB2 PureScale数据库突发故障,宕机后无法启动。

硬件资源 :CPU 40Core /MEM 128G

操作系统:RedHat 7.5

DB2版本:DB2 v11.1.4.5


二、问题分析



工程师查看发现数据库集群已经异常停止,并伴有Error的错误:


image001.png



节点无法与集群管理器建立会话:


image003.png


数据库日志有“Repair Domian failed”(修复集群失败的错误):


image005.png


手动启动失败,无法正常启动:


image007.png



查看GPFS日志发现有GPFS无法正常准备的错误,两边此时GPFS的文件系统无法正常挂载:


image009.png


DB2 PureScale使用GPFS作为共享文件系统,若GPFS故障,将导致DB2数据库无法使用:


image011.png


三、问题处理


针对GPFS: 6027-305问题,查阅官方Guide,修改verifyGpfsReady为no,通过禁用verifyGpfsReady功能,解决/var/mmfs/etc/gpfsready不能成功执行的问题。执行后,GPFS可以正常启动,文件系统可自动挂载。

1、DB2 PureScale集群服务包含三个主要组件:

集群管理器:Tivoli SA MP,其中包含了可靠的可伸缩集群技术 (RSCT);

共享的集群化文件系统:IBM 通用并行文件系统 (GPFS);

DB2 集群管理:用于管理与监控集群的 DB2 命令与管理视图;

 

2、此时GPFS的故障已经解决,lsrpdomain、lsrpnode等RSCT命令在一个节点上可以执行,但在另一个节点上执行时,报错2612-022:


image013.png


RSCT资源组未正常启动:


image015.png


无法获取配置资源管理器状态:

image017.png


由此判断RSCT发生问题:


image019.png


3、执行以下步骤重新建立两个节点间远程客户端连接。

/usr/sbin/rsct/bin/rmcctrl -A

/usr/sbin/rsct/bin/rmcctrl -p

 

至此,数据库可以正常启动:


image021.png


四、经验总结


1、出现此类问题时,逐一分析排查DB2、GPFS、RSCT等日志,准确定位故障原因;

2、与客户沟通得知系统管理员当天升级了OpenSSH,工程师由此判断:升级OpenSSH导致DB2集群两个节点信任出现了问题;

3、维护人员在对系统做出变更前后,应及时通知使用该设备的相关人员,包括系统管理员、数据库管理员、应用维护人员,以便应对突发故障。


如欲了解更多,请登录安图特官方网站:www.antute.com.cn


版权所有 安图特(北京)科技有限公司 备案号:京ICP备17074963号-1
技术支持:创世网络