一、事件背景
客户为了满足信息安全合规要求,计划将所有IBM小型机 AIX操作系统的 OpenSSH升级到规定版本。
二、故障现象
AIX操作系统在升级OpenSSH的过程中,Power HA中Node A和Node B节点两台主机被shutdown,升级失败。
三、故障分析
查看升级日志,发现升级过程中触发了命令:
/usr/sbin/rsct/install/bin/ctposti
OpenSSH 升级过程中,Power HA处于online的状态,因此触发了RSCT的bug --APAR IV93498 , 引起ctposti程序重复执行,导致升级失败。
APAR Number: IV93498: POWERHA NODE FAILURE DURING RANDOM CODE UPDATE
官方解释如下:
If an RSCT code update is attempted while PowerHA is online, resulting in a node failure when the RSCT layer is recycled, there is a chance of the RSCT ctposti action being left registered with installp, even if the update appears to otherwise have been successful (no cleanup necessary after the node is booted up again).
If this occurs, the next installp action to be taken --no matter what fileset is being handled (RSCT, PowerHA, or something completely unrelated) -- that ctposti script will be run again, resulting in another RSCT recycle, which will cause *another* node failure if PowerHA is active.
IBM官方解释如下:
http://www-01.ibm.com/support/docview.wss?mhq=IV92414&mhsrc=ibmsearch_a&uid=isg1IV93498
四、故障解决
本次升级中发生的故障,是由于操作系统在PowerHA online的状态下,升级OpenSSH的过程中触发了IV93498 APAR所导致。客户现有AIX操作系统版本为7100-03-05-1524,因此需将操作系统升级到7100-03-09版本以上或者安装IV93498的小补丁,避免此问题再次发生。
下载地址:
https://www-945.ibm.com/support/fixcentral/aix/downloadFixes?release=All&function=aparId&apars=IV93497&target=options&includeRequisites=1&downloadMethod=http
五、分析结论
本次升级涉及的设备数量非常庞大,且系统维护窗口较为复杂,操作系统版本存在诸多差异。升级过程中,除这一套设备出现宕机现象外,其它系统均顺利完成升级。
如在实际操作中遇到此类情况,建议第一时间保障客户系统,恢复应用,然后收集日志进行分析,寻找root cause,保证全部设备的升级工作顺利完成。
如欲了解更多,请登录安图特官方网站:www.antute.com.cn