FSP分区配置(profile)与HMC版本关联,如HMC 8.0版本生成的profile不兼容HMC 7.8版本。由于FSP备件使用环境不确定,更换FSP卡后,分区恢复遇到version mismatched错误时,需要独立初始化备件FSP后,再接入原HMC环境恢复profile文件。如果在原HMC上直接初始化FSP,会导致HMC上原有的分区profile被初始化掉,分区信息丢失。
一、项目背景
Power机型:P7-750(8048-E8D)
OS: AIX /VIOS
事件:更换故障FSP卡
FSP卡需主机断电更换,停止相关业务应用,并关闭操作系统。建议实施前备份相关数据,如:系统配置,操作系统,业务数据等。
二、风险预案
1、VIOS操作系统启动路径和系统时间变化
更换FSP后,VIOS系统的启动路径可能会丢失,所以在关闭VIOS系统前,需记录VIOS AIX系统的启动路径:bootlist –m normal –o。在分区启动至SMS时,选择“1”重新配置启动菜单,选择本地硬盘(SAS Hard Disk),启动方式“normal”;启动完成后,进入操作系统,重新配置bootlist:bootlist –m normal hdiskX hdiskY。
VIOS系统启动后,需确认系统时间,如果时间相差较大,需将时间修改一致,因为如果时间变化,可能影响某些应用进程,导致再次重启系统。
2、还原ASMI原配置信息
更换FSP卡后,还原FSP卡ASMI配置信息时,需提供或记录原ASMI配置信息,如:
System date
System name setting
System Power Control settings
System Service Aids settings
System Configuration settings
Network Services settings
Performance Option settings
Login Profile settings
3、主机分区配置(profile)信息恢复
为保障分区配置信息的安全和顺利恢复,建议在恢复分区配置(profile)信息前做好以下准备:
a.在更换前,手动备份主机分区配置信息,建议提前定期统一执行或变更后立即执行;
b.更换FSP卡后,使用笔记本直连FSP初始化SP至出厂配置,然后重新配置FSP卡时间,并还原ASMI配置信息,再将FSP连接至HMC;
c.升级FSP卡上固件版本至原来或以上版本。
三、故障处理
1、前期处理
a.记录VIOS启动路径记录:
bootlist –m normal –o
b.记录分区信息:
包括分区名、ID 、CPU、内存分配,虚拟适配器等。
备份主机profile文件(如果可以):
HMC→server management→选择维护主机→manage partition data→backup→输入备份文件名称→点击OK
注:建议定期或更新配置时备份profile数据。
c.收集主机ASMI下信息:
System firmware
System name setting
System Power Control settings
System Service Aids settings
System Configuration settings
Network Services settings
Performance Option settings
Login Profile settings
d、准备FSP卡微码的相应版本;
e、记录FSP卡的线缆连接方式。
2、备件更换
a.HMC管理界面power off主机;
b.移除主机电源线,HMC网线,SPCN线;
c.更换FSP卡;
d.恢复SPCN线和电源线连接,不要连接HMC网络线。
3、恢复FSP卡配置
a.通过笔记本电脑直连FSP卡HMC管理口,登录ASMI:
默认:https://169.254.2.147
b.初始化FSP卡至出厂设置:
ASMI→system service asid→factory configuration→reset service processor setting→continue→OK;
c.还原ASMI原配置,设置如下:
System date
System name setting
System Power Control settings
System Service Aids settings
System Configuration settings
Network Services settings
Performance Option settings
Login Profile settings
d.连接HMC网络:
恢复主机与HMC网络连接,检查连接:
HMC→server management→选择维护主机→connections→点击reset→等待主机重新受控于HMC;
e.系统firmware升级:
通过HMC管理,升级系统firmware与原系统版本一致或以上版本:
HMC→server management→选择维护主机→updaes→upgrade licensed internal code to a new release
4、恢复分区信息
a.恢复主机partition data;→HMC与主机连接成功,主机状态处于“recovery”; →选择主机,在下方任务栏左上角有选项Recover Partition Data;→点击Recover Partition Data;→选择Restore profile data from HMC backup data;→点击OK;
b.等待分区信息恢复成功完成;
c.检查分区信息与记录一致。
5、系统验证
a.启动VIOS分区系统
1)通过HMC管理,选择分区所需的profile启动分区;
2)打开“控制台终端”,等待系统启动至SMS选项界面;
3)选择1- select boot option,根据菜单选择相应的SAS硬盘启动系统;
4)进入系统,检查并恢复AIX bootlist;
b.检查各分区AIX系统时间或NTP服务
1)确认当前系统时间:
命令:date
2)修改系统时间(如果需要):
命令:smit date
3)重新启动AIX系统,并检查系统时间;
检查NTP服务,ntpq –p。
四、经验总结
产生此次故障的原因是没有对前期配置文件进行备份。我们在日常维护时,需要检查备件是否涉及配置内容,是否有备份;如果有,应在第一时间进行配置备份,以保证维护工作的顺利实施。其次,设备中每个组件都不是独立的,应提前考虑它们之间的关联性,做好应急预案。
如欲了解更多,请登录安图特官方网站:www.antute.com.cn