某日,客户报修IBM P770(9117-MMB)小机宕机。我们前往现场检查,该小型机由4个CEC柜和一个IO扩展柜组成,建有4个Lpar。查看HMC及ASMI告警信息,报错部位涉及FSP卡,CPU板,IO板,中板,内存等。
一、故障描述:客户报修HPEVA8400磁盘阵列硬盘故障,现场处理时,发现SMA管理机无响应。二、故障分析:1、重启SMA,完成后登录SMA,但无法打开HPCommandViewEVA管理软件。情况如下:  
由5台物理服务器组成的ceph集群,其中一台因为内存损坏,需要停机进行更换。更换完成后,发现该节点集群状态不正常。
某客户机房电源改造,电源修复完好后,将物理服务器加电至正常状态,启动openstack中的虚机,其中一台虚机无法启动,同时还有一台虚机在启动后,无法对文件系统进行写操作,并且IO使用率飙升,但是IO并没有实际的读写量。
某客户核心生产存储由两台HDS G200搭建GAD双活。机房突发掉电,所有设备宕机,电力恢复后,紧急恢复单台G200对外提供服务(某服务商操作),且客户不知哪台G200对外提供服务。现在客户需要恢复存储GAD双活。
统信UOS终端登录图形界面(即下图),输入正确的域用户名和密码,无法正常登录。即使使用本地用户也无法登录,点击登录后自动退回到登录界面。 因域管环境下统信UOS禁用了本地root用户,统信技术支持建议恢复系统解决,但是恢复系统后,需要重新配置各种软件程序,且该问题发生频率较高,恢复系统费时费力。 经过我公司技术专家的反复诊断研究,发现该问题是由于日志文件过大导致,可以通过单用户登录,清空文件内容的方式解决问题
1、虚机某节点不断报错:“由于连接性问题导致失去卷XX的访问权,正在进行还原尝试”,并同时间提示:“出现连接性问题后成功恢复对卷XX的访问权”; 2、映射到该节点卷的V7000链路由4条变为3条,V7000卷降级告警。
客户报修,表示一台IBM P260 VIOS及VIOC无法连接。登录HMC查看主机IBM P260连接状态为无连接,初步判断主板故障。
客户IBMx3650M5服务器宕机。重启机器发现无法正常启动,登录IMM查看eventlog,发现DIMM16报错,初步判断内存损坏。
客户报修HP EVA4400存储硬盘故障,外观显示slot2的位置硬盘故障。工程师准备更换故障硬盘,登录EVA管理控制台时提示controller2(图1)需要注意磁盘组(图2)被标记感叹号,查看日志报错信息,显示controller2 DP1B端口link丢失,默认磁盘组被标记感叹号。
客户多台主机系统同时报错存储磁盘故障,初步推断是存储出现故障。
应客户需求扩容Linux文件系统。实施过程中,将硬盘映射给主机,创建PV并添加到VG后,系统提示“unknown device”
工程师接到客户报修电话,一台Linux系统磁盘使用率异常。df -h 发现磁盘使用率为100%,重启后再次尝试df -h,磁盘使用率仍为100%。通过lsof查看没有应用程序占用已删除的数据;du -sh /查看/目录下占用的空间与实际磁盘使用率不一致,相差很大,磁盘无可用空间存储数据。
客户一台Linux系统频繁重启,工程师接到报修电话后登录查看,发现日志中大量的oom,内存溢出告警,每次重启后,不启动任何应用程序,主机内存很快被占满;同时其余客户端使用sftp传输数据,经常因内存溢出导致传输失败,影响业务。
某客户TSM备份值班人员报告TSM server 某个驱动器工作异常,备份仅一个通道可以使用,部分schedule因没有通道导致备份失败。
客户反馈一套业务数据库经常出现卡慢,甚至输入字符也会出现延迟效果,重新启动后,数据库查询速度得到提升,但随着使用频次增加,速度再次变慢。检查所有JSP网页发现,记录集、statement和数据库连接都已被释放。
安图特接到客户服务请求,到达现场发现ceph状态报警,提示其中某一个pg状态报错,造成服务响应缓慢,涉及osd.1。
客户一台IBM P750主机,PowerVM 环境,其中一个VIOC在日常监控中发现CPU使用率有上升趋势。
某客户应用生产系统是使用两节点Oracle RAC数据库环境,6月19日应用运维人员对其进行数据清理和导数操作后,两个数据库节点的CPU使用率频繁达到90%以上,并持续了近10天,严重影响后续任务的执行。
GbE2c以太网刀片交换机需要变更并备份配置,但交换机的管理密码丢失,无法登录对设备进行管理,所以需要重置交换机管理密码。
Standardized Management Process