EN 联系我们加入我们
典型案例
您现在的位置:首页 > 典型案例
【案例分享】IBM DS5300存储链路降级故障处理案例


一、故障描述


客户报修一台IBM DS5300多条链路降级故障,具体报错如下图:

对应故障链路Channel: 4,涉及7块硬盘报individual Drive-Degraded Path

image001.jpg


二、故障处理


1、现场通过DS Storage Manager连接到存储设备,发现Channel: 4链路通道的状态为Degraded状态,所有硬件状态及指示灯并未发现异常。初步怀疑为误报,尝试手工将Channel: 4链路做set optimal设置DSSM->Advenced->Troubleshooting->dirve Channel-》set optimal,配置完成后故障消失,设备状态正常;

2、次日再次接到报修,设备报出相同故障信息,至此排除误报的可能性;

image002.png


3、工程师到达现场检查链路噪音统计记录,并对链路噪音影响最大的两块硬盘进行了更换,更换新盘后设备正常,之后对链路执行清除链路噪音记录,重置噪音计数以备后续诊断使用,清除方法如下:

选择Execute Script->tools->Verify and Execute

clear allDriveChannels stats;

reset storagesubsystem RLSBaseline; 

reset storagesubsystem SOCBaseline;

 

4、设备运行一天后再次出现链路降级报错,收集ASD日志,重点针对其中的State Capture Data文件、readlinkstatus文件及EnclosureComponentsStateCapture文件进行分析,发现Channel 4下的多块硬盘出现大量噪音,结合之前更换硬盘并未解决噪音问题的情况,初步排除硬盘因素,判定可能触发故障的部件为Channel 4下的相关ESM模块、硬盘笼子、光纤线及控制器。

首先根据日志信息可以得知Channel 4有报错信息,冗余的Channel 8状态正常:

Related drives: (13, 1)

Related drives: (13, 3)

Related drives: (13, 7)

Related drives: (12, 1)

Related drives: (12, 9)

Degraded drive channel: 4

Port: 2, 1, ESM A 1A, ESM A 1B, ESM A 1B, ESM A 1A, ESM A 1B, ESM A 1A, ESM A 1B

         Status: Degraded

            Reason: Error threshold exceeded

         Max. Rate: 4 Gbps

         Total # of attached drives: 64

            Connected to: Controller A, Port 2

               Attached drives: 64

                  Drive expansion enclosure: 13 (16 drives)

                  Drive expansion enclosure: 12 (16 drives)

                  Drive expansion enclosure: 11 (16 drives)

                  Drive expansion enclosure: 10 (16 drives)

DRIVE CHANNEL 8

      Port: 7, 8, ESM B 1A, ESM B 1B, ESM B 1B, ESM B 1A, ESM B 1B, ESM B 1A, ESM B 1B

      Status:  Optimal

      Max. Rate: 4 Gbps

      Current Rate: 4 Gbps

      Rate Control: Auto

      Controller A link status: Up

      Controller B link status: Up

      Trunking active: No

      DRIVE COUNTS

         Total # of attached drives: 64

         Connected to: Controller B, Port 7

            Attached drives: 64

               Drive expansion enclosure: 13 (16 drives)

               Drive expansion enclosure: 12 (16 drives)

               Drive expansion enclosure: 11 (16 drives)

               Drive expansion enclosure: 10 (16 drives)


根据影响大小优先级,尝试先行更换连接光纤线,其次依次是enclosure 12 ESMA,enclosure 13 ESMA,enclosure 12 硬盘笼子,enclosure 13 硬盘笼子,controller A。

5、尝试更换enclosure 13,esm a/1b-enclosure 12 esm a/1a

enclosure 12,esm a/1b-enclosure 11 esm a/1a两条磁盘笼子连接光纤,更换之后设备正常运行,后续使用中再无链路相关报错。

6、本次故障最终定位为设备使用年限增长,光纤线缆老化,光信号衰减引起的链路噪音。


三、故障总结


1、DS4000/DS5000 系列存储的技术特点是采取了 FC_AL 的光纤仲裁环路结构,即控制器、磁盘扩展柜都是串行连接在光纤链路上的。此结构有一个缺点:环路上某个硬件的故障,会引起噪音信号,从而有可能影响链路上其他硬件的正常工作。另一方面,这种噪音故障很难准确定位。因此 SM 软件提供了一个测试程序 Read Link Status Diagnostics 检测链路上的信号噪音,用来协助故障定位。

2、处理与链路噪音有关的问题时,大多情况下,存储累计了不少链路噪音数值,所以建议先通过 SM 运行条脚本把所有链路噪音数值清零,重新进行噪音监控,以定位具体故障部件。


如欲了解更多,请登录安图特官方网站:www.antute.com.cn

版权所有 安图特(北京)科技有限公司 备案号:京ICP备17074963号-1
技术支持:创世网络