EN 联系我们加入我们
典型案例
您现在的位置:首页 > 典型案例
【案例分享】NS480文件系统修复说明



一、故障描述



客户一台NS480 NAS存储上某CIFS文件系统NAS_3无法访问。工程师抵达现场后,着手定位故障。通过WEB端登录后检查NAS_3的配置信息,确认配置无误。删除export后,重建export失败,报错如下:

1.png


二、故障排查


1、使用ssh登录control station,通过命令行检查文件系统mount状态,发现/ICMS_App3未能正常挂载,处于corrupt状态:

2.png

2、使用命令nas_fsck对文件系统进行修复,执行返回报错:

3.png

经过上述操作,工程师推测故障存在于物理存储端,导致了NAS文件服务出现问题。因此抓取spcollect和support_materials文件进行深入分析。

3、在support_materials文件中发现:

4.png

4、在spcollect文件中同时发现了无法恢复的sector错误:

5.png

由此确定,物理存储IO故障导致文件系统无法mount,进而导致该文件系统无法export使用。


三、故障处理


在确认ICMS_App3所有的连接状态等信息均正常的前提下,工程师首先进行物理存储sector的修复。

1、ssh登录到control station后,使用命令对该volume进行修复:

6.png


2、修复完成后重新尝试进行fsck操作:

7.png


3、大约30分钟后,fsck操作完成:

8.png


4、重新尝试server_mount ICMS_App3成功:

9.png


5、重新对ICMS_App3创建export:

10.png

至此重新检查,CIFS工作正常。



四、问题总结


NAS480整体上的结构:

11.png

SPE+DAE部分负责提供物理存储空间;BLADE部分负责对外提供NAS服务;control station部分负责设备管理工作。

1、在定位故障的过程中,首先要了解设备的组成结构,再按照设备的构成逻辑,依次向下进行故障排查。


2、本次问题从表面来看是NAS服务的问题,所以检查了BLADE部分。而实际上却是由NAS_3对应的物理存储中出现不可恢复的sector引起的,该sector使得NAS_3无法访问。


如欲了解更多,请登录安图特官方网站:www.antute.com.cn

版权所有 安图特(北京)科技有限公司 备案号:京ICP备17074963号-1
技术支持:创世网络