【技术实现步骤摘要】
一种存储系统的故障处理方法和存储系统
本专利技术涉及存储
,具体地说,涉及一种存储系统的故障处理方法和存储系统。
技术介绍
存储系统中的硬盘阵列,通过存储控制器统一管理通过接口和协议连接起来的多个硬盘,以提供成熟、可靠、大容量的数据存储服务。典型的硬盘阵列架构是双控系统,两个控制器通过镜像通道连接在一起,进行数据交换。硬盘通常是双端口盘,两个控制器的后端可以分别连接到每个硬盘上,硬盘对于两个控制器都是可见的。硬盘阵列的两个控制器可以通过PCIe芯片与多个硬盘连接在一起,对于每个硬盘而言,都有两条链路分别与两个控制器连接。在现有技术方案中,控制器通过硬盘管理软件来管理所有硬盘,保存硬盘链路信息,通过检测硬盘状态,及时发现异常并作出诊断,以尽可能地修复异常,保证硬盘阵列数据存储的可靠性。然而现有技术中的故障处理方案,只对硬盘状态和硬盘故障进行修复,却不能修复链路中故障,导致IO处理时延的增大。
技术实现思路
本专利技术基于现有技术中只对硬盘状态和硬盘故障进行修复的情况,提供一种修复链路中的连接芯片的故障的方法和存储系统。第一方面,本申请提供一种存储故障处理方法,应用于存储系统,所述存储系统包括至少一个存储盘和至少两个存储控制器,每个存储控制器包括连接芯片,所述每个控制器通过自身的连接芯片连接到每个存储盘,所述至少两个存储控制器互相连接;所述方法包括:第一存储控制器接收第一数据操作请求,通过第一链路的第一分支向所述第一数据读写操作对应的第一存储盘发送第一操作指令,所述第一链路为包含所述第一存储控制器的连接芯片的链路,所述第一链路的第一分支为所述第一链路中的目标 ...
【技术保护点】
1.一种存储故障处理方法,其特征在于,应用于存储系统,所述存储系统包括至少一个存储盘和至少两个存储控制器,每个存储控制器包括连接芯片,所述每个控制器通过自身的连接芯片连接到每个存储盘,所述至少两个存储控制器互相连接;所述方法包括:第一存储控制器接收第一数据操作请求,通过第一链路的第一分支向所述第一数据读写操作对应的第一存储盘发送第一操作指令,所述第一链路为包含所述第一存储控制器的连接芯片的链路,所述第一链路的第一分支为所述第一链路中的目标端为所述第一存储盘的连接,所述第一存储控制器为所述至少两个存储控制器中的任一存储控制器;所述第一存储控制器监测到所述第一操作指令执行超时,所述第一存储控制器通过第二链路的第一分支向所述第一存储盘转发所述第一操作指令,所述第二链路为包含所述第二存储控制器的连接芯片的链路,所述第二链路的第一分支为所述第二链路的目标端为所述第一存储盘的连接,所述第二存储控制器为与所述第一存储控制器连接的任一存储控制器;所述第一存储控制器接收通过所述第二链路的第一分支传输的所述第一操作指令的操作成功响应,根据所述操作成功响应统计操作异常的次数,所述操作异常指示所述第一存储控制 ...
【技术特征摘要】
1.一种存储故障处理方法,其特征在于,应用于存储系统,所述存储系统包括至少一个存储盘和至少两个存储控制器,每个存储控制器包括连接芯片,所述每个控制器通过自身的连接芯片连接到每个存储盘,所述至少两个存储控制器互相连接;所述方法包括:第一存储控制器接收第一数据操作请求,通过第一链路的第一分支向所述第一数据读写操作对应的第一存储盘发送第一操作指令,所述第一链路为包含所述第一存储控制器的连接芯片的链路,所述第一链路的第一分支为所述第一链路中的目标端为所述第一存储盘的连接,所述第一存储控制器为所述至少两个存储控制器中的任一存储控制器;所述第一存储控制器监测到所述第一操作指令执行超时,所述第一存储控制器通过第二链路的第一分支向所述第一存储盘转发所述第一操作指令,所述第二链路为包含所述第二存储控制器的连接芯片的链路,所述第二链路的第一分支为所述第二链路的目标端为所述第一存储盘的连接,所述第二存储控制器为与所述第一存储控制器连接的任一存储控制器;所述第一存储控制器接收通过所述第二链路的第一分支传输的所述第一操作指令的操作成功响应,根据所述操作成功响应统计操作异常的次数,所述操作异常指示所述第一存储控制器接收到的操作指令通过所述第一链路执行超时,但通过所述第二链路执行成功;所述第一存储控制器确定在预定时间内所述操作异常的统计次数超过预定阈值,对所述第一链路中的连接芯片进行故障修复。2.如权利要求1所述的方法,其特征在于,所述根据所述操作成功响应统计操作异常的次数,包括:所述第一存储控制器根据统计规则和所述操作成功响应,将操作异常的次数增加一次或者维持原统计的操作异常次数不变,其中,所述统计规则包括:对于所述第一链路的每条分支上出现的操作异常,只统计一次;相应地,所述预定阈值小于或等于所述存储系统中所述存储盘的数量N。3.如权利要求1或2所述的方法,其特征在于,所述方法还包括:所述第一存储控制器确定所述第一链路的第n分支上出现操作异常之后,设置所述第一链路的第n分支的故障标签,所述故障标签指示所述第一链路的第n分支不可用或者所述第一链路的第n分支的级别降低,n为自然数变量,n大于等于1,且小于等于N;所述第一控制器在接收到针对第n存储盘的后续数据操作请求之后,根据所述第一链路的第n分支的故障标签,直接通过所述第二链路的第n分支向所述第n存储盘发送后续操作指令。4.如权利要求3所述的方法,其特征在于,在对所述第一链路中的连接芯片进行故障修复之后,所述方法还包括:删除所述第一链路的每条分支的故障标签,或者设置所述第一链路的每条分支的正常标签,所述正常标签指示所述第一链路的分支状态可用或者所述第一链路的分支级别正常;则所述第一控制器在接收到后续数据操作请求之后,根据所述第一链路故障标签的状态或者第一链路的正常标签,切换回所述第一链路向所述后续数据操作请求所针对的存储盘发送操作指令。5.如权利要求1-4任意一项所述的方法,其特征在于,在对所述第一链路的连接芯片进行故障修复之后,所述方法还包括:检测所述第一链路中的连接芯片是否修复成功;在检测到所述第一链路中的连接芯片修复不成功之后,发出所述第一链路中的连接芯片的故障维护通知。6.如权利要求1-5任一项所述的方法,其特征在于,所述对所述第一链路中的连接芯片进行故障修复,包括:重启所述第一存储控制器的连接芯片;或者,隔离所述第一存储控制器的连接芯片;或者,对所述第一存储控制器的连接芯片上的队列进行修复;或者,对所述第一存储控制器的连接芯片上的端口进行修复。7.如权利要求1-6任一项所述的方法,其特征在于,所述第一存储控制器监测到所述第一操作指令执行超时之后,所述方法还包括:所述第一存储控制器记录第一标记,所述第一标记指示所述第一操作指令通过所述第一链路的第一分支执...
【专利技术属性】
技术研发人员:刘玉,
申请(专利权)人:杭州华为数字技术有限公司,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。