System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 微服务平台服务故障恢复方法、系统和存储介质技术方案_技高网

微服务平台服务故障恢复方法、系统和存储介质技术方案

技术编号:44585067 阅读:16 留言:0更新日期:2025-03-14 12:46
本发明专利技术提供了一种微服务平台服务故障恢复方法、系统、存储介质和设备。所述方法包括:对服务状态进行实时分析,采集服务状态指标数据;确定故障服务,收集故障状态数据,基于所述服务状态指标数据及故障状态数据,获取服务调用图信息的结构化数据;构建强化学习故障恢复模型,将所述服务调用图信息的结构化数据输入所述强化学习故障恢复模型,基于已知的历史数据,对所述强化学习故障恢复模型进行训练;利用经过训练的所述强化学习故障恢复模型,生成所述故障服务的恢复策略,并执行恢复策略对故障进行恢复。本发明专利技术的服务故障恢复方法提高了故障恢复效率。

【技术实现步骤摘要】

本专利技术属于自动化运维领域,尤其涉及一种微服务平台服务故障恢复方法、系统、存储介质和设备。


技术介绍

1、在现代微服务应用系统中,由于服务数量和调用关系的复杂性,对服务运维提出了更高的要求,目前随着人工智能技术的发展各种智能运维模型开始在服务异常处理,故障分析等领域展现作用,但是在故障恢复领域的相关技术研究较为落后,目前的主流方法还是通过人为操作去处理故障情况。

2、目前的故障恢复方法主要有两个方向:一种是根据当前系统的具体特征和限定的故障场景,提出具有针对性的具体恢复动作实现运维过程中的故障恢复,例如,通过故障后将系统恢复到有效状态的恢复方案。恢复方案可以为基于检查点的回滚策略,它定期创建系统状态的有效快照,并在出现故障时将系统返回到有效状态,但是,这种方法通常是特定于系统的,可能会给系统设计人员和操作员带来很大的负担。

3、另一种故障恢复方法是以几种具体的基础恢复方法作为备选动作,针对系统所呈现的不同的错误状态,根据系统的状态和所构建的恢复动作选择策略,选择对应的备选手段进行恢复,该方法需要根据状态操作规则等策略合理安排潜在的修复操作,策略可以包括:递归地尝试剩余的开销代价最小的动作。其中一种基础的恢复方法是简单的重启技术,很大一部分故障即使在确切原因未知的情况下也可以通过重启技术来修复,这种恢复方案可以在不同的级别上应用,目前被许多重要的系统所采用。

4、但是,由于不精确的故障定位、反复出现的故障或失败的修复操作,这种简单的策略在实际环境中可能是不够的。因此,可能导致故障恢复效果较差的问题。


技术实现思路

1、针对现有技术存在的不足,本专利技术提供了一种微服务平台服务故障恢复方法、系统、存储介质和设备,基于深度强化学习算法构建强化学习故障恢复模型,根据实时监测获取的服务状态指标及故障状态数据,自动选择恢复动作并执行,实现故障的自动恢复,提高了故障恢复效率,提高服务的可用性。

2、本专利技术通过如下技术方案实现:

3、对服务状态进行实时分析,采集服务状态指标数据;

4、确定故障服务,收集故障状态数据,基于所述服务状态指标数据及故障状态数据,获取服务调用图信息的结构化数据;

5、构建强化学习故障恢复模型,将所述服务调用图信息的结构化数据输入所述强化学习故障恢复模型,基于已知的历史数据,对所述强化学习故障恢复模型进行训练;

6、利用经过训练的所述强化学习故障恢复模型,生成所述故障服务的恢复策略,并执行恢复策略对故障进行恢复。

7、可选的,

8、所述服务状态指标数据,包括:节点间指标数据、容器指标数据以及服务器指标数据。

9、可选的,

10、所述基于服务状态指标数据及故障状态数据,获取服务调用图信息的结构化数据,包括:

11、基于节点间指标数据,获取服务间的调用关系,构建服务调用链;

12、将容器指标数据和服务器指标数据聚合为服务节点信息,结合所述服务调用链,构建服务调用图信息的结构化数据。

13、可选的,

14、所述将容器指标数据和服务器指标数据聚合为服务节点信息,结合所述服务调用链,构建服务调用图信息的结构化数据,包括:

15、通过查询容器指标和服务器指标,获取故障服务所在的微服务中每个服务所属的物理机信息;

16、根据所述每个服务所属的物理机信息,将容器指标数据和服务器指标数据聚合为服务节点信息,结合该微服务项目的服务调用链,构建由节点的特征向量和邻接矩阵构成的服务调用图信息的结构化数据。

17、可选的,

18、所述构建强化学习故障恢复模型,包括:

19、定义所述强化学习故障恢复模型的状态空间、动作空间及奖励。

20、可选的,

21、所述利用经过训练的所述强化学习故障恢复模型,生成所述故障服务的恢复策略,并执行恢复策略对故障进行恢复,包括:

22、通过系统监控工具,从目标系统中实时获取服务状态指标数据;

23、使用异常检测和故障定位工具确定故障服务并获取故障状态数据;

24、基于服务状态指标数据及故障状态数据,利用经过训练的强化学习故障恢复模型生成所述故障服务的恢复策略并执行。

25、本专利技术还提供了一种微服务平台服务故障恢复系统,用于实施前述的方法,所述系统包括:

26、数据采集模块,用于对服务状态进行实时分析,采集服务状态指标数据;

27、故障信息处理模块,用于确定故障服务,收集故障状态数据,基于所述服务状态指标数据及故障状态数据,获取服务调用图信息的结构化数据;

28、强化学习模块,用于构建强化学习故障恢复模型,将所述服务调用图信息的结构化数据输入所述强化学习故障恢复模型,基于已知的历史数据,对所述强化学习故障恢复模型进行训练;

29、故障恢复模块,用于利用经过训练的所述强化学习故障恢复模型,生成所述故障服务的恢复策略,并执行恢复策略对故障进行恢复。

30、可选的,

31、所述故障信息处理模块还被配置用于:

32、基于节点间指标数据,获取服务间的调用关系,构建服务调用链;

33、将容器指标数据和服务器指标数据聚合为服务节点信息,结合所述服务调用链,构建服务调用图信息的结构化数据。

34、可选的,

35、所述系统还用于:

36、通过查询容器指标和服务器指标,获取故障服务所在的微服务中每个服务所属的物理机信息;

37、根据所述每个服务所属的物理机信息,将容器指标数据和服务器指标数据聚合为服务节点信息,结合该微服务项目的服务调用链,构建由节点的特征向量和邻接矩阵构成的服务调用图信息的结构化数据。

38、可选的,

39、所述故障恢复模块,还被配置用于:

40、通过系统监控工具,从目标系统中实时获取服务状态指标数据;

41、使用异常检测和故障定位工具确定故障服务并获取故障状态数据;

42、基于服务状态指标数据及故障状态数据,利用经过训练的强化学习故障恢复模型生成所述故障服务的恢复策略并执行。

43、本专利技术还提供了一种计算机可读存储介质,存储有一个或者多个程序,当该一个或者多个程序被执行时,可以实现前述的微服务平台服务故障恢复方法。

44、本专利技术还提供了一种设备,包括处理器、通信接口、计算机可读存储介质和通信总线;其中,处理器、通信接口、计算机可读存储介质通过通信总线相互间的通信;

45、所述处理器用于执行计算机可读存储介质中所存储的程序。

46、与现有技术相比,本专利技术具有如下优点:

47、1、本专利技术提出的微服务平台服务故障恢复方法,基于深度强化学习算法构建强化学习故障恢复模型,通过实时监测分析,获取服务状态指标及故障状态信息,在发现故障后自动选本文档来自技高网...

【技术保护点】

1.一种微服务平台服务故障恢复方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述服务状态指标数据,包括:节点间指标数据、容器指标数据以及服务器指标数据。

3.根据权利要求1所述的方法,其特征在于,所述基于服务状态指标数据及故障状态数据,获取服务调用图信息的结构化数据,包括:

4.根据权利要求3所述的方法,其特征在于,所述将容器指标数据和服务器指标数据聚合为服务节点信息,结合所述服务调用链,构建服务调用图信息的结构化数据,包括:

5.根据权利要求1至4任一项所述的方法,其特征在于,所述构建强化学习故障恢复模型,包括:

6.根据权利要求1至4任一项所述的方法,其特征在于,所述利用经过训练的所述强化学习故障恢复模型,生成所述故障服务的恢复策略,并执行恢复策略对故障进行恢复,包括:

7.一种微服务平台服务故障恢复系统,其特征在于,所述系统包括:

8.根据权利要求7所述的系统,其特征在于,所述故障信息处理模块还被配置用于:

9.根据权利要求8所述的系统,其特征在于,所述系统还用于:

10.根据权利要求7至9任一项所述的系统,其特征在于,所述故障恢复模块,还被配置用于:

11.一种计算机可读存储介质,存储有一个或者多个程序,其特征在于,

12.一种电子设备,包括处理器、通信接口、权利要求11所述的计算机可读存储介质和通信总线;其中,处理器、通信接口、计算机可读存储介质通过通信总线相互间的电子通信;其特征在于,

...

【技术特征摘要】

1.一种微服务平台服务故障恢复方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述服务状态指标数据,包括:节点间指标数据、容器指标数据以及服务器指标数据。

3.根据权利要求1所述的方法,其特征在于,所述基于服务状态指标数据及故障状态数据,获取服务调用图信息的结构化数据,包括:

4.根据权利要求3所述的方法,其特征在于,所述将容器指标数据和服务器指标数据聚合为服务节点信息,结合所述服务调用链,构建服务调用图信息的结构化数据,包括:

5.根据权利要求1至4任一项所述的方法,其特征在于,所述构建强化学习故障恢复模型,包括:

6.根据权利要求1至4任一项所述的方法,其特征在于,所述利用经过训练的所述强化学习...

【专利技术属性】
技术研发人员:王海韦强杨国胜徐冉斌楼奕华吴文峻陈睿博王康
申请(专利权)人:中国民航信息网络股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1