System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 分布式软件系统的故障根因分析方法、设备及存储介质技术方案_技高网

分布式软件系统的故障根因分析方法、设备及存储介质技术方案

技术编号:44639284 阅读:0 留言:0更新日期:2025-03-17 18:31
本发明专利技术公开了一种分布式软件系统的故障根因分析方法、设备及存储介质,该方法包括:获取分布式软件系统的故障数据,并从故障数据中提取出关键信息;根据三元组模型对关键信息处理,得到关键信息对应的知识图谱;在接收到故障分析任务时,基于知识图谱进行异常链推理,基于异常链推理结果生成分布式软件系统的故障原因描述文本;将故障原因描述文本输入至大模型,得到大模型推理出的与故障分析任务对应的故障分析结果。本发明专利技术实施例的方案,解决了传统的故障检测与根因分析方法分析效率低且根因定位不准确的技术问题,实现了利用知识图谱和大语言模型进行故障快速准确归因。

【技术实现步骤摘要】

本专利技术涉及软件系统故障分析,尤其涉及一种分布式软件系统的故障根因分析方法、设备及存储介质


技术介绍

1、随着信息技术的迅猛发展,现代大型分布式软件系统的规模和复杂性也在不断提升。这些系统通常由众多服务、组件和节点构成,各自承担不同的功能和任务,广泛应用于云计算、物联网、金融交易和电子商务等领域。大型分布式软件系统通常包含多个互相依赖的服务和组件,依赖于网络通信和数据交换。这种高度的耦合性使得故障的排查变得异常困难,因为一个组件的故障可能引发连锁反应,导致其他组件或服务出现问题。系统中故障的表现形式多样,包括性能下降、服务中断、网络延迟等。

2、当前,许多组织依赖于传统的故障检测与根因分析方法,如人工日志分析、基于规则的监控系统等。这些方法面临以下几方面的局限:由于日志数据量巨大且分散,人工分析日志需要耗费大量的时间和精力,且容易忽略隐含的故障线索。传统的监控工具通常基于预设的告警规则进行监控,但这些规则往往只适用于特定的故障场景,难以涵盖所有潜在的故障类型。而且,规则的设置过于依赖历史经验,面对复杂的新故障模式,容易出现误报或漏报。分布式系统中的故障往往跨越多个组件和节点,传统方法难以从全局的角度理解故障传播路径和系统中的相互依赖关系,导致根因定位不准确。如何高效准确地进行故障根因定位是当前亟待解决的问题。


技术实现思路

1、本专利技术提供了一种分布式软件系统的故障根因分析方法、设备及存储介质,以实现故障分析的效率和准确性。

2、根据本专利技术的一方面,提供了一种分布式软件系统的故障根因分析方法,包括:

3、获取分布式软件系统的故障数据,并从所述故障数据中提取出关键信息;

4、根据三元组模型对所述关键信息处理,得到所述关键信息对应的知识图谱;

5、在接收到故障分析任务时,基于所述知识图谱进行异常链推理,基于异常链推理结果生成所述分布式软件系统的故障原因描述文本;

6、将所述故障原因描述文本输入至大模型,得到所述大模型推理出的与所述故障分析任务对应的故障分析结果。

7、在一种可能的实现方式中,所述获取分布式软件系统的故障数据,并从所述故障数据中提取出关键信息,包括:

8、获取所述分布式软件系统的日志数据、监控数据和故障报告,将日志数据、监控数据和故障报告确定为所述故障数据;

9、对所述故障数据进行预处理以得到所述关键信息。

10、在一种可能的实现方式中,所述根据三元组模型对所述关键信息处理,得到所述关键信息对应的知识图谱,包括:

11、根据所述三元组模型将所述关键信息转换为三元组形式信息;

12、将三元组形式信息转换为图谱结构,得到所述关键信息对应的知识图谱;

13、其中,所述三元组形式信息中包括实体、属性和关系,所述知识图谱中包括节点和边;

14、所述实体与所述分布式软件系统中的服务、应用、节点、数据库或者网络设备对应;所述属性包括状态、负载和响应时间中的至少一种;

15、所述关系包括服务依赖、交互、因果关系和数据流动路径中的至少一种。

16、在一种可能的实现方式中,所述在接收到故障分析任务时,基于所述知识图谱进行异常链推理,基于异常链推理结果生成所述分布式软件系统的故障原因描述文本,包括:

17、确定所述知识图谱中各个节点对应的性能变化序列,基于所述性能变化序列计算所述知识图谱中相邻的两个节点之间边的权重;

18、根据所述故障分析任务确定所述知识图谱中的目标节点;

19、基于广度优先搜索的算法对所述知识图谱遍历得到至少两条与所述目标节点关联的候选路径,基于所述候选路径中边的权重和所述候选路径的长度,确定目标故障路径;

20、基于所述知识图谱确定所述目标故障路径中各节点对应的节点数据,基于所述节点数据生成所述故障原因描述文本。

21、在一种可能的实现方式中,所述基于所述性能变化序列计算所述知识图谱中相邻的两个节点之间边的权重,包括:

22、针对相邻的第一节点和第二节点,基于所述第一节点的性能变化序列和所述第二节点的性能变化序列计算皮尔逊相关系数;

23、将计算得到的所述皮尔逊相关系数,确定为所述第一节点与所述第二节点之间边的权重。

24、在一种可能的实现方式中,所述将所述故障原因描述文本输入至大模型,得到所述大模型推理出的与所述故障分析任务对应的故障分析结果,包括:

25、根据所述故障分析任务确定用户问题文本,并对所述用户问题文本进行过滤,以及从知识库中检索专业知识;

26、将所述故障原因描述文本、过滤后的所述用户问题文本和所述专业知识输入至所述大模型,得到所述大模型推理出的故障分析结果。

27、在一种可能的实现方式中,在所述得到所述大模型推理出的与所述故障分析任务对应的故障分析结果之后,所述方法还包括:

28、通过信息抽取模块对所述故障分析结果进行抽取,得到与所述故障分析结果对应的三元组信息;

29、将所述三元组信息与所述知识图谱进行匹配验证。

30、在一种可能的实现方式中,所述方法包括:

31、基于所述故障数据,按照预设周期对所述知识图谱进行检查,确定所述知识图谱中的待更新内容;

32、根据预设更新规则对所述待更新内容进行更新,得到更新后的所述知识图谱。

33、根据本专利技术的另一方面,提供了一种分布式软件系统的故障根因分析装置,包括:

34、关键信息提取模块,用于获取分布式软件系统的故障数据,并从所述故障数据中提取出关键信息;

35、知识图谱构建模块,用于根据三元组模型对所述关键信息处理,得到所述关键信息对应的知识图谱;

36、异常链推理模块,用于在接收到故障分析任务时,基于所述知识图谱进行异常链推理,基于异常链推理结果生成所述分布式软件系统的故障原因描述文本;

37、故障结果确定模块,用于将所述故障原因描述文本输入至大模型,得到所述大模型推理出的与所述故障分析任务对应的故障分析结果。

38、根据本专利技术的另一方面,提供了一种电子设备,所述电子设备包括:

39、至少一个处理器;

40、以及与所述至少一个处理器通信连接的存储器;其中,

41、所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本专利技术任一实施例所述的分布式软件系统的故障根因分析方法。

42、根据本专利技术的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本专利技术任一实施例所述的分布式软件系统的故障根因分析方法。

43、本专利技术实施例的技术方案,包括:获取分布式软件系统的故障数据,并从故障数据中提取出关键信息;根据三本文档来自技高网...

【技术保护点】

1.一种分布式软件系统的故障根因分析方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述获取分布式软件系统的故障数据,并从所述故障数据中提取出关键信息,包括:

3.根据权利要求1所述的方法,其特征在于,所述根据三元组模型对所述关键信息处理,得到所述关键信息对应的知识图谱,包括:

4.根据权利要求1所述的方法,其特征在于,所述在接收到故障分析任务时,基于所述知识图谱进行异常链推理,基于异常链推理结果生成所述分布式软件系统的故障原因描述文本,包括:

5.根据权利要求4所述的方法,其特征在于,所述基于所述性能变化序列计算所述知识图谱中相邻的两个节点之间边的权重,包括:

6.根据权利要求4所述的方法,其特征在于,所述将所述故障原因描述文本输入至大模型,得到所述大模型推理出的与所述故障分析任务对应的故障分析结果,包括:

7.根据权利要求6所述的方法,其特征在于,在所述得到所述大模型推理出的与所述故障分析任务对应的故障分析结果之后,所述方法还包括:

8.根据权利要求1所述的方法,其特征在于,所述方法包括:

9.一种电子设备,其特征在于,所述电子设备包括:

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-8中任一项所述的分布式软件系统的故障根因分析方法。

...

【技术特征摘要】

1.一种分布式软件系统的故障根因分析方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述获取分布式软件系统的故障数据,并从所述故障数据中提取出关键信息,包括:

3.根据权利要求1所述的方法,其特征在于,所述根据三元组模型对所述关键信息处理,得到所述关键信息对应的知识图谱,包括:

4.根据权利要求1所述的方法,其特征在于,所述在接收到故障分析任务时,基于所述知识图谱进行异常链推理,基于异常链推理结果生成所述分布式软件系统的故障原因描述文本,包括:

5.根据权利要求4所述的方法,其特征在于,所述基于所述性能变化序列计算所述知识图谱中相邻的两个节点之间边的权重,包括...

【专利技术属性】
技术研发人员:查俊杰单新文刘子寒陆佳鑫朱佳佳赵一辰
申请(专利权)人:国网江苏省电力有限公司信息通信分公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1