一种故障定位方法、装置及存储介质制造方法及图纸

技术编号：43273323 阅读：4 留言：0更新日期：2024-11-12 15:59

本发明专利技术涉及一种故障定位方法及装置，该方法通过引入TRG和强化学习，实现对虚拟化平台的自动监控和诊断，降低对人工干预的依赖程度。TRG智能体能够实时接收系统数据，并根据学习到的策略自动调整运行参数和执行故障修复操作，提高了系统的稳定性和可用性。通过强化学习算法训练智能体，使其能够在不同的系统状态下做出合适的决策，提高了监控和诊断的准确性和智能化程度。本发明专利技术还提供了故障定位装置和存储介质。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算，尤其涉及一种故障定位方法、装置及存储介质。

技术介绍

1、故障定位技术源于计算机技术的发展和互联网的普及，早期主要是通过人工手动维护和管理it系统和网络设备。随着信息技术的不断进步和发展，it系统和网络环境变得越来越复杂和庞大，传统的人工管理方式已经无法满足业务需求。为此，故障定位技术逐渐兴起，其核心思想是通过自动化工具和监控系统来实现对it系统和网络设备的实时监控和维护，以提高系统的可靠性和稳定性，降低维护成本和提高运营效率。

2、故障定位技术的发展离不开大数据、云计算、人工智能等技术的支持。在大数据时代，故障定位技术可以通过对海量数据的分析和处理，快速发现系统的异常和故障，并及时采取措施进行修复。在云计算时代，故障定位技术可以实现对分布式和虚拟化系统的监控和管理，提高故障定位效率和灵活性。

3、但是在现有技术中，故障定位技术依赖人工干预的程度仍然较高，无法实现完全自动化，定位不够准确，监控效率和精度还有待提高。

技术实现思路

1、鉴于以上现有技术的不足，专利技术的目的在于提供一种故障定位方法及装置，实更加准确和智能的监控和诊断，相较于传统方法提升了监控效率和精度。

2、本专利技术的第一方面，提出了一种故障定位方法，包括：

3、s1，将系统的拓扑结构和虚拟机之间的依赖关系表示为一个图结构；

4、s2，使用图卷积网络gcn对所述图结构数据进行编码，以捕捉节点之间的关系；

5、s3，将编码后的

6、s4，通过强化学习算法dqn对所述智能体进行训练；

7、s5，根据训练好的智能体对故障进行定位。

8、本专利技术的故障定位方法，采用transformer、gcn和dqn相结合的方法，深度学习算法自动学习系统的运行特征和异常行为，自动化判断，实现更加准确和自动化监控。

9、进一步地，将系统的拓扑结构和虚拟机之间的依赖关系表示为一个图结构包括：

10、每个虚拟机作为图的一个节点，节点属性包含该虚拟机的性能指标和日志信息，所述虚拟机之间的依赖关系由边表示。

11、进一步地，使用图卷积网络gcn对所述图结构数据进行编码，以捕捉节点之间的关系包括：

12、通过多层gcn对虚拟机的运行状态进行编码，并得到节点和边的表示，以表征系统的当前状态。

13、进一步地，将编码后的图结构数据作为环境状态，定义一个马尔可夫决策过程mdp，形成强化学习智能体包括：

14、所述智能体根据当前系统状态和学到的策略，决定如何调整虚拟机的运行参数和执行故障修复操作。

15、进一步地，通过强化学习算法dqn对所述智能体进行训练包括：

16、模拟环境提供不同的系统状态和故障情况；

17、所述智能体与模拟环境进行交互，根据奖励信号调整策略，以实现最优的监控和诊断效果。

18、进一步地，智能体与模拟环境进行交互，根据奖励信号调整策略，以实现最优的监控和诊断效果包括：

19、从系统日志、性能监控工具或者网络流量分析工具收集数据；

20、通过所述gcn构建图神经网络，定义多层图卷积层，用于提取节点和边的特征；

21、确定transformer编码器，将gcn输出作为输入，设计奖励函数，根据系统性能指标或者故障恢复情况给出反馈；

22、选择预定的dqn算法，初始化智能体的策略网络和价值网络，计算奖励信号，优化策略网络和价值网络，所述奖励信号包括性能改善和/或故障消除。

23、进一步地，根据训练好的智能体对故障进行定位包括：

24、所述智能体实时接收系统的运行数据并进行编码，根据当前系统状态和学到的策略，自动调整虚拟机的运行参数和执行故障修复操作本专利技术的第二方面，提出了一种实现故障定位方法的装置，包括：

25、图结构构建模块，被配置用于将系统的拓扑结构和虚拟机之间的依赖关系表示为一个图结构；

26、编码模块，被配置用于使用图卷积网络gcn对所述图结构数据进行编码，以捕捉节点之间的关系；

27、构建模块，被配置用于将编码后的图结构数据作为环境状态，定义一个马尔可夫决策过程mdp，形成强化学习智能体；

28、训练模块，被配置用于通过强化学习算法dqn对所述智能体进行训练；

29、定位模块，被配置用于根据训练好的智能体对故障进行定位。

30、本专利技术的第三方面，提出了一种实现故障定位方法的装置，包括：

31、存储器、处理器和用户接口；

32、存储器，用于存储计算机程序；

33、用户接口，用于与用户实现交互；

34、处理器，用于读取存储器中的计算机程序，处理器执行计算机程序时，实现：

35、将系统的拓扑结构和虚拟机之间的依赖关系表示为一个图结构；

36、使用图卷积网络gcn对所述图结构数据进行编码，以捕捉节点之间的关系；

37、将编码后的图结构数据作为环境状态，定义一个马尔可夫决策过程mdp，形成强化学习智能体；

38、通过强化学习算法dqn对所述智能体进行训练；

39、根据训练好的智能体对故障进行定位。

40、本专利技术的第四方面，一种处理器可读存储介质，存储有计算机程序，处理器执行所述计算机程序时实现上述的故障定位方法。

41、本专利技术有益效果如下：

42、本专利技术所述的方法和装置，通过引入trg和强化学习，实现对虚拟化平台的自动监控和诊断，降低对人工干预的依赖程度。trg智能体能够实时接收系统数据，并根据学习到的策略自动调整运行参数和执行故障修复操作，提高了系统的稳定性和可用性。通过强化学习算法训练智能体，使其能够在不同的系统状态下做出合适的决策，提高了监控和诊断的准确性和智能化程度。相对于传统的基于规则或手动调整的方法，本专利技术的方法引入了图神经网络和强化学习技术，能够从数据中学习系统的运行状态和最优的调整策略，从而实现自动化的监控和故障修复，更好地应对复杂的系统和网络环境，提高监控和诊断的准确性和智能化程度，降低了对人工干预的依赖。

本文档来自技高网...

【技术保护点】

1.一种故障定位方法，其特征在于，包括：

2.根据权利要求1所述的一种故障定位方法，其特征在于，S1中将系统的拓扑结构和虚拟机之间的依赖关系表示为一个图结构包括：

3.根据权利要求2所述的一种故障定位方法，其特征在于，S2中使用图卷积网络GCN对所述图结构数据进行编码，以捕捉节点之间的关系包括：

4.根据权利要求1所述的一种故障定位方法，其特征在于，S3中将编码后的图结构数据作为环境状态，定义一个马尔可夫决策过程MDP，形成强化学习智能体包括：

5.根据权利要求1所述的一种故障定位方法，其特征在于，S4中通过强化学习算法DQN对所述智能体进行训练包括：

6.根据权利要求5所述的一种故障定位方法，其特征在于，所述智能体与模拟环境进行交互，根据奖励信号调整策略，以实现最优的监控和诊断效果包括：

7.根据权利要求1所述的一种故障定位方法，其特征在于，所述S5中根据训练好的智能体对故障进行定位包括：

8.一种故障定位装置，其特征在于，用于实现权利要求1至7任一项所述的故障定位方法，所述装置包括：

<...

【技术特征摘要】

1.一种故障定位方法，其特征在于，包括：

2.根据权利要求1所述的一种故障定位方法，其特征在于，s1中将系统的拓扑结构和虚拟机之间的依赖关系表示为一个图结构包括：

3.根据权利要求2所述的一种故障定位方法，其特征在于，s2中使用图卷积网络gcn对所述图结构数据进行编码，以捕捉节点之间的关系包括：

4.根据权利要求1所述的一种故障定位方法，其特征在于，s3中将编码后的图结构数据作为环境状态，定义一个马尔可夫决策过程mdp，形成强化学习智能体包括：

5.根据权利要求1所述的一种故障定位方法，其特征在于，s4中通过强化学习算法dqn对所述智能体进行训练包括：

<...

【专利技术属性】
技术研发人员：张磊，赵娜，胡冰冰，史亚威，蒋彪，李春，
申请(专利权)人：中电信数智科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人