一种数据中心基础设施运维管理方法技术

技术编号：40145104 阅读：5 留言：0更新日期：2024-01-24 00:13

本发明专利技术公开了一种数据中心基础设施运维管理方法，涉及数据中心运维管理技术领域，本发明专利技术将传感器被部署在数据中心设备上，收集实时的性能和健康数据，通过中央分析平台进行处理，实现异常情况的识别，自愈系统的设置基于自编码器构建异常检测模型，当检测到异常时，自愈系统会自动触发响应，能够更快速地检测问题并采取措施，显著减少了反应时间，采用机器学习算法，能够根据历史数据学习异常模式，更加智能地识别问题，解决了固定的规则和阈值判断设备的正常与异常状态，无法适应不同环境和变化的问题，同时在资源分配和管理中通过虚拟化隔离和资源动态调整，能够更有效地利用资源，提高了资源利用率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据中心运维管理，具体为一种数据中心基础设施运维管理方法。

技术介绍

1、数据中心是存储、处理和分发大量数据的关键基础设施，通常包括服务器、网络设备、存储设备、电力供应系统、空调系统等多种组件，数据中心是存储计算机及其相关硬件设备的物理位置，它包含 it 系统所需的计算基础设施，例如服务器、数据存储驱动器和网络设备，是存储任何公司数字数据的物理设施，每个企业都需要计算设备来运行其 web 应用程序、为客户提供服务、销售产品或运行用于账户、人力资源和运营管理的内部应用程序。随着业务的增长和 it 运营的增加，所需设备的规模和数量也呈指数级增长。

2、而数据中心基础设施的运维管理，是指确保数据中心环境能够满足计算机设备正常运行所需的各类设施、设备的运行能够满足客户sla的要求，包括机房供配电系统、空调系统、消防系统、安保系统等等，随着大型互联网数据中心指数级规模的快速增长，各项互联网业务对数据中心的依赖性越来越高，且数据中心自身技术特点也在不断发生变革，因此基础设施运营商需要针对基础设施进行更加趋向精细化的运营管理，数据中心基础设施的运维管理目标是确保数据中心的高可用性、可靠性和性能，以满足业务需求并降低潜在的风险。

3、然而传统的基础设施运维管理方法通常依赖人工干预进行监控、诊断和修复，导致运维效率低下，同时对于设备故障的诊断和响应时间较长，可能导致业务中断和数据丢失，因此亟需一种可以降低人工干预需求并进行快速检测问题的数据中心基础设施运维管理方法来解决此类问题。

技术实现思路

1、（一）解决的技术问题

2、针对现有技术的不足，本专利技术提供了一种数据中心基础设施运维管理方法，解决现有技术中存在的人工干预进行监控、诊断和修复运维效率低下，较长时间的故障的诊断和响应可能导致业务中断和数据丢失的问题。

3、（二）技术方案

4、为实现以上目的，本专利技术通过以下技术方案予以实现，本专利技术提供了一种数据中心基础设施运维管理方法，包括：

5、设备检测、诊断与修复的部署，设置中央分析平台，中央分析平台内置数据库，同时部署传感器收集设备性能和健康数据，将数据发送到中央分析平台，在中央平台上应用机器学习算法，通过历史数据学习正常状态和异常模式识别异常情况；

6、自动故障诊断和修复，设置自愈系统，自愈系统对所收集的数据进行分析，并对比实时数据和学习的模式，判断是否出现异常，如果出现异常，自愈系统自动触发响应；

7、通知和报告，当自愈系统识别到异常并采取措施时，自动向运维团队发送通知；

8、虚拟化隔离的配置，采用虚拟化技术，将物理硬件资源划分为多个虚拟资源，每个虚拟资源设置隔离策略；

9、隔离资源的管理与监控，部署监控工具来监视虚拟资源的运行状况，包括cpu使用率、内存使用量、网络流量，设置阈值并进行警报。

10、本专利技术进一步地设置为：所述设备检测、诊断与修复的部署步骤包括：

11、按需部署传感器在数据中心设备上，收集实时的性能和健康数据，包括cpu使用率、内存利用率、温度、电压；

12、将传感器收集到的数据通过网络传输到中央分析平台，并原始数据进行预处理；

13、从预处理后的数据中提取有用的特征，包括设备的平均cpu使用率、内存利用率的标准差；

14、将历史数据存储在数据库中，为每个数据点分配标签，标记正常状态为“0”和异常状态为“1”；

15、在中央平台上采用基于统计方法的z分数进行异常模型训练；

16、训练模型的输入是历史数据中的特征，标签为异常状态；

17、本专利技术进一步地设置为：所述基于统计方法的z分数进行异常模型训练步骤：

18、准备包括设备性能、健康数据以及相关的时间戳的历史数据集；

19、对历史数据进行统计分析，计算每个特征的平均值和标准差；

20、使用z分数公式计算每个数据点的z分数，用来表示数据点与平均值之间的偏离程度，z分数公式：

21、，其中x为数据点的值，μ为平均值，σ为标准差，并将超过阈值的z分数被标记为异常；

22、使用标记的异常数据作为训练集，训练基于z分数的异常模型；

23、本专利技术进一步地设置为：所述自动故障诊断和修复步骤中：

24、使用部分历史数据来评估模型的性能，计算模型的准确率、召回率指标；

25、按需设置阈值检测模型的输出分为正常和异常；

26、本专利技术进一步地设置为：所述自愈系统设置步骤：

27、基于部署在数据中心设备上的传感器收集的实时性能和健康数据，进行数据点集合：

28、，其中表示第i个数据点；

29、使用自编码器构建异常检测模型：

30、编码器：；

31、解码器：；

32、重构误差：；

33、计算每个数据点的重构误差作为异常分数：；

34、设定异常分数阈值t，超过阈值则触发异常；

35、对新数据点进行异常检测并与阈值进行比较：

36、新数据点异常分数：，如果，则触发自动化响应；

37、本专利技术进一步地设置为：所述隔离资源的管理与监控步骤中：

38、选用vmware vrealize operations、zabbix进行资源监控，部署监控工具并将其连接到vmware虚拟化平台；

39、本专利技术进一步地设置为：所述隔离资源的管理与监控步骤中：

40、监视虚拟资源性能参数，包括 cpu 使用率、内存使用量和网络流量；

41、为每个监控项设置阈值，超过阈值时触发警报。

42、（三）有益效果

43、本专利技术提供了一种数据中心基础设施运维管理方法。具备以下有益效果：

44、本专利技术所提供的数据中心基础设施运维管理方法，将传感器被部署在数据中心设备上，收集实时的性能和健康数据，所采集数据通过中央分析平台进行处理，采用机器学习算法对历史数据进行训练，以学习正常状态和异常模式，实现异常情况的识别，自愈系统的设置基于自编码器构建异常检测模型，当检测到异常时，自愈系统会自动触发响应，此外，通过虚拟化隔离，物理硬件资源被划分为多个虚拟资源，并为每个虚拟资源设置隔离策略，以提高资源利用率和隔离性。

45、综上，本专利技术所采用的数据中心基础设施运维管理方法通过实时监控和自愈系统，能够更快速地检测问题并采取措施，显著减少了反应时间，采用机器学习算法，能够根据历史数据学习异常模式，更加智能地识别问题，解决了固定的规则和阈值判断设备的正常与异常状态，无法适应不同环境和变化的问题，同时在资源分配和管理中通过虚拟化隔离和资源动态调整，能够更有效地利用资源，提高了资源利用率。

46、解决了现有技术中存在的人工干预进行监控、诊断和修复运维效率低下，较长时间的故障的诊断和响应可能导本文档来自技高网...

【技术保护点】

1.一种数据中心基础设施运维管理方法，其特征在于，包括：

2.根据权利要求1所述的一种数据中心基础设施运维管理方法，其特征在于，所述设备检测、诊断与修复的部署步骤包括：

3.根据权利要求2所述的一种数据中心基础设施运维管理方法，其特征在于，所述基于统计方法的Z分数进行异常模型训练步骤：

4.根据权利要求1所述的一种数据中心基础设施运维管理方法，其特征在于，所述自动故障诊断和修复步骤中：

5.根据权利要求1所述的一种数据中心基础设施运维管理方法，其特征在于，所述自愈系统设置步骤：

6.根据权利要求1所述的一种数据中心基础设施运维管理方法，其特征在于，所述隔离资源的管理与监控步骤中：

7.根据权利要求1所述的一种数据中心基础设施运维管理方法，其特征在于，所述隔离资源的管理与监控步骤中：

【技术特征摘要】

1.一种数据中心基础设施运维管理方法，其特征在于，包括：

2.根据权利要求1所述的一种数据中心基础设施运维管理方法，其特征在于，所述设备检测、诊断与修复的部署步骤包括：

3.根据权利要求2所述的一种数据中心基础设施运维管理方法，其特征在于，所述基于统计方法的z分数进行异常模型训练步骤：

4.根据权利要求1所述的一种数据中心基础设施运维管理方法，...

【专利技术属性】
技术研发人员：潘申银，杨晨，潘申伍，
申请(专利权)人：北京万联世纪科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人