System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种互联网数据中心隐患智能预警运维方法技术_技高网

一种互联网数据中心隐患智能预警运维方法技术

技术编号:42589320 阅读:4 留言:0更新日期:2024-09-03 18:05
本发明专利技术提供了一种互联网数据中心隐患智能预警运维方法,该方法借助数据中心周边运维系统,采集到系统中的实时动环数据。实时动环数据打包成张量,借助GPU并行计算提高信号预测的实时性;通过门控循环单元进行时间序列分析,预测出未来一段时间的预测序列数据。结合变分自编码循环网络VRNN和GAN,挖掘设备当前运行状态和劣化发展趋势的底层特征和规律。通过DR<subgt;score</subgt;度量预测序列数据和生成样本之间的距离,当DR<subgt;score</subgt;超过设定阈值时,产生异常隐患预警,预测今后多长时间设备运行状态将达到不可接受的程度,并根据恶化程度进行早期故障预警,制定可行的安全保障措施及设备维修计划,实现关键设备监控、调配、预警及自愈。

【技术实现步骤摘要】

本专利技术属于数据中心运维,尤其涉及一种互联网数据中心隐患智能预警运维方法


技术介绍

1、在数字时代的浪潮中,数据中心智能化运维崭露头角,成为支撑经济社会数字转型、智能升级的关键一环。根据工信部发布的数据,截至2022年6月底,我国数据中心机架总规模超过590万标准机架,服务器规模近2000万台。这些数据中心在满足日益增长的数字化需求方面发挥着重要作用。截至目前,我国有超过151.3万家数据中心相关企业。

2、新型数据中心以高技术、高算力、高能效、高安全为特征,以5g、工业互联网、云计算、人工智能为引擎,致力于提供绿色低碳的服务,满足多元数据资源的需求,成为赋能千行百业应用的新兴基础设施。工信部等部门推动绿色数据中心发展,明确统筹绿色智能算力基础设施,强调算力赋能效应,促使数据中心迈向更智能、高效的运维模式。

3、互联网数据中心是一套复杂的设施,包含服务器和网络设备,动环系统、ups设备监控系统、消防系统、安防系统等。受时间和环境等因素的影响,特定设备运行状态与其具有一定的内在联系,给预测提供了可能。为了对关键设备(如电源、交换机、路由器、服务器等)智能监测的预警,需要从揭示设备运行状态劣化发展趋势规律与特征入手,预报设备运行状态,预测今后多长时间设备运行状态将达到不可接受的程度,并根据恶化程度进行早期故障预警,制定可行的安全保障措施及设备维修计划,实现关键设备监控、调配、预警及自愈。然而,现有的数据中心运维存在如下问题:

4、(1)在运维的过程中,通常采用经验式的阈值告警系统对idc的运行状态进行实时监控,但是无法对可能存在的隐患进行提前预警。

5、(2)idc通常接入的设备量巨大,一个超大型的idc容纳超过上万个设备,每一个设备有数十个的监控信号。面对如此庞大的数据,传统的方式效率低下,严重时会导致信号监控阻塞。

6、(3)当前的运维系统对于历史数据的作用,主要是存档审计。不能有效的利用历史大数据,揭示设备运行状态劣化发展趋势的底层特征和规律。


技术实现思路

1、专利技术目的:针对现有的数据中心在运维的过程中,存在的如下问题:通常采用经验式的阈值告警系统对idc的运行状态进行实时监控,但是无法对可能存在的隐患进行提前预警的问题;idc通常接入的设备量巨大,一个超大型的idc容纳上万个设备,每一个设备又有数十个的监控信号。面对如此庞大的数据,传统的方式效率低下,严重时会导致信号监控阻塞;当前的运维系统对于历史数据的作用,主要是存档审计。不能有效地利用历史大数据,揭示设备运行状态劣化发展趋势的底层特征和规律。

2、本专利技术具体提出了一种互联网数据中心隐患智能预警运维方法,包括如下步骤:

3、步骤1、采集数据中心运维系统中的实时动环数据,将实时动环数据打包成张量x,借助gpu并行计算的特点,确保大数据量预测的实时性;

4、步骤2、将打包成张量x的实时动环数据输入到门控循环单元gru(gate recurrentunit,gru)进行时间序列分析,预测得到预测序列数据y;本步骤涉及到更新门(updategate)、重置门(reset gate)和隐藏状态(hidden state)的计算,更新门用于控制前一时刻的状态信息被带入到当前状态中的程度,更新门的值越大说明前一时刻的状态信息带入越多;重置门控制前一时刻状态有多少信息被写入到当前的候选集上,重置门越小,前一状态的信息被写入的越少。

5、步骤3、将打包成张量x的实时动环数据输入到变分自编码循环网络vrnn中,生成潜在变量z,组成随机潜在空间;vrnn是一种结合了变分自编码器(variationalautoencoder,vae)和循环神经网络(recurrent neural network,rnn)的模型,用于时间序列生成。该模型通过引入随机潜在变量来捕捉数据的潜在结构,并且可以有效地生成具有一定随机性的时间序列数据。

6、步骤4、将潜在变量z输入到生成对抗网络gan(generative adversarial nets,gan)的生成器g中,输出生成样本g(z);

7、步骤5、异常隐患预警:将生成样本g(z)和预测序列数据y输入到生成对抗网络gan的鉴别器d中,通过分布对比分数drscore度量预测序列数据y和生成样本g(z)之间的距离,当分布对比分数drscore超过设定阈值时,产生异常隐患预警。

8、步骤1包括:所述实时动环数据为多元信号时间序列,对多元信号时间序列[x11,x12,x13,...,x1n],[x21,x22,x23,...,x2n],[x31,x32,x33,...,x3n]按照时间对齐,然后打包成一个张量,张量的形状为(b,s),其中b表示打包成张量的批次大小,s表示序列的长度,打包后的张量x如下所示:

9、[[x11,x12,x13,...,x1n],

10、[x21,x22,x23,...,x2n],

11、...

12、[x31,x32,x33,...,x3n]],

13、其中,x1n表示第n个信号,第一个时刻信号值;x2n表示第n个信号,第二个时刻信号值;x3n表示第n个信号,第三个时刻信号值。

14、步骤2包括:

15、步骤2-1,初始化隐藏状态:门控循环单元gru首先得到一个初始化的隐藏状态;

16、步骤2-2,逐步处理序列;

17、步骤2-3,输出层计算。

18、步骤2-2包括:对于每个时间步,gru会执行以下计算:

19、步骤2-2-1,计算重置门rt:

20、rt=σ(wr·[ht-1,xt]+br)                    (1)

21、其中,σ表示sigmod激活函数,wr表示重置门的权重矩阵,br表示偏置向量,ht-1表示上一个时间步的隐藏状态,xt是当前时间t步的输入;

22、步骤2-2-2,计算更新门ut:

23、ut=σ(wu·[ht-1,xt]+bu                       (2)

24、其中,wu表示更新门的权重矩阵,bu表示偏置向量;

25、步骤2-2-3,计算候选隐藏状态

26、

27、其中,tanh表示双曲正切激活函数,wh表示用于计算候选隐藏状态的权重矩阵,bh表示偏置向量,⊙表示逐元素乘法;

28、步骤2-2-4,更新隐藏状态:

29、

30、其中,ht表示隐藏状态。

31、最终的隐藏状态是通过更新门控制上一个时间步的隐藏状态是否被保留,以及候选隐藏状态的信息是否被融合而得到的。

32、步骤2-3包括:计算信号预测值yt:

33、yt=wyhht+by (5)

34、其中,wyh表示用于计算信号预测值的权重矩阵,b本文档来自技高网...

【技术保护点】

1.一种互联网数据中心隐患智能预警运维方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的方法,其特征在于,步骤1包括:所述实时动环数据为多元信号时间序列,对多元信号时间序列[x11,x12,x13,...,x1n],[x21,x22,x23,...,x2n],[x31,x32,x33,...,x3n]按照时间对齐,然后打包成一个张量,张量的形状为(B,S),其中B表示打包成张量的批次大小,S表示序列的长度,打包后的张量x如下所示:

3.根据权利要求2所述的方法,其特征在于,步骤2包括:

4.根据权利要求3所述的方法,其特征在于,步骤2-2包括:对于每个时间步,GRU会执行以下计算:

5.根据权利要求4所述的方法,其特征在于,步骤2-3包括:计算信号预测值yt:

6.根据权利要求5所述的方法,其特征在于,步骤3包括:

7.根据权利要求6所述的方法,其特征在于,步骤3-1包括:当前时间t步的输入xt的生成过程用以下公式表示:

8.根据权利要求7所述的方法,其特征在于,步骤3-2包括:在训练变分自编码循环网络VRNN模型时,变分下界是在变分推断中用到的一个目标函数表示为:

9.根据权利要求8所述的方法,其特征在于,步骤3-3包括:在训练过程中,使用随机梯度下降优化方法,更新模型参数θ和变分分布参数φ,最大化变分下界:首先从来自于动环设备的多元信号时间序列训练数据中抽取样本,然后通过前向传播计算变分下界,并通过反向传播计算梯度,利用梯度更新模型参数和变分分布的参数,以使变分下界增加,从而提高生成对抗网络GAN模型的生成效果。

10.根据权利要求9所述的方法,其特征在于,步骤5包括:在生成对抗网络GAN中,计算生成器损失G:

...

【技术特征摘要】

1.一种互联网数据中心隐患智能预警运维方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的方法,其特征在于,步骤1包括:所述实时动环数据为多元信号时间序列,对多元信号时间序列[x11,x12,x13,...,x1n],[x21,x22,x23,...,x2n],[x31,x32,x33,...,x3n]按照时间对齐,然后打包成一个张量,张量的形状为(b,s),其中b表示打包成张量的批次大小,s表示序列的长度,打包后的张量x如下所示:

3.根据权利要求2所述的方法,其特征在于,步骤2包括:

4.根据权利要求3所述的方法,其特征在于,步骤2-2包括:对于每个时间步,gru会执行以下计算:

5.根据权利要求4所述的方法,其特征在于,步骤2-3包括:计算信号预测值yt:

6.根据权利要求5所述的方法,其特征在于...

【专利技术属性】
技术研发人员:赵紫权孙健夏高明周煜翔
申请(专利权)人:中通服咨询设计研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1