System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请实施例涉及通信领域,尤其涉及一种数据处理方法以及装置。
技术介绍
1、目前,在大规模数据中心中经常发生硬件故障,这导致了服务器甚至整个网络基础设施稳定性和可靠性的下降。硬件故障是导致服务器崩溃的主要原因,能否提前准确预测硬件故障已经成为云计算时代工业界需要研究和解决的重要问题之一。传统硬件故障预测系统根据内存,硬盘等硬件的系统日志进行硬件的故障预测。一般将发生故障的概率较大硬件称之为高风险硬件,由于高风险硬件的故障在全部硬件故障中的占比较高,因此预测高风险硬件的故障概率对提高系统预测的响应速度有重大意义。
2、为了进行硬件的故障预测,可以先获取当前时间窗口内待预测设备多次出现硬件可纠正错误的出错特征;然后对出错特征进行聚合,得到聚合错误特征;再根据该聚合错误特征,预测该待预测设备是否会出现不可纠正错误,即预测是否会出现硬件故障。但是大规模数据中心的数据量较大,预测是否会出现不可纠正错误所需要消耗的时间较长,导致高风险硬件的故障预测的时效性较差。
3、为此,如何提高高风险硬件的故障预测的时效性,是亟待解决的技术问题。
技术实现思路
1、本申请提供了一种数据处理方法以及装置,通过对不同硬件发生故障的历史概率进行排序,可以找到高风险硬件,然后根据排序结果由前到后的顺序对硬件日志进行分析,即优先预测高风险硬件发生故障的概率,从而提高高风险硬件的故障预测的时效性,提高硬件故障预测的响应速度,降低出现硬件故障的概率,提高硬件的稳定性和可靠性。
2、本申
3、第一方面中,第一装置需要对第一硬件发生故障的概率进行预测,为此,第一装置先获取第一硬件的日志信息,其中第一硬件是多个硬件的总和,然后获取第一硬件中每一个硬件出现故障的历史概率,例如,该历史概率可以是上一轮预测得到的硬件出现故障的概率,或者是根据历史数据分析得到的硬件出现故障的概率。然后根据该历史概率的大小对第一硬件进行排序,其中,历史概率越大,对应的第一硬件的排序越靠前,即排序靠前的硬件为高风险硬件。然后第一装置根据该排序结果由前到后的顺序对该日志信息进行分析,以预测该第一硬件中的每一个硬件出现该故障的概率,因此本申请中优先对高风险硬件发生故障的概率进行分析,本申请中提高了高风险硬件进行故障分析的优先级,从而提高高风险硬件的故障预测的时效性,提高硬件故障预测的响应速度,降低出现硬件故障的概率,提高硬件的稳定性和可靠性。
4、可选的,第一硬件包括:硬盘,磁盘,内存,光模块,中央处理器(centralprocessing unit,cpu),即图形处理器(graphics processing unit,gpu),张量处理器(tensor processing unit,tpu)或神经网络处理器(neural network processing unit,npu)。
5、可选的,上述第一硬件可以为第二装置的硬件,第二装置可以为服务器,例如可以为物理服务器或者云服务器,当本申请应用于图1所示的系统时,第二装置可以为服务器105,服务器103和/或服务器104。
6、在第一方面的一种可选的实现方式中,该第一硬件为内存。
7、基于上述实现方式,可以将本方案应用于内存故障预测的场景,可以提高高危内存预测优先级,还可以提高高风险内存的故障预测的时效性。
8、可选的,本申请中日志信息为一种示例性的说法,可以被替换成任何可能的说法,例如系统日志,硬件日志等。
9、可选的,第一装置可以从云上的存储位置获取第一硬件的日志信息。
10、可选的,本申请中的故障为不可纠正错误。当出现故障时,第一硬件所在的服务器会停止或中断运行。
11、可选的,第一装置可以获取第一硬件的维修单,该维修单中记录了硬件的故障信息,据此可以推算出该第一硬件中的每一个硬件出现故障的历史概率。
12、在第一方面的一种可选的实现方式中,该历史概率为前i轮根据该排序结果对该日志信息进行分析得到的概率,该i为正整数。
13、基于上述实现方式,可以复用上一轮的分析结果,可以在不增加新的模块的情况下确定第一模块的历史概率,对算力资源的占用较小。
14、可选的,若该硬件首次出现则设定为默认概率值p。
15、在第一方面的一种可选的实现方式中,该第一硬件包括多个硬件集合,针对每一个该硬件集合,第一装置按照该硬件集合内的每一个硬件的该历史概率的大小对该第一硬件进行排序。
16、基于上述实现方式,可以通过将第一硬件划分为多个硬件集合,然后分别根据对每一个硬件集合内的硬件的历史概率的大小对硬件进行排序,即每一个硬件集合内各自进行排序。通过这种分布式排序的方式,可以提高对硬件进行排序的效率,从而提高硬件故障分析的效率。
17、可选的,可以根据资源池的数量将第一硬件划分为多个硬件集合。
18、可选的,第一装置可以借助神经网络模型对该日志信息进行分析。
19、在第一方面的一种可选的实现方式中,第一装置针对每一个该硬件集合,按照该排序结果中由前到后的排序对该日志信息进行分析。
20、基于上述实现方式,通过将硬件划分为多个硬件集合,以及分别对每一个硬件集合内的硬件的日志信息进行分析。通过这种分布式分析的方式,可以提高对硬件进行分析的效率,从而提高硬件故障分析的效率。
21、在第一方面的一种可选的实现方式中,第一装置根据该排序结果由前到后的顺序并行对每一个该硬件集合中的硬件的日志信息进行分析。
22、基于上述实现方式,可以并行对各个硬件集合中的硬件进行分析,以预测各个硬件集合中的硬件出现故障的概率,从而第一装置中的资源可以分别用于对不同硬件集合的硬件的日志进行分析。
23、本申请第二方面提供了一种通信装置,该通信装置包括获取模块,排序模块和分析模块,用于执行第一方面全部或部分操作。其中,所述通信装置可以是服务器,也可以是服务器中用于执行相关操作的部分组件,例如线卡,接口板等,还可以是用于执行相关操作的芯片系统,所述芯片系统可以包括一个或多个芯片。当通信装置为芯片系统时,所述获取模块例如可以是芯片的接口电路,所述处理单元例如可以是芯片的处理电路。
2本文档来自技高网...
【技术保护点】
1.一种数据处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述第一硬件包括多个硬件集合,所述按照所述历史概率的大小对所述第一硬件进行排序,包括:
3.根据权利要求2所述的方法,其特征在于,所述根据所述排序结果由前到后的顺序对所述日志信息进行分析,包括:
4.根据权利要求2所述的方法,其特征在于,所述根据所述排序结果由前到后的顺序对所述日志信息进行分析,包括:
5.根据权利要求1至4任一项所述的方法,其特征在于,所述历史概率为前i轮根据所述排序结果由前到后的顺序对所述日志信息进行分析得到的概率,所述i为正整数。
6.根据权利要求1至4中任一项所述的方法,其特征在于,所述第一硬件为内存。
7.一种数据处理装置,其特征在于,所述装置包括:
8.根据权利要求7所述的装置,其特征在于,所述第一硬件包括多个硬件集合,所述排序模块具体用于:
9.根据权利要求8所述的装置,其特征在于,所述分析模块具体用于:
10.根据权利要求8所述的装置,其特征在于,所述分析模块
11.根据权利要求7至10任一项所述的装置,其特征在于,所述历史概率为前i轮根据所述排序结果由前到后的顺序对所述日志信息进行分析得到的概率,所述i为正整数。
12.根据权利要求7至10中任一项所述的装置,其特征在于,所述第一硬件为内存。
13.一种通信装置,其特征在于,包括:通信接口和处理器;
14.一种计算机可读存储介质,其特征在于,所述介质存储有指令,当所述指令被处理器执行时,实现权利要求1至6中任一项所述的方法。
15.一种计算机程序产品,其特征在于,包括指令,当所述指令在处理器上运行时,执行如权利要求1至6中任一项所述的方法。
16.一种芯片,其特征在于,包括至少一个处理单元和接口电路,所述接口电路用于为所述至少一个处理单元提供程序指令或者数据,所述至少一个处理单元用于执行所述程序指令,以实现权利要求1至6中任一项所述的方法。
...【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述第一硬件包括多个硬件集合,所述按照所述历史概率的大小对所述第一硬件进行排序,包括:
3.根据权利要求2所述的方法,其特征在于,所述根据所述排序结果由前到后的顺序对所述日志信息进行分析,包括:
4.根据权利要求2所述的方法,其特征在于,所述根据所述排序结果由前到后的顺序对所述日志信息进行分析,包括:
5.根据权利要求1至4任一项所述的方法,其特征在于,所述历史概率为前i轮根据所述排序结果由前到后的顺序对所述日志信息进行分析得到的概率,所述i为正整数。
6.根据权利要求1至4中任一项所述的方法,其特征在于,所述第一硬件为内存。
7.一种数据处理装置,其特征在于,所述装置包括:
8.根据权利要求7所述的装置,其特征在于,所述第一硬件包括多个硬件集合,所述排序模块具体用于:
9.根据权利要求8所述的装置,其特征在于,所述分析模...
【专利技术属性】
技术研发人员:余家良,周敏,洪黛茜,
申请(专利权)人:深圳华为云计算技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。