一种异常检测方法、装置及存储介质制造方法及图纸

技术编号:35453500 阅读:12 留言:0更新日期:2022-11-03 12:09
本公开涉及大数据处理技术领域,公开了一种异常检测方法、装置及存储介质,该方法为:将待检测数据集中的各个待检测数据输入到目标集成分类器中,运用对应的目标基分类器分别对每个待检测数据进行检测,得到检测结果,基于各个检测结果,确定待检测数据集对应的设备的异常情况,目标集成分类器的训练过程为:基于欧氏距离进行二分类,得到目标多数类样本子集,运用支持向量机从目标多数类样本子集中确定出目标支持向量,对目标支持向量进行bootstrap采样,结合少数类样本子集确定目标训练样本集,运用目标训练样本集对各个基分类器进行训练,得到目标集成分类器,从而删减了多数类样本子集中的多数类,达到了良好的异常检测效果。检测效果。检测效果。

【技术实现步骤摘要】
一种异常检测方法、装置及存储介质


[0001]本公开涉及大数据处理
,提供了一种异常检测方法、装置及存储介质。

技术介绍

[0002]在实际生产环境中,很多监控指标存在着不平衡的数据特性,例如,服务器的监控指标,因为服务器在运行过程中正常情况通常是多于故障情况的,所以正常类的监控指标是远远多于异常类的监控指标的,这就是数据不平衡的现象。
[0003]目前,面对不平衡数据集时,常用的做法是采用重采样技术,例如,利用随机欠采样技术对多数类样本进行随机删减,以达到数据平衡的效果。该方法简单,速度快,但存在一个问题:该方法由于其随机性可能会把包含有价值信息的样本删减掉,而把噪声样本保留了下来,这样虽然能达到平衡数据的效果,但对后续算法的训练也是非常不利的。

技术实现思路

[0004]本公开实施例提供一种异常检测方法、装置及存储介质,用以提升对异常数据的检测效果。
[0005]本公开提供的具体技术方案如下:
[0006]第一方面,本公开实施例提供了一种异常检测方法,包括:
[0007]将待检测数据集中的各个待检测数据输入到目标集成分类器中,其中,待检测数据集为不平衡数据集,目标集成分类器包括多个目标基分类器;
[0008]针对每个待检测数据执行以下操作:运用对应的目标基分类器对待检测数据进行检测,并得到检测结果;
[0009]基于各个检测结果,确定待检测数据集对应的设备的异常情况;
[0010]其中,目标集成分类器通过以下方式训练得到:
[0011]将原始训练样本集中的多数类样本子集基于欧氏距离进行二分类,得到目标多数类样本子集,其中,原始训练样本集包括多数类样本子集和少数类样本子集,且,多数类样本子集中的第一样本数量与少数类样本子集中的第二样本数量之间的数量差值大于预设阈值;
[0012]运用支持向量机从目标多数类样本子集中确定出目标支持向量;
[0013]对目标支持向量进行bootstrap采样,并基于采样结果和少数类样本子集确定目标训练样本集;
[0014]运用目标训练样本集对各个基分类器进行训练,得到多个目标基分类器,基于各个目标基分类器得到目标集成分类器。
[0015]可选地,将原始训练样本集中的多数类样本子集基于欧氏距离进行二分类,得到目标多数类样本子集,包括:
[0016]基于原始训练样本集中的多数类样本子集中的各个样本,确定多数类样本子集对应的中心点;
[0017]分别确定各个样本对应的样本点到中心点的欧氏距离;
[0018]基于各个欧氏距离计算平均距离值,并确定与平均距离值之间的差值最小的欧氏距离,以及将差值最小的欧氏距离作为分界距离;
[0019]基于各个欧氏距离与分界距离之间的差值,将多数类样本子集中的各个样本进行二分类,得到目标多数类样本子集,其中,目标多数类样本子集的个数为至少两个。
[0020]可选地,运用支持向量机从目标多数类样本子集中确定出目标支持向量,包括:
[0021]将目标多数类样本子集输入到支持向量机中,得到目标函数;
[0022]运用序列最小优化算法对目标函数进行求解,得到携带不同有用信息含量的参数值;
[0023]运用支持向量机将有用信息含量超过预设阈值的参数值对应的样本确定为目标支持向量。
[0024]可选地,对目标支持向量进行bootstrap采样,并基于采样结果和少数类样本子集确定目标训练样本集,包括:
[0025]对目标支持向量进行bootstrap采样,得到包括多个目标样本的采样结果;
[0026]在每一个预选子训练集中均放入少数类样本子集对应的各个样本,得到多个目标子训练集,并将多个目标子训练集确定为目标训练样本集,其中,多个预选子训练集是将多个目标样本进行分组后得到的。
[0027]可选地,运用目标训练样本集对各个基分类器进行训练,得到多个目标基分类器,基于各个目标基分类器得到目标集成分类器,包括:
[0028]分别运用目标训练样本集中每一个目标子训练集对相应的基分类器进行训练,得到多个目标基分类器;
[0029]将各个目标基分类器进行加权集成,得到目标集成分类器。
[0030]可选地,基于各个检测结果,确定待检测数据集对应的设备的异常情况,包括:
[0031]将各个检测结果进行加权求和,得到目标检测结果;
[0032]基于预设的检测结果与异常情况的对应关系,确定与目标检测结果对应的目标异常情况,将目标异常情况确定为待检测数据集对应的设备的异常情况。
[0033]可选地,第一样本数量与第二样本数量之间的比值大于或者等于3。
[0034]第二方面,本公开实施例还提供了一种异常检测装置,包括:
[0035]输入单元,用于将待检测数据集中的各个待检测数据输入到目标集成分类器中,其中,待检测数据集为不平衡数据集,目标集成分类器包括多个目标基分类器;
[0036]检测单元,用于针对每个待检测数据执行以下操作:运用对应的目标基分类器对待检测数据进行检测,并得到检测结果;
[0037]确定单元,用于基于各个检测结果,确定待检测数据集对应的设备的异常情况;
[0038]其中,目标集成分类器通过以下方式训练得到:
[0039]将原始训练样本集中的多数类样本子集基于欧氏距离进行二分类,得到目标多数类样本子集,其中,原始训练样本集包括多数类样本子集和少数类样本子集,且,多数类样本子集中的第一样本数量与少数类样本子集中的第二样本数量之间的数量差值大于预设阈值;
[0040]运用支持向量机从目标多数类样本子集中确定出目标支持向量;
[0041]对目标支持向量进行bootstrap采样,并基于采样结果和少数类样本子集确定目标训练样本集;
[0042]运用目标训练样本集对各个基分类器进行训练,得到多个目标基分类器,基于各个目标基分类器得到目标集成分类器。
[0043]可选地,将原始训练样本集中的多数类样本子集基于欧氏距离进行二分类,得到目标多数类样本子集,包括:
[0044]基于原始训练样本集中的多数类样本子集中的各个样本,确定多数类样本子集对应的中心点;
[0045]分别确定各个样本对应的样本点到中心点的欧氏距离;
[0046]基于各个欧氏距离计算平均距离值,并确定与平均距离值之间的差值最小的欧氏距离,以及将差值最小的欧氏距离作为分界距离;
[0047]基于各个欧氏距离与分界距离之间的差值,将多数类样本子集中的各个样本进行二分类,得到目标多数类样本子集,其中,目标多数类样本子集的个数为至少两个。
[0048]可选地,运用支持向量机从目标多数类样本子集中确定出目标支持向量,包括:
[0049]将目标多数类样本子集输入到支持向量机中,得到目标函数;
[0050]运用序列最小优化算法对目标函数进行求解,得到携带不同有用信息含量的参数值;
...

【技术保护点】

【技术特征摘要】
1.一种异常检测方法,其特征在于,所述方法包括:将待检测数据集中的各个待检测数据输入到目标集成分类器中,其中,所述待检测数据集为不平衡数据集,所述目标集成分类器包括多个目标基分类器;针对每个所述待检测数据执行以下操作:运用对应的所述目标基分类器对所述待检测数据进行检测,并得到检测结果;基于各个所述检测结果,确定所述待检测数据集对应的设备的异常情况;其中,所述目标集成分类器通过以下方式训练得到:将原始训练样本集中的多数类样本子集基于欧氏距离进行二分类,得到目标多数类样本子集,其中,所述原始训练样本集包括所述多数类样本子集和少数类样本子集,且,所述多数类样本子集中的第一样本数量与所述少数类样本子集中的第二样本数量之间的数量差值大于预设阈值;运用支持向量机从所述目标多数类样本子集中确定出目标支持向量;对所述目标支持向量进行bootstrap采样,并基于采样结果和所述少数类样本子集确定目标训练样本集;运用所述目标训练样本集对各个基分类器进行训练,得到多个目标基分类器,基于各个所述目标基分类器得到所述目标集成分类器。2.如权利要求1所述的方法,其特征在于,所述将原始训练样本集中的多数类样本子集基于欧氏距离进行二分类,得到目标多数类样本子集,包括:基于所述原始训练样本集中的所述多数类样本子集中的各个样本,确定所述多数类样本子集对应的中心点;分别确定各个所述样本对应的样本点到所述中心点的欧氏距离;基于各个所述欧氏距离计算平均距离值,并确定与所述平均距离值之间的差值最小的欧氏距离,以及将所述差值最小的欧氏距离作为分界距离;基于各个所述欧氏距离与所述分界距离之间的差值,将所述多数类样本子集中的各个样本进行二分类,得到目标多数类样本子集,其中,所述目标多数类样本子集的个数为至少两个。3.如权利要求1所述的方法,其特征在于,所述运用支持向量机从所述目标多数类样本子集中确定出目标支持向量,包括:将所述目标多数类样本子集输入到所述支持向量机中,得到目标函数;运用序列最小优化算法对所述目标函数进行求解,得到携带不同有用信息含量的参数值;运用所述支持向量机将所述有用信息含量超过预设阈值的参数值对应的样本确定为所述目标支持向量。4.如权利要求1所述的方法,其特征在于,所述对所述目标支持向量进行bootstrap采样,并基于采样结果和所述少数类样本子集确定目标训练样本集,包括:对所述目标支持向量进行bootstrap采样,得到包括多个目标样本的所述采样结果;在每一个预选子训练集中均放入所述少数类样本子集对应的各个样本,得到多个目标子训练集,并将所述多个目标子训练集确定为所述...

【专利技术属性】
技术研发人员:莫华森段云涌邓锦烨谢绍航熊武
申请(专利权)人:天翼云科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1