异常数据检测方法、装置、电子设备及计算机存储介质制造方法及图纸

技术编号:30145863 阅读:24 留言:0更新日期:2021-09-25 14:48
本发明专利技术实施例公开了一种异常数据检测方法、装置、电子设备及计算机存储介质,所述方法包括:获取预设时间段内的数据样本,并将所述数据样本分为不同类别的数据样本集;获取待检测数据,将所述待检测数据与所述数据样本集进行比较,确定疑似异常数据;对于所述疑似异常数据进行分段距离比较,将满足预设条件的疑似异常数据确定为异常数据。该技术方案能够突破检测方法对于算法要求前提的限制,实现异常数据的全面检测,提高异常数据检测的有效性的准确性,进而为后续未来数据的预测提供可靠的数据支持。据支持。据支持。

【技术实现步骤摘要】
异常数据检测方法、装置、电子设备及计算机存储介质


[0001]本专利技术实施例涉及数据处理
,具体涉及一种异常数据检测方法、装置、电子设备及计算机存储介质。

技术介绍

[0002]随着数据技术的发展,数据的应用也越来越广泛。比如,在机器学习、人工智能等很多场景下,都需要借助对于历史数据的分析来预测未来的数据。显然,在该场景下,未来数据预测的准确性在很大程度上都依赖于历史数据的有效性,但实际上,并非所有的历史数据都是有效数据或者有用信息,有些数据点或者数据段可能是由于随机小概率事件的发生而引入的异常数据,这些异常数据势必会在一定程度上影响历史数据的有效性,进而为后续的数据预测引入异常因素,影响数据预测的准确性,因此需要将这些异常数据有效地检测出来。但目前大部分的异常数据检测方法仅实现了异常数据的单纯检测,并未考虑异常数据若存在在历史数据中将会对于预测结果产生多大的影响,而本申请专利技术人在专利技术创造的过程中发现,若异常数据对于预测结果影响程度不同,对于异常数据的处理方式也会有所不同。而且,目前的异常数据检测方法基本都是局限于一种单一模式的异常数据检测,在不符合其假定值或不满足其算法要求前提时是无法进行检测的,这就为异常数据的处理以及未来数据的预测带来极大的不便。

技术实现思路

[0003]本专利技术实施例提供一种异常数据检测方法、装置、电子设备及计算机存储介质。
[0004]第一方面,本专利技术实施例中提供了一种异常数据检测方法。
[0005]具体的,所述异常数据检测方法,包括:
[0006]获取预设时间段内的数据样本,并将所述数据样本分为不同类别的数据样本集;
[0007]获取待检测数据,将所述待检测数据与所述数据样本集进行比较,确定疑似异常数据;
[0008]对于所述疑似异常数据进行分段距离比较,将满足预设条件的疑似异常数据确定为异常数据。
[0009]结合第一方面,本专利技术实施例在第一方面的第一种实现方式中,所述获取预设时间段内的数据样本,并将所述数据样本分为不同类别的数据样本集,包括:
[0010]获取预设时间段内的数据样本;
[0011]根据所述数据样本之间的相似性对所述数据样本进行聚类处理,得到不同类别的数据样本集;
[0012]训练得到与所述不同类别数据样本集对应的数据回归模型,并提取所述不同类别数据样本集的数据基线。
[0013]结合第一方面和第一方面的第一种实现方式,本专利技术实施例在第一方面的第二种实现方式中,所述获取待检测数据,将所述待检测数据与所述数据样本集进行比较,确定疑
似异常数据,包括:
[0014]获取待检测数据;
[0015]计算所述待检测数据与所述不同类别数据样本集数据基线之间的距离;
[0016]将与所述不同类别数据样本集数据基线之间的最小距离超过第一预设距离阈值的数据确定为疑似异常数据。
[0017]结合第一方面、第一方面的第一种实现方式和第一方面的第二种实现方式,本公开在第一方面的第三种实现方式中,所述对于所述疑似异常数据进行分段距离比较,将满足预设条件的疑似异常数据确定为异常数据,包括:
[0018]将所述疑似异常数据进行分段处理,得到两个或多个疑似异常数据段;
[0019]计算所述疑似异常数据段之间的距离,生成疑似异常数据段距离矩阵;
[0020]将与其它疑似异常数据段之间的最大距离超过第二预设距离阈值的疑似异常数据段确定为异常数据。
[0021]结合第一方面的第一种实现方式、第一方面的第二种实现方式和第一方面的第三种实现方式,本公开在第一方面的第四种实现方式中,还包括:
[0022]对于所述异常数据进行作用评估。
[0023]结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式和第一方面的第四种实现方式,本公开在第一方面的第五种实现方式中,所述对于所述异常数据进行作用评估,包括:
[0024]获取所述异常数据的属性信息,其中,所述异常数据的属性信息包括以下信息中的一种或多种:异常数据的宽度、异常数据的高度、异常数据起点位置与待检测数据起点位置之间的距离占所述待检测数据总长度的距离比例;
[0025]根据所述异常数据的属性信息对于所述异常数据进行作用评估。
[0026]结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式、第一方面的第四种实现方式和第一方面的第五种实现方式,本公开在第一方面的第六种实现方式中,所述根据所述异常数据的属性信息对于所述异常数据进行作用评估,包括:
[0027]根据所述异常数据的高度计算得到高度评估值;
[0028]根据所述异常数据的宽度计算得到宽度评估值;
[0029]根据所述异常数据的距离比例计算得到距离评估值;
[0030]确定高度权重值、宽度权重值和距离权重值,并根据所述高度权重值、宽度权重值和距离权重值计算得到总权重值;
[0031]获取不确定因素评估值,并根据所述高度评估值、宽度评估值、距离评估值、总权重值和不确定因素评估值计算得到所述异常数据的作用评估值。
[0032]结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式、第一方面的第四种实现方式、第一方面的第五种实现方式和第一方面的第六种实现方式,本公开在第一方面的第七种实现方式中,还包括:
[0033]根据所述作用评估值对于所述异常数据进行预设处理。
[0034]结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式、第一方面的第四种实现方式、第一方面的第五种实现方式、第一方面
的第六种实现方式和第一方面的第七种实现方式,本公开在第一方面的第八种实现方式中,所述根据所述作用评估值对于所述异常数据进行预设处理,包括:
[0035]当所述作用评估值超过预设评估阈值时,对于所述异常数据进行过滤处理。
[0036]第二方面,本专利技术实施例中提供了一种异常数据检测装置。
[0037]具体的,所述异常数据检测装置,包括:
[0038]获取模块,被配置为获取预设时间段内的数据样本,并将所述数据样本分为不同类别的数据样本集;
[0039]比较模块,被配置为获取待检测数据,将所述待检测数据与所述数据样本集进行比较,确定疑似异常数据;
[0040]确定模块,被配置为对于所述疑似异常数据进行分段距离比较,将满足预设条件的疑似异常数据确定为异常数据。
[0041]结合第二方面,本专利技术实施例在第二方面的第一种实现方式中,所述获取模块包括:
[0042]第一获取子模块,被配置为获取预设时间段内的数据样本;
[0043]聚类子模块,被配置为根据所述数据样本之间的相似性对所述数据样本进行聚类处理,得到不同类别的数据样本集;
[0044]提取子模块,被配置为训练得到本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种异常数据检测方法,其特征在于,包括:获取预设时间段内的数据样本,并将所述数据样本分为不同类别的数据样本集;获取待检测数据,将所述待检测数据与所述数据样本集进行比较,确定疑似异常数据;对于所述疑似异常数据进行分段距离比较,将满足预设条件的疑似异常数据确定为异常数据。2.根据权利要求1所述的方法,其特征在于,所述获取预设时间段内的数据样本,并将所述数据样本分为不同类别的数据样本集,包括:获取预设时间段内的数据样本;根据所述数据样本之间的相似性对所述数据样本进行聚类处理,得到不同类别的数据样本集;训练得到与所述不同类别数据样本集对应的数据回归模型,并提取所述不同类别数据样本集的数据基线。3.根据权利要求2所述的方法,其特征在于,所述获取待检测数据,将所述待检测数据与所述数据样本集进行比较,确定疑似异常数据,包括:获取待检测数据;计算所述待检测数据与所述不同类别数据样本集数据基线之间的距离;将与所述不同类别数据样本集数据基线之间的最小距离超过第一预设距离阈值的数据确定为疑似异常数据。4.根据权利要求1-3任一所述的方法,其特征在于,所述对于所述疑似异常数据进行分段距离比较,将满足预设条件的疑似异常数据确定为异常数据,包括:将所述疑似异常数据进行分段处理,得到两个或多个疑似异常数据段;计算所述疑似异常数据段之间的距离,生成疑似异常数据段距离矩阵;将与其它疑似异常数据段之间的最大距离超过第二预设距离阈值的疑似异常数据段确定为异常数据。5.根据权利要求1-4任一所述的方法,其特征在于,还包括:对于所述异常数据进行作用评估。6.根据权利要求5所述的方法,其特征在于,所述对于所述异常数据进行作用评估,包括:获取所述异常数据的属性信息,其中,所述异常数据的属性信息包括以下信息中的一种或多种:异常数据的宽度、异常数据的高度、异常数据起点位置与待检测数据起点位置之间的距离占所述待检测数据总长度的距离比例;根据所述异常数据的属性信息对于所述异常数据进行作用评估。7.根据权利要求6所述的方法,其特征在于,所述根据所述异常数据的属性信息对于所述异常数据进行作用评估,包括:根据所述异常数据的高度计算得到高度评估值;根据所述异常数据的宽度计算得到宽度评估值;根据所述异常数据的距离比例计算得到距离评估值;确定高度权重值、宽度权重值和距离权重值,并根据所述高度权重值、宽度权重值和距离权重值计算得到总权重值;
获取不确定因素评估值,并根据所述高度评估值、宽度评估值、距离评估值、总权重值和不确定因素评估值计算得到所述异常数据的作用评估值。8.根据权利要求7所述的方法,其特征在于,还包括:根据所述作用评估值对于所述异常数据进行预设处理。9.根据权利要求8所述的方法,其特征在于,所述根据所述作用评估值对于所述异常数据进行预设处理,包括:当所述作用评估值超过预设评估阈值时,对于所述异常数据进行过滤处理。10.一种异常数据检测装置,其特征在于,包括:获取模块,被配置为获取预设时间段内的数据样本,并将所述数据样本分为不同类别的数据样本集;比较模块,被配置为获取待检测数据,将所述待检测数据与所述数据样本集进行比较,确定疑似异常数据;确定模块,被配置为对于所述疑似...

【专利技术属性】
技术研发人员:欧阳昭暐谢峰田赟龙欣
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1