异常数据筛选方法、装置、电子设备及存储介质制造方法及图纸

技术编号:37222066 阅读:13 留言:0更新日期:2023-04-20 23:07
本申请实施例提供了一种异常数据筛选方法、装置、电子设备及存储介质,属于数据处理技术领域。其中方法包括:获取航空时序数据序列,将所述航空时序数据序列分割为多个数据组;获取一个所述数据组中的第i个元素;按照时间顺序计算所述第i个元素与所述数据组中的第i个元素之后的全部元素的误差值;若所述误差值大于预设误差阈值,则将所述误差值标记为异常值,获取所述异常值的数量;若所述第i个元素对应的所述异常值的数量大于预设异常阈值,则将所述第i个元素确定为异常数据;获取全部所述数据组中的所述异常数据。本申请实施例提供的异常数据筛选方法,计算简单,易于操作,并且不依赖数据的分布形式,筛选数据精度高。筛选数据精度高。筛选数据精度高。

【技术实现步骤摘要】
异常数据筛选方法、装置、电子设备及存储介质


[0001]本申请涉及数据处理领域,尤其涉及一种异常数据筛选方法、装置、电子设备及存储介质。

技术介绍

[0002]航空时序数据具有数量大、种类多、分布不存在明显规律、价值密度低的特点,如何有效的筛选出航空数据中的异常数据而保留有价值的数据成为了一个重要的研究方向。现有的常见的数据筛选方法包括:哈希计算预处理方法、拉以达准则方法、Z

score方法、DBSCAN方法等。其中,哈希计算预处理方法着重于数据的完整性,需要输入无异常数据才能和异常数据进行比较;拉以达准则方法局限性比较强,只能用于对正态或者近似正态分布的数据进行处理,且仅能剔除粗大的误差数据,准确度略为不足;Z

score方法必须假定数据满足高斯分布;DBSCAN方法采用聚类算法,不适用于数据量大的情况。目前,尚无适用于对航空时序数据进行异常数据筛选的方法。

技术实现思路

[0003]为了解决上述技术问题,本申请实施例提供了一种异常数据筛选方法、装置、电子设备及存储介质。
[0004]第一方面,本申请实施例提供了一种异常数据筛选方法,所述方法包括:
[0005]获取航空时序数据序列,将所述航空时序数据序列分割为多个数据组;
[0006]获取一个所述数据组中的第i个元素;
[0007]按照时间顺序计算所述第i个元素与所述数据组中的第i个元素之后的全部元素的误差值;
[0008]若所述误差值大于预设误差阈值,则将所述误差值标记为异常值,获取所述异常值的数量;
[0009]若所述第i个元素对应的所述异常值的数量大于预设异常阈值,则将所述第i个元素确定为异常数据;
[0010]获取全部所述数据组中的所述异常数据。
[0011]在一实施方式中,所述将所述航空时序数据序列分割为多个数据组,包括:
[0012]将所述航空时序数据按照预设时间区间分割为多个数据组,并按照时间顺序对各所述数据组进行排序,其中,各所述数据组中的元素按照时间顺序进行排序。
[0013]在一实施方式中,所述按照时间顺序计算所述第i个元素与所述数据组中的第i个元素之后的全部元素的误差值,包括:
[0014]通过公式
[0015][0016]计算所述第i个元素与所述第i+1个元素的均方值;
[0017]其中,A
i
为所述均方值,X
i
为所述第i个元素,X
i+1
为所述第i+1个元素;
[0018]通过公式
[0019][0020]计算所述第i个元素与所述第i+1个元素的误差值;
[0021]其中,n
i
为所述误差值;
[0022]通过上述公式,计算所述第i个元素与所述数据组中的第i+1个元素之后的全部元素的误差值。
[0023]在一实施方式中,所述方法还包括:
[0024]删去全部所述异常数据;
[0025]对各所述数据组中的空位进行插补。
[0026]在一实施方式中,所述对各所述数据组中的空位进行插补,包括:
[0027]采用预设宽度的滑动窗口获取所述数据组中的相邻两个元素的元素时间间隔;
[0028]若所述元素时间间隔小于2倍的采样周期,不进行插补;
[0029]若所述元素时间间隔大于等于2倍的采样周期,在所述相邻两个元素之间进行插补。
[0030]在一实施方式中,所述若所述元素时间间隔大于等于2倍的采样周期,在所述相邻两个元素之间进行插补,包括:
[0031]若所述元素时间间隔等于2倍的采样周期,则使用所述数据组中全部元素的平均值或所述相邻两个元素的平均值进行插补;
[0032]若所述元素时间间隔大于2倍的采样周期,则采用多重插补算法在所述相邻两个元素之间进行插补。
[0033]第二方面,本申请实施例提供了一种异常数据筛选装置,所述装置包括:
[0034]分割模块,用于获取航空时序数据序列,将所述航空时序数据序列分割为多个数据组;
[0035]第一获取模块,用于获取一个所述数据组中的第i个元素;
[0036]计算模块,用于按照时间顺序计算所述第i个元素与所述数据组中的第i个元素之后的全部元素的误差值;
[0037]标记模块,用于若所述误差值大于预设误差阈值,则将所述误差值标记为异常值,获取所述异常值的数量;
[0038]确定模块,用于若所述第i个元素对应的所述异常值的数量大于预设异常阈值,则将所述第i个元素确定为异常数据;
[0039]第二获取模块,用于获取全部所述数据组中的所述异常数据。
[0040]在一实施方式中,所述装置还包括:
[0041]删除模块,用于删去全部所述异常数据;
[0042]插补模块,用于对各所述数据组中的空位进行插补。
[0043]第三方面,本申请实施例提供了一种电子设备,包括存储器以及处理器,所述存储器用于存储计算机程序,所述计算机程序在所述处理器运行时执行第一方面提供的异常数据筛选方法。
[0044]第四方面,本申请实施例提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序在处理器上运行时执行第一方面提供的异常数据筛选方法。
[0045]上述本申请提供的异常数据筛选方法,获取航空时序数据序列,将所述航空时序数据序列分割为多个数据组;获取一个所述数据组中的第i个元素;按照时间顺序计算所述第i个元素与所述数据组中的第i个元素之后的全部元素的误差值;若所述误差值大于预设误差阈值,则将所述误差值标记为异常值,获取所述异常值的数量;若所述第i个元素对应的所述异常值的数量大于预设异常阈值,则将所述第i个元素确定为异常数据;获取全部所述数据组中的所述异常数据。本申请实施例提供的异常数据筛选方法,计算简单,易于操作,并且不依赖数据的分布形式,筛选数据精度高。
附图说明
[0046]为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对本申请保护范围的限定。在各个附图中,类似的构成部分采用类似的编号。
[0047]图1示出了本申请实施例提供的异常数据筛选方法的一流程示意图;
[0048]图2示出了本申请实施例提供的异常数据筛选装置的一结构示意图。
具体实施方式
[0049]下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。
[0050]通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种异常数据筛选方法,其特征在于,所述方法包括:获取航空时序数据序列,将所述航空时序数据序列分割为多个数据组;获取一个所述数据组中的第i个元素;按照时间顺序计算所述第i个元素与所述数据组中的第i个元素之后的全部元素的误差值;若所述误差值大于预设误差阈值,则将所述误差值标记为异常值,获取所述异常值的数量;若所述第i个元素对应的所述异常值的数量大于预设异常阈值,则将所述第i个元素确定为异常数据;获取全部所述数据组中的所述异常数据。2.根据权利要求1所述的异常数据筛选方法,其特征在于,所述将所述航空时序数据序列分割为多个数据组,包括:将所述航空时序数据按照预设时间区间分割为多个数据组,并按照时间顺序对各所述数据组进行排序,其中,各所述数据组中的元素按照时间顺序进行排序。3.根据权利要求1所述的异常数据筛选方法,其特征在于,所述按照时间顺序计算所述第i个元素与所述数据组中的第i个元素之后的全部元素的误差值,包括:通过公式计算所述第i个元素与所述第i+1个元素的均方值;其中,A
i
为所述均方值,X
i
为所述第i个元素,X
i+1
为所述第i+1个元素;通过公式n
i
=||A
i

X
i2
|

|A
i

X
i+12
||计算所述第i个元素与所述第i+1个元素的误差值;其中,n
i
为所述误差值;通过上述公式,计算所述第i个元素与所述数据组中的第i+1个元素之后的全部元素的误差值。4.根据权利要求1所述的异常数据筛选方法,其特征在于,所述方法还包括:删去全部所述异常数据;对各所述数据组中的空位进行插补。5.根据权利要求4...

【专利技术属性】
技术研发人员:罗亮严启华陈振宇宋亮苏励
申请(专利权)人:清华四川能源互联网研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1