一种数据集的处理方法、装置及系统制造方法及图纸

技术编号:39313443 阅读:8 留言:0更新日期:2023-11-12 15:58
本发明专利技术实施例提供一种数据集的处理方法、装置及系统。所述方法包括:获取无标签时间序列数据集的验证集;对所述验证集进行异常点标注,得到所述验证集的第一伪标签集;基于所述验证集的第一伪标签集获得所述验证集的第二伪标签集;基于所述第一伪标签集和第二伪标签集确定目标伪标签集,并基于所述目标伪标签集对初始检测模型进行处理,确定目标检测模型。本发明专利技术实施例可以对时间序列数据进行自动标注,获得带有标签的数据集,从而实现时序数据异常检测的自动化建模,提高了异常模型进行异常检测的准确率,降低了成本。降低了成本。降低了成本。

【技术实现步骤摘要】
一种数据集的处理方法、装置及系统


[0001]本专利技术涉及大数据处理领域,尤其涉及一种数据集的处理方法、装置及系统。

技术介绍

[0002]随着各个领域的数字化的发展,许多配备传感器的设备产生了大量的时间数据,形成时间序列。这类时间序列应用广泛,在网络安全监测,量化交易,自动驾驶汽车和大型工业设备等领域中均有应用。在各领域中,预测性维护、异常监控与管理等日常运维中,时间序列的异常检测都是必需的。时间序列异常检测是从正常的时间序列中识别不正常的事件或者行为的过程。时序数据时间颗粒度与序列规模差异大,人工识别异常点的工作量大、难度强,因此大多数异常检测算法属于无监督异常检测算法,即通过对数据进行计算分析,识别出那些相对孤立的点,把这些孤立点就看作为异常点。然而现有的无监督异常检测算法准确率较低。而有监督异常检测算法是将无监督任务转化为半监督或全监督任务,其需要大量的有标签数据,需要大量人力成本。因此现有的时间序列异常检测算法准确率较低、成本高。

技术实现思路

[0003]本专利技术实施例提供一种数据集的处理方法、装置及系统,解决现有技术中现有的时间序列异常检测算法准确率较低、成本高的问题。
[0004]为解决上述技术问题,本专利技术提供一种数据集的处理方法,所述方法包括:
[0005]获取无标签时间序列数据集的验证集;
[0006]对所述验证集进行异常点标注,得到所述验证集的第一伪标签集;
[0007]基于所述验证集的第一伪标签集获得所述验证集的第二伪标签集;
[0008]基于所述第一伪标签集和第二伪标签集确定目标伪标签集,并基于所述目标伪标签集对初始检测模型进行处理,确定目标检测模型。
[0009]可选的,上述方法中,所述基于所述验证集的第一伪标签集获得所述验证集的第二伪标签集,包括:
[0010]从所述验证集中随机待处理目标特征序列;
[0011]对所述待处理目标特征序列进行分割,确定多个分割后的数据空间及各分割后的数据空间内的待处理时间样本;
[0012]基于所述第一伪标签集对每个分割后的数据空间内的待处理时间样本进行处理,确定所述验证集的第二伪标签集。
[0013]可选的,上述方法中,所述待处理目标特征序列为V*K维大小的时间特征序列,其中,V、K均为正整数;
[0014]所述对所述待处理目标特征序列进行分割,确定多个分割后的数据空间及各分割后的数据空间内的待处理时间样本,包括:
[0015]计算所述待处理目标特征序列中K维数据的每个特征维度的方差,得到分割参考
特征维度;
[0016]基于所述分割参考特征维度将所述待处理目标特征序列中V个时间样本对应的1*K维数据分割至多个分割后的数据空间,得到所述多个分割后的数据空间及各分割后的数据空间内的待处理时间样本。
[0017]可选的,上述方法中,所述基于所述分割参考特征维度将所述待处理目标特征序列中V个时间样本对应的1*K维数据分割至多个分割后的数据空间,包括:
[0018]对所述分割参考特征维度的特征值进行排序;
[0019]从排序后的所述特征值中选择特征中值作为分割点,将所述待处理目标特征序列分割为两个K维空间;
[0020]基于每个K维空间对应的待处理目标特征序列,继续执行所述对所述待处理目标特征序列进行分割的步骤;直到分割后的每个K维空间内样本数量不低于第一预设值;和/或分割后得到的K维空间的数量不低于第二预设值,其中,所述每个K维空间对应的待处理目标特征序列为V*K维大小的时间特征序列。
[0021]可选的,上述方法中,所述基于所述第一伪标签集对每个分割后的数据空间内的待处理时间样本进行处理,确定所述验证集的第二伪标签集包括:
[0022]将所述第一伪标签集中的特征数据与每个分割后的数据空间内的待处理时间样本进行比较,确定每个分割后的数据空间内至少一个的待处理时间样本的标签;
[0023]从所述验证集中随机选择当前目标特征序列,将所述当前目标特征序列确定为当前待处理目标特征序列,并执行所述对所述待处理目标特征序列进行分割的步骤,得到多个当前分割后的数据空间;
[0024]重复上述过程,直至所述验证集中的特征序列均被选择,和/或执行次数达到预设的次数,确定所述验证集的第二伪标签集。
[0025]可选的,上述方法中,所述确定每个分割后的数据空间内的至少一个待处理时间样本的标签,包括:
[0026]将每个分割后的数据空间中的待处理时间样本与所述第一伪标签集中的已标注样本进行比较,确定每个分割后的数据空间中的待处理时间样本与所述第一伪标签集的已标注样本相同的时间样本;
[0027]基于所述已标注样本的标签确定与所述已标注样本相同的时间样本的标签,所述标签包括正常和异常。
[0028]可选的,上述方法中,所述确定所述验证集的第二伪标签集,包括:
[0029]本统计每个分割后的数据空间中标签为异常的所述待处理时间样本的个数,在目标分割后的数据空间中标签为异常的所述待处理时间样本的个数超过第一预设阈值的情况下,将目标分割后的数据空间中的所有时间样本的标签设置为异常;
[0030]基于所述待处理时间样本的数据特征,确定在多个分割后的数据空间中具有相同数据特征的目标待处理时间样本,在所述目标待处理时间样本的标签为异常的个数超过第二预设阈值的情况下,将目标待处理时间样本的标签设置为异常;
[0031]基于每个分割后的数据空间中所述待处理时间样本的标签,确定所述验证集的第二伪标签集。
[0032]本专利技术实施例还提供了一种时序异常的检测方法,所述方法包括:
[0033]获取多个待识别的时序数据;
[0034]获取目标检测模型,所述目标检测模型基于目标伪标签集对初始检测模型进行处理得到,所述目标伪标签集基于第一伪标签集和第二伪标签集确定;
[0035]通过所述目标检测模型对所述多个待识别的时序数据进行检测,确定所述多个待识别的时序数据对应的检测结果;
[0036]根据所述检测结果,确定所述多个待识别的时序数据中的异常时序数据。
[0037]本专利技术实施例还提供了一种数据集的处理装置,所述处理装置包括:
[0038]获取模块,用于获取无标签时间序列数据集的验证集;
[0039]标注模块,用于对所述验证集进行异常点标注,得到所述验证集的第一伪标签集;
[0040]获得模块,用于基于所述验证集的第一伪标签集获得所述验证集的第二伪标签集;
[0041]确定模块,用于基于所述第一伪标签集和第二伪标签集确定目标伪标签集,并基于所述目标伪标签集对初始检测模型进行处理,确定目标检测模型。
[0042]可选的,上述处理装置中,所述获得模块包括:
[0043]选择子模块,用于从所述验证集中随机选择待处理目标特征序列;
[0044]分割子模块,用于对所述待处理目标特征序列进行分割,确定多个分割后的数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据集的处理方法,其特征在于,所述方法包括:获取无标签时间序列数据集的验证集;对所述验证集进行异常点标注,得到所述验证集的第一伪标签集;基于所述验证集的第一伪标签集获得所述验证集的第二伪标签集;基于所述第一伪标签集和第二伪标签集确定目标伪标签集,并基于所述目标伪标签集对初始检测模型进行处理,确定目标检测模型。2.根据权利要求1所述的处理方法,其特征在于,所述基于所述验证集的第一伪标签集获得所述验证集的第二伪标签集,包括:从所述验证集中选择待处理目标特征序列;对所述待处理目标特征序列进行分割,确定多个分割后的数据空间及各分割后的数据空间内的待处理时间样本;基于所述第一伪标签集对每个分割后的数据空间内的待处理时间样本进行处理,确定所述验证集的第二伪标签集。3.根据权利要求2所述的处理方法,其特征在于,所述待处理目标特征序列为V*K维大小的时间特征序列,其中,V、K均为正整数;所述对所述待处理目标特征序列进行分割,确定多个分割后的数据空间及各分割后的数据空间内的待处理时间样本,包括:计算所述待处理目标特征序列中K维数据的每个特征维度的方差,得到分割参考特征维度;基于所述分割参考特征维度将所述待处理目标特征序列中V个时间样本对应的1*K维数据分割至多个分割后的数据空间,得到所述多个分割后的数据空间及各分割后的数据空间内的待处理时间样本。4.根据权利要求3所述的处理方法,其特征在于,所述基于所述分割参考特征维度将所述待处理目标特征序列中V个时间样本对应的1*K维数据分割至多个分割后的数据空间,包括:对所述分割参考特征维度的特征值进行排序;从排序后的所述特征值中选择特征中值作为分割点,将所述待处理目标特征序列分割为两个K维空间;基于每个K维空间对应的待处理目标特征序列,继续执行所述对所述待处理目标特征序列进行分割的步骤;直到分割后的每个K维空间内样本数量不低于第一预设值;和/或分割后得到的K维空间的数量不低于第二预设值,其中,所述每个K维空间对应的待处理目标特征序列为V*K维大小的时间特征序列。5.根据权利要求2

4任一项所述的处理方法,其特征在于,所述基于所述第一伪标签集对每个分割后的数据空间内的待处理时间样本进行处理,确定所述验证集的第二伪标签集,包括:将所述第一伪标签集中的特征数据与每个分割后的数据空间内的待处理时间样本进行比较,确定每个分割后的数据空间内至少一个的待处理时间样本的标签;从所述验证集中随机选择当前目标特征序列,将所述当前目标特征序列确定为当前待处理目标特征序列,并执行所述对所述...

【专利技术属性】
技术研发人员:张小静刘兆涵方磊尚明栋
申请(专利权)人:北京九章云极科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1