一种数据集的处理方法、装置及系统制造方法及图纸

技术编号：39313443 阅读：8 留言：0更新日期：2023-11-12 15:58

本发明专利技术实施例提供一种数据集的处理方法、装置及系统。所述方法包括：获取无标签时间序列数据集的验证集；对所述验证集进行异常点标注，得到所述验证集的第一伪标签集；基于所述验证集的第一伪标签集获得所述验证集的第二伪标签集；基于所述第一伪标签集和第二伪标签集确定目标伪标签集，并基于所述目标伪标签集对初始检测模型进行处理，确定目标检测模型。本发明专利技术实施例可以对时间序列数据进行自动标注，获得带有标签的数据集，从而实现时序数据异常检测的自动化建模，提高了异常模型进行异常检测的准确率，降低了成本。降低了成本。降低了成本。

全部详细技术资料下载

【技术实现步骤摘要】
一种数据集的处理方法、装置及系统

[0001]本专利技术涉及大数据处理领域，尤其涉及一种数据集的处理方法、装置及系统。

技术介绍

[0002]随着各个领域的数字化的发展，许多配备传感器的设备产生了大量的时间数据，形成时间序列。这类时间序列应用广泛，在网络安全监测，量化交易，自动驾驶汽车和大型工业设备等领域中均有应用。在各领域中，预测性维护、异常监控与管理等日常运维中，时间序列的异常检测都是必需的。时间序列异常检测是从正常的时间序列中识别不正常的事件或者行为的过程。时序数据时间颗粒度与序列规模差异大，人工识别异常点的工作量大、难度强，因此大多数异常检测算法属于无监督异常检测算法，即通过对数据进行计算分析,识别出那些相对孤立的点,把这些孤立点就看作为异常点。然而现有的无监督异常检测算法准确率较低。而有监督异常检测算法是将无监督任务转化为半监督或全监督任务，其需要大量的有标签数据，需要大量人力成本。因此现有的时间序列异常检测算法准确率较低、成本高。

技术实现思路

[0003]本专利技术实施例提供一种数据集的处理方法、装置及系统，解决现有技术中现有的时间序列异常检测算法准确率较低、成本高的问题。
[0004]为解决上述技术问题，本专利技术提供一种数据集的处理方法，所述方法包括：
[0005]获取无标签时间序列数据集的验证集；
[0006]对所述验证集进行异常点标注，得到所述验证集的第一伪标签集；
[0007]基于所述验证集的第一伪标签集获得所述验证集的第二伪标签集；
[...

【技术保护点】

【技术特征摘要】
1.一种数据集的处理方法，其特征在于，所述方法包括：获取无标签时间序列数据集的验证集；对所述验证集进行异常点标注，得到所述验证集的第一伪标签集；基于所述验证集的第一伪标签集获得所述验证集的第二伪标签集；基于所述第一伪标签集和第二伪标签集确定目标伪标签集，并基于所述目标伪标签集对初始检测模型进行处理，确定目标检测模型。2.根据权利要求1所述的处理方法，其特征在于，所述基于所述验证集的第一伪标签集获得所述验证集的第二伪标签集，包括：从所述验证集中选择待处理目标特征序列；对所述待处理目标特征序列进行分割，确定多个分割后的数据空间及各分割后的数据空间内的待处理时间样本；基于所述第一伪标签集对每个分割后的数据空间内的待处理时间样本进行处理，确定所述验证集的第二伪标签集。3.根据权利要求2所述的处理方法，其特征在于，所述待处理目标特征序列为V*K维大小的时间特征序列，其中，V、K均为正整数；所述对所述待处理目标特征序列进行分割，确定多个分割后的数据空间及各分割后的数据空间内的待处理时间样本，包括：计算所述待处理目标特征序列中K维数据的每个特征维度的方差，得到分割参考特征维度；基于所述分割参考特征维度将所述待处理目标特征序列中V个时间样本对应的1*K维数据分割至多个分割后的数据空间，得到所述多个分割后的数据空间及各分割后的数据空间内的待处理时间样本。4.根据权利要求3所述的处理方法，其特征在于，所述基于所述分割参考特征维度将所述待处理目标特征序列中V个时间样本对应的1*K维数据分割至多个分割后的数据空间，包括：对所述分割参考特征维度的特征值进行排序；从排序后的所述特征值中选择特征中值作为分割点，将所述待处理目标特征序列分割为两个K维空间；基于每个K维空间对应的待处理目标特征序列，继续执行所述对所述待处理目标特征序列进行分割的步骤；直到分割后的每个K维空间内样本数量不低于第一预设值；和/或分割后得到的K维空间的数量不低于第二预设值，其中，所述每个K维空间对应的待处理目标特征序列为V*K维大小的时间特征序列。5.根据权利要求2
‑
4任一项所述的处理方法，其特征在于，所述基于所述第一伪标签集对每个分割后的数据空间内的待处理时间样本进行处理，确定所述验证集的第二伪标签集，包括：将所述第一伪标签集中的特征数据与每个分割后的数据空间内的待处理时间样本进行比较，确定每个分割后的数据空间内至少一个的待处理时间样本的标签；从所述验证集中随机选择当前目标特征序列，将所述当前目标特征序列确定为当前待处理目标特征序列，并执行所述对所述...

【专利技术属性】
技术研发人员：张小静，刘兆涵，方磊，尚明栋，
申请(专利权)人：北京九章云极科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人