异常数据的检测方法及系统技术方案

技术编号:34434085 阅读:32 留言:0更新日期:2022-08-06 16:15
本发明专利技术提供了一种异常数据的检测方法及系统,所述方法包括:确定特征向量;获取历史特征向量,并生成包括多个所述历史特征向量的历史数据集;计算所述历史数据集中的每个历史特征向量与K个最近邻居的之间的距离的和值,作为每个历史特征向量的总距离,并根据所述历史数据集中的总距离的拐点,确定一参考阈值;针对待检测的第一特征向量,计算该第一特征向量与所述历史数据集中的K个最近邻居的之间的距离的第一和值,并根据所述第一和值与所述参考阈值,确定所述第一特征向量是否异常。本发明专利技术能够针对不同的应用场景,设置合适的异常数据检测的阈值,其计算过程简单,计算速度较快,且不依赖于数据集的标定数据。不依赖于数据集的标定数据。不依赖于数据集的标定数据。

【技术实现步骤摘要】
异常数据的检测方法及系统


[0001]本专利技术涉及数据采集和处理
,具体而言,本专利技术涉及一种异常数据的检测方法及系统。

技术介绍

[0002]在对现场采集的数据进行分析处理时,异常检测是数据分析中很常见的需求。例如,当系统检测到数据异常时,可以提醒管理人员进行故障排查或者提早进行观察,以尽早发现故障,或者避免异常数据进入后续的分析流程。
[0003]在异常检测中,通常需要设置异常检测的阈值,该阈值的设定具有一定的困难。有些数据可以依赖于相关组织或行业标准等进行阈值设定。例如,室内环境指标(温湿度,二氧化碳,PM2.5等)可以使用相关标准设定阈值,当采集到的数据超过阈值时即判断为异常。但是有些数据只能依靠经验来判断数据是否异常,从而成本较高,且没有理论依据,导致最终的异常检测结果不够准确。例如,针对地铁站客流的异常检测,电表数据的异常检测等,现有技术通常都是依赖于检测人员的经验进行阈值设置,很难找到合适的阈值进行自动化的异常检测。
[0004]现有技术的一篇中国申请(申请号201610911559.9)公开了一种异常数据检测方法,包括以下步骤:将待检测数据集利用主成分算法进行降维处理,形成第一数据集;将所述第一数据集利用主成分算法进行重构,形成第二数据集,所述第二数据集与所述待检测数据集具有相同的维度;计算所述待检测数据集与所述第二数据集对应数据之间的相关性;获取所述待检测数据中与所述第二数据集中对应数据差异大的异常数据。以上方案并未给出如何评价数据差异大的标准或阈值,如果仅依赖于检测人员的经验设置,则难以适用于不同的应用场景,且难以保证最终异常检测结果的准确性。因此,亟需一种能够设置合适的异常检测阈值并进行异常数据检测的方案,以提高异常数据检测的准确性。

技术实现思路

[0005]本专利技术实施例要解决的技术问题是提供一种异常数据的检测方法及系统,通过设置合适的异常数据检测的阈值,提高异常数据的检测结果的准确性。
[0006]为解决上述技术问题,本专利技术实施例提供的异常数据的检测方法,包括:
[0007]确定特征向量,所述特征向量由目标应用场景下需要检测的目标参数以及与所述目标参数相关的至少一个条件参数构成;
[0008]获取预先采集到的所述目标参数和所述至少一个条件参数的历史参数值,得到所述历史参数值对应的历史特征向量,并生成包括多个所述历史特征向量的历史数据集;
[0009]计算所述历史数据集中的每个历史特征向量与K个最近邻居的之间的距离的和值,作为每个历史特征向量的总距离,并根据所述历史数据集中的总距离的拐点,确定一参考阈值;
[0010]针对待检测的第一特征向量,计算该第一特征向量与所述历史数据集中的K个最
近邻居的之间的距离的第一和值,并根据所述第一和值与所述参考阈值,确定所述第一特征向量是否异常。
[0011]可选的,所述根据所述历史数据集中的总距离的拐点,确定一参考阈值,包括:
[0012]按照从大到小的顺序,对所述历史数据集中的总距离排序,得到一个总距离的数值序列;
[0013]对所述数值序列进行曲线拟合,得到一拟合曲线;
[0014]计算所述拟合曲线中的拐点,并根据所述拐点对应的总距离,确定所述参考阈值。
[0015]可选的,所述根据所述历史数据集中的总距离的拐点,确定一参考阈值,包括:
[0016]按照从大到小的顺序,对所述历史数据集中的总距离排序,得到一个总距离的数值序列;
[0017]针对所述序列中的每个总距离,计算该总距离的2倍值与相邻的两个总距离之间的差值的绝对值,作为该总距离对应的拐点参考值;
[0018]根据最大的拐点参考值所对应的总距离,确定所述参考阈值。
[0019]可选的,所述根据所述第一和值与所述参考阈值,确定所述第一特征向量是否异常,包括:
[0020]在所述第一和值大于所述参考阈值时,确定所述第一特征向量中的目标参数为异常状态;
[0021]在所述第一和值不大于所述参考阈值时,确定所述第一特征向量中的目标参数为正常状态。
[0022]可选的,所述方法还包括:
[0023]将新采集到的特征向量,添加至所述历史数据集中;
[0024]在所述历史数据集中新增的特征向量的数量达到预定门限时,重新执行确定所述参考阈值的步骤,更新所述参考阈值。
[0025]可选的,在所述目标应用场景为车站,所述目标参数为单位时间内的客流量时,所述条件参数包括月份、日期类型、所述单位时间的起始时刻、气温和降雨量中的至少一种;
[0026]在所述目标应用场景为电表,所述目标参数为单位时间能耗值时,所述条件参数包括月份、日期类型、所述单位时间的起始时刻和气温中的至少一种。
[0027]本专利技术实施例还提供了一种异常数据的检测系统,包括:
[0028]向量确定单元,用于确定特征向量,所述特征向量由目标应用场景下需要检测的目标参数以及与所述目标参数相关的至少一个条件参数构成;
[0029]历史数据获取单元,用于获取预先采集到的所述目标参数和所述至少一个条件参数的历史参数值,得到所述历史参数值对应的历史特征向量,并生成包括多个所述历史特征向量的历史数据集;
[0030]阈值确定单元,用于计算所述历史数据集中的每个历史特征向量与K个最近邻居的之间的距离的和值,作为每个历史特征向量的总距离,并根据所述历史数据集中的总距离的拐点,确定一参考阈值;
[0031]异常检测单元,用于针对待检测的第一特征向量,计算该第一特征向量与所述历史数据集中的K个最近邻居的之间的距离的第一和值,并根据所述第一和值与所述参考阈值,确定所述第一特征向量是否异常。
[0032]可选的,所述阈值确定单元包括:
[0033]第一排序单元,用于按照从大到小的顺序,对所述历史数据集中的总距离排序,得到一个总距离的数值序列;
[0034]曲线拟合单元,用于对所述数值序列进行曲线拟合,得到一拟合曲线;
[0035]第一计算单元,用于计算所述拟合曲线中的拐点,并根据所述拐点对应的总距离,确定所述参考阈值。
[0036]可选的,所述阈值确定单元包括:
[0037]第二排序单元,用于按照从大到小的顺序,对所述历史数据集中的总距离排序,得到一个总距离的数值序列;
[0038]第二计算单元,用于针对所述序列中的每个总距离,计算该总距离的2倍值与相邻的两个总距离之间的差值的绝对值,作为该总距离对应的拐点参考值;
[0039]第三计算单元,用于根据最大的拐点参考值所对应的总距离,确定所述参考阈值。
[0040]可选的,所述异常检测单元,具体用于:在所述第一和值大于所述参考阈值时,确定所述第一特征向量中的目标参数为异常状态;在所述第一和值不大于所述参考阈值时,确定所述第一特征向量中的目标参数为正常状态。
[0041]可选的,所述系统还包括:
[0042]阈值更新单元,用于将新采本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种异常数据的检测方法,其特征在于,包括:确定特征向量,所述特征向量由目标应用场景下需要检测的目标参数以及与所述目标参数相关的至少一个条件参数构成;获取预先采集到的所述目标参数和所述至少一个条件参数的历史参数值,得到所述历史参数值对应的历史特征向量,并生成包括多个所述历史特征向量的历史数据集;计算所述历史数据集中的每个历史特征向量与K个最近邻居的之间的距离的和值,作为每个历史特征向量的总距离,并根据所述历史数据集中的总距离的拐点,确定一参考阈值;针对待检测的第一特征向量,计算该第一特征向量与所述历史数据集中的K个最近邻居的之间的距离的第一和值,并根据所述第一和值与所述参考阈值,确定所述第一特征向量是否异常。2.如权利要求1所述的方法,其特征在于,所述根据所述历史数据集中的总距离的拐点,确定一参考阈值,包括:按照从大到小的顺序,对所述历史数据集中的总距离排序,得到一个总距离的数值序列;对所述数值序列进行曲线拟合,得到一拟合曲线;计算所述拟合曲线中的拐点,并根据所述拐点对应的总距离,确定所述参考阈值。3.如权利要求1所述的方法,其特征在于,所述根据所述历史数据集中的总距离的拐点,确定一参考阈值,包括:按照从大到小的顺序,对所述历史数据集中的总距离排序,得到一个总距离的数值序列;针对所述序列中的每个总距离,计算该总距离的2倍值与相邻的两个总距离之间的差值的绝对值,作为该总距离对应的拐点参考值;根据最大的拐点参考值所对应的总距离,确定所述参考阈值。4.如权利要求1所述的方法,其特征在于,所述根据所述第一和值与所述参考阈值,确定所述第一特征向量是否异常,包括:在所述第一和值大于所述参考阈值时,确定所述第一特征向量中的目标参数为异常状态;在所述第一和值不大于所述参考阈值时,确定所述第一特征向量中的目标参数为正常状态。5.如权利要求1所述的方法,其特征在于,还包括:将新采集到的特征向量,添加至所述历史数据集中;在所述历史数据集中新增的特征向量的数量达到预定门限时,重新执行确定所述参考阈值的步骤,更新所述参考阈值。6.如权利要求1所述的方法,其特征在于,在所述目标应用场景为车站,所述目标参数为单位时间内的客流量时,所述条件参数包括月份、日期类型、所述单位时间的起始时刻、气温和降雨量中的至少一种;在所述目标应用场景为电表,所述目标参数为单位时间能耗值时,所述条件参数包括月份、日期类型、所述单位时间的起始时刻和气温中的至少一种。
7.一种异常数据的检测系统,其特征在于,包...

【专利技术属性】
技术研发人员:车航宇鲁时雨
申请(专利权)人:株式会社日立制作所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1