基于弹性网络的序列集成高维数据异常检测系统及方法技术方案

技术编号:23624628 阅读:14 留言:0更新日期:2020-03-31 22:32
本发明专利技术公开了一种基于弹性网络的集成高维数据异常检测系统,包括对应于高维数据中每一维度的单层系统和与每一维度的单层系统连接的总成集成模块;单层系统包括:数据模块;异常打分模块,第一输入端与数据模块连接;选择模块,输入端与异常打分模块的第一输出端连接;弹性网络模块,输入端与选择模块连接,输出端与异常打分模块的第二输入端连接;单层集成模块,与异常打分模块的第二输出端连接;总成集成模块与每一维度的单层集成模块连接。此方法解决了高维数据异常检测的个体预测误差大,检测精度低和稳定性差的问题,实现了高维数据个体预测模型的小误差、高精度,保证了异常检测的稳定性。

Anomaly detection system and method of sequence integration high dimensional data based on elastic network

【技术实现步骤摘要】
基于弹性网络的序列集成高维数据异常检测系统及方法
本专利技术涉及高维数据异常检测
,具体涉及一种基于弹性网络的序列集成高维数据异常检测系统及方法。
技术介绍
异常数据检测通常是识别出不满足一般数据分布的数据对象或者是识别出与大多数数据对象存在明显偏离的数据对象。异常数据检测可以为医疗诊断,欺诈检测和信息安全等一系列领域中的广泛应用提供重要的参考依据。通常这些应用领域中产生的数据都是高维数值型数据,例如生物信息学中数以千计的分子或基因表达特征、交易欺诈中成千上万的数据特征、网络攻击中各种复杂的信息特征等。所谓的高维数据,是指维数较高的数据,它们的维度通常可达到成百上千,甚至更高。对于高维数值型数据进行分析和处理主要有两个困难:一是欧式距离的无法使用的问题。在低维空间中,欧式距离是有意义的,可以用来衡量数据之间的相似性,但是在高维空间中的距离就没有太大的意义。二是维数灾难问题。当维数越来越多的时候,计算量会迅速上升,分析和处理高维数据的复杂度和成本会是指数增长的。因此,在对高维数值型数据进行异常数据检测的过程中会面临以下挑战:(1)高维数值型数据中通常包含与异常数据无关的特征和噪声数据。这些无关的特征和噪声数据会对高维数值型数据的异常检测带来影响。(2)随着数据维数的增加,邻居、距离以及最近邻等低维空间中的相关概念会无法使用,导致无法使用基于距离、密度等常规的异常数据检测方法。(3)利用特征提取的方法对高维数据进行降维,如何衡量所提特征的准确性是一个问题。目前也存在较多关于异常数据检测的方法,如基于距离的方法,基于密度的方法,基于树的方法等。但是由于这些方法的计算复杂性和效率问题,在对高维数据进行异常数据检测的时候需要花费较大的代价,并且在高维数据的异常检测效果方面表现的不是特别好。因此并不能够把这些方法简单地应用在高维数据的异常检测方面,需要对高维数据进行处理之后再利用这些方法进行检测。为了对高维数值型数据进行异常数据检测,通常是将高维数据映射到低维空间中,从而保留与异常数据相关的信息以便在低维空间中对异常数据进行检测。后来,基无监督表示学习的技术开始出现,如子空间特征选择方法、神经网络和流学习方法等。基于子空间的特征选择方法是通过寻找与异常数据相关的特征子集以此来减弱无关特征带来的影响,然后再对这些特征子集进行常规的异常数据检测。这种方法通常将子集选择和异常数据检测分开,这样会导致一些与异常数据无关的特征被用来进行异常数据的检测。因此这种方法会导致异常数据检测的精度降低并且有较大的偏差。基于神经网络和流学习的方法侧重于保留数据的规律性信息(如数据结构、邻近信息),然后用于聚类和数据压缩等学习任务。因此,它们保留的信息往往包含了冗余数据。针对以上各种方法的局限性以及高维数值型数据异常检测面临的挑战,后来出现了基于集成学习的异常数据检测方法。这些方法旨在将多个预测模型组合在一起,以利用“众多力量”实现对异常数据的检测。基于集成学习的方法虽然能够在一定程度上减少整体预测模型的检测误差,但是不能对每一个预测模型的误差进行改进。基于减少个体预测模型误差的CARE方法虽然解决了个体预测模型存在误差的问题,但是该方法在处理高维数据的异常检测问题时表现不理想。基于序列集成的CINFO方法通过构建序列的异常数据检测模型实现对高维数据的特征提取和异常数据检测。但是,该方法在利用序列集成学习的方法进行异常数据选择的时候使用固定的阈值,这样的方法适用于异常数据占比和该阈值对应的数据集,一旦异常数据占比改变的时候,该方法中的固定阈值就不能很好的实现对异常数据的检测。另外,该方法利用套索回归(Lasso)对变量或者特征进行特征提取时,在面对具有多重共线性的变量或者特征的时候只是从其中任意的选择一个,这样会导致对变量或者特征的选择过于随意并且稳定性不能得到保障。
技术实现思路
本专利技术的目的是提供一种基于弹性网络的序列集成高维数据异常检测系统及方法。该系统及方法旨在解决高维数据异常检测的个体预测误差大,检测精度低和稳定性差的问题,实现高维数据个体预测模型的小误差、高精度,保证异常检测的稳定性。高维数据的维度很高,当维度越来越多的时候,计算量会迅速上升,为了简化计算量,在高维数据的维度的每一维度中分别进行异常检测。为达到上述目的,本专利技术提供了一种基于弹性网络的集成高维数据异常检测系统,该系统包括对应于高维数据中每一维度的单层系统和与每一维度的单层系统连接的总成集成模块;单层系统包括:数据模块,用于接收高维数据中每一维度的单层初始数据;异常打分模块,第一输入端与数据模块连接,用于对单层初始数据进行第一次异常打分,获得单层初始数据中的异常得分向量;选择模块,输入端与异常打分模块的第一输出端连接,用于根据异常得分向量对单层初始数据进行选择,获得异常数据集;弹性网络模块,输入端与选择模块连接,输出端与异常打分模块的第二输入端连接,用于根据异常得分向量对异常数据集进行特征提取,生成特征向量和均方误差;异常打分模块进一步用于对特征向量和均方误差进行第二次异常打分,获取分数异常的异常特征向量;单层集成模块,与异常打分模块的第二输出端连接,用于对输出的均方误差和分数异常的异常特征向量进行第一次集成,获得单层异常结果;总成集成模块与每个单层系统的单层集成模块连接,对各单层系统输出的单层异常结果进行第二次集成,获得最终异常结果。本专利技术还提供了一种基于弹性网络的集成高维数据异常检测方法,包括以下步骤:接收高维数据中每一维度的单层初始数据,并对单层初始数据进行第一次异常打分,获得单层初始数据中的异常得分向量;根据异常得分向量对单层初始数据进行选择,获得异常数据集;根据异常得分向量对异常数据集进行特征提取,生成特征向量和均方误差;根据特征向量和均方误差进行第二次异常打分,获取分数异常的异常特征向量;将均方误差与弹性网络模块设置的均方误差初始值进行比较,在均方误差大于均方误差初始值时,输出均方误差;在均方误差小于均方误差初始值时,单层系统对此维度的单层初始数据重复循环上述操作,直到均方误差大于上一次的均方误差时,输出此次的均方误差;对输出的均方误差和分数异常的异常特征向量进行第一次集成,获得每个维度的单层异常结果;对高维数据中各维度的单层异常结果进行第二次集成,获得最终异常结果。最优选的,单层初始数据为Xi,i=1,2,3...N,且满足:Xi=(x1,x2,…,xM)其中,M为单层初始数据中的特征个数;高维数据为X,且满足:X={X1,X1,…,XN}其中,N为高维数据中的维度数。最优选的,第一次和/或第二次异常打分是基于隔离森林的方式,基于隔离森林的方式包括采样、建立隔离树、计算路径长度、对路径长度归一化。最优选的,根据异常得分向量对单层初始数据进行选择,获得异常数据集,包括以下步骤:计算异常得分向量Si的期望E(S本文档来自技高网
...

【技术保护点】
1.一种基于弹性网络的集成高维数据异常检测系统,其特征在于,该系统包括对应于高维数据中每一维度的单层系统和与所述每一维度的单层系统连接的总成集成模块;/n所述单层系统包括:/n数据模块,用于接收高维数据中每一维度的单层初始数据;/n异常打分模块,第一输入端与所述数据模块连接,用于对所述单层初始数据进行第一次异常打分,获得所述单层初始数据中的异常得分向量;/n选择模块,输入端与所述异常打分模块的第一输出端连接,用于根据所述异常得分向量对所述单层初始数据进行选择,获得异常数据集;/n弹性网络模块,输入端与所述选择模块连接,输出端与所述异常打分模块的第二输入端连接,用于根据所述异常得分向量对所述异常数据集进行特征提取,生成特征向量和均方误差;/n所述异常打分模块进一步用于对所述特征向量和所述均方误差进行第二次异常打分,获取分数异常的异常特征向量;/n单层集成模块,与所述异常打分模块的第二输出端连接,用于对输出的均方误差和所述异常特征向量进行第一次集成,获得单层异常结果;/n所述总成集成模块与所述每个单层系统的单层集成模块连接,对各单层系统输出的所述单层异常结果进行第二次集成,获得最终异常结果。/n...

【技术特征摘要】
1.一种基于弹性网络的集成高维数据异常检测系统,其特征在于,该系统包括对应于高维数据中每一维度的单层系统和与所述每一维度的单层系统连接的总成集成模块;
所述单层系统包括:
数据模块,用于接收高维数据中每一维度的单层初始数据;
异常打分模块,第一输入端与所述数据模块连接,用于对所述单层初始数据进行第一次异常打分,获得所述单层初始数据中的异常得分向量;
选择模块,输入端与所述异常打分模块的第一输出端连接,用于根据所述异常得分向量对所述单层初始数据进行选择,获得异常数据集;
弹性网络模块,输入端与所述选择模块连接,输出端与所述异常打分模块的第二输入端连接,用于根据所述异常得分向量对所述异常数据集进行特征提取,生成特征向量和均方误差;
所述异常打分模块进一步用于对所述特征向量和所述均方误差进行第二次异常打分,获取分数异常的异常特征向量;
单层集成模块,与所述异常打分模块的第二输出端连接,用于对输出的均方误差和所述异常特征向量进行第一次集成,获得单层异常结果;
所述总成集成模块与所述每个单层系统的单层集成模块连接,对各单层系统输出的所述单层异常结果进行第二次集成,获得最终异常结果。


2.一种基于弹性网络的集成高维数据异常检测方法,其特征在于,该方法包括以下步骤:
接收高维数据中每一维度的单层初始数据,并对所述单层初始数据进行第一次异常打分,获得所述单层初始数据中的异常得分向量;
根据所述异常得分向量对所述单层初始数据进行选择,获得异常数据集;
根据所述异常得分向量对所述异常数据集进行特征提取,生成特征向量和均方误差;
根据所述特征向量和所述均方误差进行第二次异常打分,获取分数异常的异常特征向量;
对输出的所述均方误差和所述异常特征向量进行第一次集成,获得每个维度的单层异常结果;
对各维度的所述单层异常结果进行第二次集成,获得最终异常结果。


3.如权利要求2所述的基于弹性网络的集成高维数据异常检测方法,其特征在于,所述单层初始数据为Xi,i=1,2,3...N,且满足:
Xi=(x1,x2,…,xM)
其中,M为所述单层初始数据中的特征个数;高维数据为X,且满足:
X={X1,X1,…,XN}
其中,N为高维数据中的维度数。


4.如权利要求2所述的基于弹性网络的集成高维数据异常检测方法,其特征在于,所述第一次打分和/或第二次异常打分是基于隔离森林的方式,所述基于隔离森林的方式包括:采样、建立隔离树、计算路径长度、对路径长度归一化。


5.如权利要求2所述的基于弹性网络的集成高维数据异常检测方法,其特征在于,所述根据所述异常得分向量对所述单层初始数据进行选择,获得异常数据集,包括以下步骤:
计算所述异常得分向量Si的期望E(Si)=μ和方差D(Si)=σ2;
根据所述期望E(Si)和方差D(Si)计算异常值候选函数;所述异常值候选函数为H(Si,α),且满足:
H(Si,α)=Si-μ-ασ

【专利技术属性】
技术研发人员:陈南钱偲书张晶张露维宋轶慧刘文意陈晨邵佳炜李科心李静
申请(专利权)人:国网上海市电力公司南京航空航天大学国家电网有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1