【技术实现步骤摘要】
基于弹性网络的序列集成高维数据异常检测系统及方法
本专利技术涉及高维数据异常检测
,具体涉及一种基于弹性网络的序列集成高维数据异常检测系统及方法。
技术介绍
异常数据检测通常是识别出不满足一般数据分布的数据对象或者是识别出与大多数数据对象存在明显偏离的数据对象。异常数据检测可以为医疗诊断,欺诈检测和信息安全等一系列领域中的广泛应用提供重要的参考依据。通常这些应用领域中产生的数据都是高维数值型数据,例如生物信息学中数以千计的分子或基因表达特征、交易欺诈中成千上万的数据特征、网络攻击中各种复杂的信息特征等。所谓的高维数据,是指维数较高的数据,它们的维度通常可达到成百上千,甚至更高。对于高维数值型数据进行分析和处理主要有两个困难:一是欧式距离的无法使用的问题。在低维空间中,欧式距离是有意义的,可以用来衡量数据之间的相似性,但是在高维空间中的距离就没有太大的意义。二是维数灾难问题。当维数越来越多的时候,计算量会迅速上升,分析和处理高维数据的复杂度和成本会是指数增长的。因此,在对高维数值型数据进行异常数据检测的过程中会面临以下挑战:(1)高维数值型数据中通常包含与异常数据无关的特征和噪声数据。这些无关的特征和噪声数据会对高维数值型数据的异常检测带来影响。(2)随着数据维数的增加,邻居、距离以及最近邻等低维空间中的相关概念会无法使用,导致无法使用基于距离、密度等常规的异常数据检测方法。(3)利用特征提取的方法对高维数据进行降维,如何衡量所提特征的准确性是一个问题。目前也存在较多关于异 ...
【技术保护点】
1.一种基于弹性网络的集成高维数据异常检测系统,其特征在于,该系统包括对应于高维数据中每一维度的单层系统和与所述每一维度的单层系统连接的总成集成模块;/n所述单层系统包括:/n数据模块,用于接收高维数据中每一维度的单层初始数据;/n异常打分模块,第一输入端与所述数据模块连接,用于对所述单层初始数据进行第一次异常打分,获得所述单层初始数据中的异常得分向量;/n选择模块,输入端与所述异常打分模块的第一输出端连接,用于根据所述异常得分向量对所述单层初始数据进行选择,获得异常数据集;/n弹性网络模块,输入端与所述选择模块连接,输出端与所述异常打分模块的第二输入端连接,用于根据所述异常得分向量对所述异常数据集进行特征提取,生成特征向量和均方误差;/n所述异常打分模块进一步用于对所述特征向量和所述均方误差进行第二次异常打分,获取分数异常的异常特征向量;/n单层集成模块,与所述异常打分模块的第二输出端连接,用于对输出的均方误差和所述异常特征向量进行第一次集成,获得单层异常结果;/n所述总成集成模块与所述每个单层系统的单层集成模块连接,对各单层系统输出的所述单层异常结果进行第二次集成,获得最终异常结果 ...
【技术特征摘要】 【专利技术属性】
1.一种基于弹性网络的集成高维数据异常检测系统,其特征在于,该系统包括对应于高维数据中每一维度的单层系统和与所述每一维度的单层系统连接的总成集成模块;
所述单层系统包括:
数据模块,用于接收高维数据中每一维度的单层初始数据;
异常打分模块,第一输入端与所述数据模块连接,用于对所述单层初始数据进行第一次异常打分,获得所述单层初始数据中的异常得分向量;
选择模块,输入端与所述异常打分模块的第一输出端连接,用于根据所述异常得分向量对所述单层初始数据进行选择,获得异常数据集;
弹性网络模块,输入端与所述选择模块连接,输出端与所述异常打分模块的第二输入端连接,用于根据所述异常得分向量对所述异常数据集进行特征提取,生成特征向量和均方误差;
所述异常打分模块进一步用于对所述特征向量和所述均方误差进行第二次异常打分,获取分数异常的异常特征向量;
单层集成模块,与所述异常打分模块的第二输出端连接,用于对输出的均方误差和所述异常特征向量进行第一次集成,获得单层异常结果;
所述总成集成模块与所述每个单层系统的单层集成模块连接,对各单层系统输出的所述单层异常结果进行第二次集成,获得最终异常结果。
2.一种基于弹性网络的集成高维数据异常检测方法,其特征在于,该方法包括以下步骤:
接收高维数据中每一维度的单层初始数据,并对所述单层初始数据进行第一次异常打分,获得所述单层初始数据中的异常得分向量;
根据所述异常得分向量对所述单层初始数据进行选择,获得异常数据集;
根据所述异常得分向量对所述异常数据集进行特征提取,生成特征向量和均方误差;
根据所述特征向量和所述均方误差进行第二次异常打分,获取分数异常的异常特征向量;
对输出的所述均方误差和所述异常特征向量进行第一次集成,获得每个维度的单层异常结果;
对各维度的所述单层异常结果进行第二次集成,获得最终异常结果。
3.如权利要求2所述的基于弹性网络的集成高维数据异常检测方法,其特征在于,所述单层初始数据为Xi,i=1,2,3...N,且满足:
Xi=(x1,x2,…,xM)
其中,M为所述单层初始数据中的特征个数;高维数据为X,且满足:
X={X1,X1,…,XN}
其中,N为高维数据中的维度数。
4.如权利要求2所述的基于弹性网络的集成高维数据异常检测方法,其特征在于,所述第一次打分和/或第二次异常打分是基于隔离森林的方式,所述基于隔离森林的方式包括:采样、建立隔离树、计算路径长度、对路径长度归一化。
5.如权利要求2所述的基于弹性网络的集成高维数据异常检测方法,其特征在于,所述根据所述异常得分向量对所述单层初始数据进行选择,获得异常数据集,包括以下步骤:
计算所述异常得分向量Si的期望E(Si)=μ和方差D(Si)=σ2;
根据所述期望E(Si)和方差D(Si)计算异常值候选函数;所述异常值候选函数为H(Si,α),且满足:
H(Si,α)=Si-μ-ασ
技术研发人员:陈南,钱偲书,张晶,张露维,宋轶慧,刘文意,陈晨,邵佳炜,李科心,李静,
申请(专利权)人:国网上海市电力公司,南京航空航天大学,国家电网有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。