当前位置: 首页 > 专利查询>郑州大学专利>正文

一种基于子空间的危化品使用数据异常检测方法技术

技术编号:39258127 阅读:14 留言:0更新日期:2023-10-30 12:09
本专利实现了一种基于子空间的危化品使用数据异常检测方法,属于计算机技术与化学的交叉领域。危化品使用数据集具有稀疏、高维的特征,本专利研究基于子空间理论的异常检测改进算法。首先,基于聚簇分类的粒子群优化算法,将社会学习模型与动态差值思想引入粒子更新策略中,解决多模态问题下粒子种群多样性丢失、早熟收敛等问题,并设计聚簇内粒子数量自适应调节策略,在减少计算开销的同时平衡粒子的多样性与收敛性。其次,利用粒子群优化算法对数据属性集进行子空间搜索,得到最优子空间集,实现高维数据的低维映射。最后,使用局部离群因子算法,在最优子空间集上检测异常数据。本发明专利技术与传统异常检测方法相比,具有较高的有效性与正确性。效性与正确性。效性与正确性。

【技术实现步骤摘要】
一种基于子空间的危化品使用数据异常检测方法


[0001]本专利技术涉及一种基于改进粒子群的子空间异常检测方法,属于计算机


技术介绍

[0002]随着信息技术的普及与应用,许多高校、研究所等单位的实验室使用了信息化管理系统,使得实验室物品、人员、实验等均转化为数字信息,提升了实验室管理水平。随着信息系统的使用,产生了大量相关数据,如何利用先进的信息技术,挖掘、利用这些数据,感知安全风险,提高实验室智能化管理水平,已成为异常检测领域的研究热点之一。
[0003]本专利对危化品在实验室管理系统中的使用数据进行分析。危化品的生产实践需要遵循特定的化学反应方程式,因此,在进行一些相似的、固定的危化品相关实验中,所需要的危化品种类和数量往往有迹可循。例如乙烯的制取实验中,需要特定数量的乙醇和浓硫酸,如果某一条使用数据同时包含乙醇和浓硫酸,但其使用数量与同一实验或同类实验数据对象有较大差异,在实验过程中会因不符合化学反应规范导致燃烧、爆炸等事故。针对上述使用数据中存在的反常现象,提出基于改进粒子群的子空间异常检测算法,用以检测危化品使用数据中的异常,实现异常感知与风险预警。

技术实现思路

[0004]技术问题:危化品使用数据集具有稀疏、高维的特征,传统子空间异常检测技术虽在高维数据集上具有良好的检测效果,但普遍存在子空间质量较低、子空间多样性不足等问题。为此,本专利研究基于子空间进行异常检测的改进算法。
[0005]技术方案:本专利技术提供一种基于子空间的危化品使用数据异常检测方法。首先,提出基于聚簇分类的粒子群优化算法,使用聚簇分类的思想,将新型社会学习模型与动态差值思想引入粒子更新策略之中,解决多模态问题下粒子种群多样性丢失、早熟收敛等问题,并设计聚簇内粒子数量自适应调节策略,使得在减少计算开销的同时平衡粒子的多样性与收敛性。其次,利用该粒子群优化算法对数据属性集进行子空间搜索,得出最优子空间集,实现高维数据的低维映射。最后,使用局部离群因子算法,在最优子空间集上计算异常分数,判定异常数据。因此,本专利技术主要包括以下步骤:
[0006](1)基于改进粒子群算法进行子空间划分;
[0007](2)使用局部离群因子算法计算各数据对象的异常分数
[0008]具体变量描述情况如表1所示:
[0009]表1变量描述
[0010]变量变量解释DB数据集AS全局属性空间m粒子种群大小n最大粒子种群迭代次数
[0011]下面是对每个步骤实现的具体描述。
[0012]基于改进粒子群算法进行子空间划分的步骤:
[0013]以下从初始化、聚簇分类、适应度计算、聚簇内粒子数量动态调节、速度更新、位置更新、粒子离散映射等方面详细阐述基于改进粒子群算法的子空间划分。
[0014](1)初始化
[0015]对数据的某一个属性,只有选或不选两种离散状态,本章以数值0代表当前子空间未选择这一属性,以数值1代表当前子空间选择了这一属性。在初始化过程中,为所有粒子的每一个属性维度上随机赋予离散值0或1。为保证多样性,要求在每一个属性维度上,选择该维度的粒子数量大于max(m/2d,3)。在粒子速度初始化方面,为粒子在每一个属性维度的速度赋予一个(

1,1)之间的随机连续值。
[0016](2)聚簇分类
[0017]若当前迭代次数未到聚簇分类周期T,跳过此步骤。否则,按照如下所述聚簇分类过程,将粒子分为聚簇粒子和分散粒子。
[0018]为平衡粒子的局部探索和全局探索能力,本文提出聚簇分类的概念。以下从概念描述、聚簇形成过程、聚簇粒子、分散粒子和调优策略5个部分介绍。
[0019]1)概念描述
[0020]聚簇分类即指根据邻域内粒子密集程度的不同对粒子进行分类的过程。标准粒子群算法在迭代过程中,会在某些区域上出现粒子聚集现象,这种聚集既可能是随机现象,也可能意味着在该区域内存在最优解。本章通过相似度在粒子聚集处构建聚簇,据此将粒子分为聚簇内粒子(聚簇粒子)和聚簇外粒子(分散粒子)两类,根据粒子种类的不同赋予粒子不同的运动特性,以协调算法的局部开发和全局勘探能力,保证解集的多样性。
[0021]2)聚簇形成过程
[0022]对于粒子群中的两个粒子X
i
(x
i,1
,x
i,2
,...,x
i,D
)和X
j
(x
j,1
,x
j,2
,...,x
j,D
),通过公式(1)进行相似度计算,若粒子相似度小于阈值Threshold,则将这两个粒子组成一个初始化聚簇,同时遍历种群中的其余粒子,若与聚簇内粒子相似,则将相似粒子也加入初始化聚簇中。最后统计初始化聚簇内粒子的数量,若大于给定阈值,初始化聚簇进化成为正式聚簇,聚簇内粒子成为聚簇粒子,若小于给定阈值,认为该初始化聚簇不满足进化条件,聚簇解散,聚簇内粒子仍为分散粒子。
[0023][0024]3)聚簇粒子
[0025]聚簇粒子指邻域内粒子密集程度超过给定阈值的一类粒子。聚簇粒子负责聚簇局部区域的探索,采用基于新型社会学习的更新策略,让粒子充分学习聚簇内其它优秀粒子的特征,增强收敛能力。对于聚簇内某一粒子X,其演示者集合即为聚簇内所有适应度比X高的粒子组成的集合,通过使用新型社会模型中的单示例学习方法和均值示例学习方法,让聚簇粒子充分学习其演示者集合中的优秀特征,使其在保证收敛能力的同时,充分探索解空间。速度更新和位置更新分别如公式(2)、(3)所示。
[0026][0027]X
i
(t+1)=X
i
(t)+V
i
(t+1)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0028]公式(2)中代表从演示者集合中随机选择的粒子X
k
的个人最优解,表示粒子X
i
的前k个演示者的P
best
平均值。
[0029]4)分散粒子
[0030]分散粒子是指粒子邻域内粒子数量不足以生成聚簇的一类粒子。分散粒子负责聚簇以外区域的探索,既可以在疑似存在最优解的位置形成新的聚簇,又可以将粒子随机均匀的布满整个解空间,保证算法的多样性。分散粒子使用基于动态差值项的速度与位置更新策略,通过在粒子速度方程中增加粒子上一次迭代中位置与速度的差值,使粒子具有更强的随机性与运动能力。速度更新过程和位置更新过程如公式(4)、(5)所示。
[0031][0032]X
i
(t+1)=X
i
(t)+V
i
(t+1) (5)
[0033]公式(4)中ρ代表动态差值项的权重系统,0≤ρ≤1,在迭代初期,ρ应取较大值,以赋予分散粒子更强的运动能力,在迭代后期,ρ取较小值,保证算法的收敛。
[0034]5)调优策略
[003本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.危化品使用数据异常检测方法,其特征在于:(1)以聚簇分类的方式对粒子群中的粒子进行分类;(2)提出聚簇内粒子数量动态调节策略;(3)提出聚簇内粒子新增和删除策略;(4)使用该改进的粒子群算法进行子空间划分。2.根据权利1所述的危化品使用数据异常检测方法,其特征在于:聚簇分类即指根据邻域内粒子密集程度的不同对粒子进行分类的过程。标准粒子群算法在迭代过程中,会在某些区域上出现粒子聚集现象,这种聚集既可能是随机现象,也可能意味着在该区域内存在最优解。本章通过相似度在粒子聚集处构建聚簇,据此将粒子分为聚簇内粒子(聚簇粒子)和聚簇外粒子(分散粒子)两类,根据粒子种类的不同赋予粒子不同的运动特性,以协调算法的局部开发和全局勘探能力,保证解集的多样性。3.根据权利1所述的危化品使用数据异常检测方法,其特征在于:在粒子群迭代过程中,聚簇的多样性和收敛速度决定了调整聚簇大小的时机以及从聚簇中删除或新增粒子的比例。以下为聚簇的相对收敛性和相对多样性定义。定义1:相对收敛性对于第t代的第m个聚簇,聚簇的相对收敛能力由第t

2代到第t代的最佳适应度的变化率定义,其表达式如公式(1)所示。公式(1)中,代表第t代的第m个聚簇中适应度最佳值。当时,表示聚簇的相对收敛能力下降,且值越大,收敛能力下降越快。当时,表示聚簇的相对收敛能力增加,且值越大,收敛能力增加得越快。定义2:相对多样性对于第t代的第m个聚簇,其相对多样性由第t

1代到第t代的适应度偏差变化率定义,其表达式如公式(2)所示。公式(2)中,表示粒子X
i
的适应度计算函数,代表第m个聚簇的平均适应度,N
m
为该聚簇的大小,μ是接近1的实数,且满足0<μ<1,用于保证算法最终收敛。当时,表示聚簇的相对多样性逐渐降低,且值越大,多样性下降得越快。当时,表示聚簇的相对多样性增加,且值越大,多样性增加得越快。通过聚簇的相对收敛性和相对多样性动态调节聚簇内粒子数量,调节策略如下:聚簇的相对收敛性和相对多样性的值如式(3)所示。
此时,聚簇的收敛速度变快且相对多样性变弱,意味着聚簇已经找到局部最优解,聚簇内大部分粒子都在向该最优解快速靠拢。鉴于此时聚簇内粒子数量较少且多样性较差,可以适当的增加聚簇内粒子的数量,以保证粒子能充分探索聚簇内的解空间。聚簇的相对收敛性和相对多样性的值如式(4)所示。此时,聚簇的收敛能力变弱且多样性提高,意味着聚簇可能已经找到或者正在接近问题的最优解。鉴于该聚簇的规模较大,且多样性良好,...

【专利技术属性】
技术研发人员:李钝杨国威谢江南郑志蕴
申请(专利权)人:郑州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1