System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于属性粒对象熵的异常检测方法技术_技高网
当前位置: 首页 > 专利查询>四川大学专利>正文

一种基于属性粒对象熵的异常检测方法技术

技术编号:41746712 阅读:2 留言:0更新日期:2024-06-21 21:32
本发明专利技术公开了一种基于属性粒对象熵的异常检测方法,包括以下步骤:S1、根据形式背景计算对象之间的对象互信息;S2、根据对象互信息计算对象的相关性,将相关性最小的对象加入到有序对象集,其余的加入到候选对象集;S3、根据候选对象集和有序对象集计算每个候选对象与每个选定对象的聚合度,满足最小相关最大聚合的候选对象加入到有序对象集,重复S3直至完成对所有候选对象的判断,否则进行下一候选对象的判断;S4、依次计算有序对象集中每个对象的离群分数;本发明专利技术采用了一种新的标称数据相似度度量方法,该方法能合理地表征标称数据差异,避免了使用欧几里得度量时的缺陷,提高了异常检测的准确性和效率。

【技术实现步骤摘要】

本专利技术属于离群检测,尤其涉及一种利用概念格理论构造的对象熵来检测标称数据异常的方法。


技术介绍

1、离群点检测(又称异常点检测)是数据挖掘的一个重要研究领域。在大多数知识发现研究中,离群值通常被当作噪音丢弃。然而,在许多应用研究中,发现离群值可能更有价值。概念格是形式概念分析中最令人关注的元素之一。目前,概念格理论日趋成熟,已广泛应用于信息检索、知识发现、生态推荐系统和数据挖掘等领域。通过文献调查,目前还没有关于概念格理论的离群值检测模型的研究。现有的离群检测方法大致可分为四类,即(1)基于距离的检测方法;(2)基于密度的检测方法;(3)基于统计的检测方法;(4)基于聚类的检测方法。然而,现有的离群检测方法通常存在以下问题:(1)大部分检测模型如基于距离、密度和聚类的方法都是根据欧几里得度量构造的。而使用欧几里得指标来描述标称属性的差异可能是不合理的;(2)现有的一些离群点检测方法涉及参数,容易产生参数依赖和参数设置困难等问题;(3)现有方法大多针对的是确定性数据,而不能有效地处理数据中的模糊信息,这可能会降低检测性能。


技术实现思路

1、针对现有技术中的上述不足,本专利技术提供的一种基于对象熵的离群检测方法,解决了现有的方法不能很好地处理标称数据中的不确定信息造成信息丢失,进而影响离群检测模型性能低效的问题。

2、为了达到以上目的,本专利技术采用的技术方案为:

3、本方案提供一种基于对象熵的离群检测方法,包括以下步骤:

4、s1、根据形式背景,计算对象之间的对象互信息;

5、s2、根据对象互信息,计算对象在每个属性下的相关性,将满足相关性最小值的对象加入到有序对象集中,不满足的则加入到候选对象集中;

6、s3、根据候选对象集osu和有序对象集os,计算每个候选对象与每个选定的有序对象之间的聚合度,满足最小相关-最大聚合的候选对象加入到有序对象集中,重复s3,直至完成对所有候选对象的判断,否则,进行下一候选对象的判断;

7、s4、依次计算有序对象集中每个选定对象的离群分数;

8、本专利技术的有益效果是:

9、1、利用对象间的对象互信息既可以反映两对象共同持有的信息量,又可以更好地描述对象之间的相关性;

10、2、使用最小相关-最大聚合指标可以综合考虑候选对象的相关度及其与选定的有序对象之间的聚合度;

11、3、该方法不依赖任何参数设置,并能有效地处理标称数据中的模糊信息,从而提高检测性能;

12、4、该方法扩展了形式概念分析在数据挖掘等领域的应用,为形式概念分析理论开辟了一个新的应用空间。

13、进一步地,所述步骤s1包括以下步骤:

14、s11、定义形式背景,即三元组f=(ob,at,i),其中ob={o1,o2,…,on}是一个非空的有限对象集,n表示对象集ob的对象个数,at={a1,a2,…,am}是一个非空的有限属性集,m表示属性集at的属性个数,i是ob×at→{0,1}的二元关系。对于任意的对象子集和属性子集它们对应的概念格式化算子分别定义为:

15、

16、

17、其中,o*是o中所有对象共同拥有的属性组成的集合,a*表示拥有a中所有属性的对象组成的集合,i(o,a)=1表示对象o拥有属性a;

18、s12、设对象子集定义关于形式背景f的面向对象的形式子背景为fv=(v,at,iv),其中at是非空有限属性集,iv=i∩(v×at),i表示ob×at→{0,1}的二元关系。对于任意的对象子集和属性子集形式子背景fv=(v,at,iv)上的两个概念格式化算子分别定义为:

19、

20、

21、其中,o*v是o中所有对象共同拥有的属性组成的集合,a*v表示在对象子集v中,拥有a中所有属性的对象组成的集合,iv(o,a)=1表示对象o拥有属性a;

22、s13、对于任意对象oi,oj∈非空有限对象集ob,计算两对象之间的对象互信息。oi和oj之间的对象互信息被定义为:

23、

24、其中,omi(oi;oj)表示对象oi和oj之间的对象互信息,|at|表示属性集at的基数,表示在对象子集{oj}中,拥有属性子集{a}中所有属性的对象组成的集合,则表示在属性集at下,中所有对象共同拥有的属性组成的集合,同理,表示中所有对象共同拥有的属性组成的集合。

25、上述进一步方案的有益效果是:

26、1、定义的面向对象的互信息既可以反映两对象共同持有的信息量,又可以更好地描述对象之间的相关性。

27、再进一步地,所述步骤s2包括以下步骤:

28、s21、对于任意对象oi∈非空有限对象集ob,计算对象集ob中每个oi的相关性。对象oi的相关性定义为:

29、

30、其中,corr(oi)表示对象oi的相关性,|ob|表示对象集ob的基数,omi(oi;oj)表示对象oi和oj之间的对象互信息;

31、s22、设候选对象集有序对象集挑选出在所有对象的相关性中满足相关性最小的对象加入到有序对象集os中,不满足的则加入到候选对象集osu中。

32、上述进一步方案的有益效果是:

33、1、相关性最小的对象说明在整体上与其他所有对象都最不相关,从而该对象离群程度最高。

34、再进一步地,所述步骤s3包括以下步骤:

35、s31、对于任意选定的有序对象计算每个选定对象的对象熵。在形式子背景中,是只有选定对象的集合,at是非空有限属性集,i是ob×at→{0,1}的二元关系,选定对象的对象熵定义为:

36、

37、其中,表示选定对象的对象熵,|at|表示属性集at的基数,表示在对象子集中,拥有属性子集{a}中所有属性的对象组成的集合,则表示在属性集at下,中所有对象共同拥有的属性组成的集合;

38、s32、对于任意候选对象ol∈候选对象集osu和选定的有序对象计算在每个ol条件下每个的对象条件熵。在候选对象ol的条件下选定对象的对象条件熵定义为:

39、

40、其中,表示在候选对象ol的条件下选定对象的对象条件熵,表示在对象子集{ol}中,拥有属性子集{a}里所有属性的对象组成的集合,则表示在属性集at下,中所有对象共同拥有的属性组成的集合,同理,表示中所有对象共同拥有的属性组成的集合,符号∩表示两集合取交集操作,|*|表示取集合的基数;

41、s33、对于任意候选对象ol∈候选对象集osu和选定的有序对象计算在每个ol的条件下每个的条件相关性。在候选对象ol的条件下选定对象的条件相关性定义为:

42、

43、其中,表示在候选对象ol的条件下选定对象的条件相关性,表示的对象熵,表示在ol的条件下的对象条件熵,表示的相关性;

44、s本文档来自技高网...

【技术保护点】

1.一种基于属性粒对象熵的异常检测方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于属性粒对象熵的异常检测方法,其特征在于,所述步骤S1包括以下分步骤:

3.根据权利要求2所述的一种基于属性粒对象熵的异常检测方法,其特征在于,所述步骤S11中面向对象的形式子背景为:

4.根据权利要求2所述的一种基于属性粒对象熵的异常检测方法,其特征在于,所述步骤S12中对象互信息的计算公式为:

5.根据权利要求1所述的一种基于属性粒对象熵的异常检测方法,其特征在于,所述步骤S2包括以下分步骤:

6.根据权利要求5所述的一种基于属性粒对象熵的异常检测方法,其特征在于,所述步骤S21中对象相关性的计算公式为:

7.根据权利要求1所述的一种基于属性粒对象熵的异常检测方法,其特征在于,所述步骤S3包括以下分步骤:

8.根据权利要求7所述的一种基于属性粒对象熵的异常检测方法,其特征在于,所述步骤S31中对象熵的计算公式为:

9.根据权利要求7所述的一种基于属性粒对象熵的异常检测方法,其特征在于,所述步骤S32中聚合度的计算公式为:

10.根据权利要求1所述的一种基于属性粒对象熵的异常检测方法,其特征在于,所述步骤S4中对象的离群分数的计算公式为:

...

【技术特征摘要】

1.一种基于属性粒对象熵的异常检测方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于属性粒对象熵的异常检测方法,其特征在于,所述步骤s1包括以下分步骤:

3.根据权利要求2所述的一种基于属性粒对象熵的异常检测方法,其特征在于,所述步骤s11中面向对象的形式子背景为:

4.根据权利要求2所述的一种基于属性粒对象熵的异常检测方法,其特征在于,所述步骤s12中对象互信息的计算公式为:

5.根据权利要求1所述的一种基于属性粒对象熵的异常检测方法,其特征在于,所述步骤s2包括以下分步骤:

6.根据权利要求5所...

【专利技术属性】
技术研发人员:彭德中刘昶王思涵袁钟李永翔孙元陈白杨
申请(专利权)人:四川大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1