基于同边共点模式的不确定图数据频繁模式挖掘方法技术

技术编号：41769361 阅读：1 留言：0更新日期：2024-06-21 21:46

基于同边共点模式的不确定图数据频繁模式挖掘方法，涉及图数据挖掘领域，包括：S1、将不确定图数据库转化为不确定母图集合，对不确定母图进行剪枝生成母图集合；S2、将母图集合中母图转化为确定图得到确定图母图集合；S3、对确定图母图集合中母图根据顶点和关联边建立各自对应的索引表，并标记索引表的层数为layer；S4、将第layer层中两两索引表进行合并形成一个新的索引表，并将layer数值加1后标记为新的索引表层数，若layer数值等于母图数量则停止合并，否则重新执行步骤S4；S5、恢复所有子图与母图的不确定性；本方法在同边共点模式上提出频繁模式挖掘方法，使模型更加接近于现实，有效提高了挖掘的精确度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图数据挖掘领域，尤其是基于同边共点模式的不确定图数据频繁模式挖掘方法。

技术介绍

1、“同边共点”模式指图网络中某一个顶点和n个相邻顶点有相同的属性，组成了特有的“中心发散”结构。“同边共点”模式广泛存在于社交网、交通网、ppi网络和物联网等网络。

2、但以前的基于不确认图的频繁模式挖掘没有相关研究。如何从基于“同边共点”模式的不确定图数据中快速挖掘出频繁模式是本专利技术专利聚焦的内容。

3、频繁项挖掘主要分为level-wise方向和pattern-growth方向；不确定模式挖掘是基于不确定图基础上提出的，因为不确定图的蕴含子图数量巨大，出现大量的候选子图和大量的子图同构测试，挖掘效率难于提高；而且没有针对基于“同边共点”模式的不确定图数据频繁模式挖掘的方法。

4、现有技术中还存在以下问题：

5、1、现有的挖掘技术没有考虑同边共点模式；

6、2、现有的技术无法判断挖出的子图隶属于哪一个母图；

7、3、现有的挖掘技术因为出现大量的候选子图和大量的子图同构测试，挖掘效率难于提高。

技术实现思路

1、本专利技术提供基于同边共点模式的不确定图数据频繁模式挖掘方法，用以解决现有技术中没有基于同边共点模式的不确定图数据频繁模式挖掘的方法的空白，无法判断挖出的子图隶属于哪一个母图及现有的挖掘技术因为出现大量的候选子图和大量的子图同构测试，挖掘效率难于提高的问题。

2、为实现上述目的，本专利技术提

3、s1、将不确定图数据库转化为不确定母图集合，并对集合中不确定母图进行剪枝生成母图集合；

4、s2、将所述母图集合中所有母图转化为确定图得到确定图母图集合；

5、s3、对所述确定图母图集合中每个母图根据顶点和关联边建立各自对应的索引表，并标记索引表的层数为layer；

6、s4、将第layer层中两两索引表进行合并形成一个新的索引表，并将layer数值加1后标记为新的索引表层数，若layer数值等于母图数量则停止合并，否则重新执行步骤s4；

7、s5、恢复所有子图与母图的不确定性；

8、具体的，所述索引表包含顶点数据以及顶点的关联边数据。

9、具体的，所述顶点的关联边数据包含关联边名称与数量。

10、具体的，步骤s4中所述将第layer层中两两索引表进行合并形成一个新的索引表具体为：将layer层中任意两张索引表之间存在的相同顶点和相同关联边进行保留形成一张新的索引表。

11、具体的，第layer层中索引表的数量为其中a为母图的数量。

12、具体的，步骤s4索引表合并过程中若两两索引表合并后的索引表隶属的母图数量大于layer数值则不合并这两张索引表。

13、具体的，步骤s1中剪枝具体为：将母图中存在概率小于预设概率的边去除后生成新的母图。

14、具体的，步骤s2具体为：通过将所述母图集合中每个母图的边的存在概率均设为1后转化为确定图，生成确定图母图集合。

15、具体的，所述方法还包括：

16、s6、通过公式(1)计算每层索引表中子图的支持度，从而根据所述支持度找出符合条件的子图，公式(1)如下：

17、

18、其中，sup(g,d)为子图的支持度，n为边的数目，p(ei)为边的存在概率，layer为索引表的索引层数，layer大于等于2。

19、具体的，所述不确定图数据库为ppi数据库。

20、本专利技术公开的基于同边共点模式的不确定图数据频繁模式挖掘方法，包括以下步骤：s1、将不确定图数据库转化为不确定母图集合，并对集合中不确定母图进行剪枝生成母图集合；s2、将所述母图集合中所有母图转化为确定图得到确定图母图集合；s3、对所述确定图母图集合中每个母图根据顶点和关联边建立各自对应的索引表，并标记索引表的层数为layer；s4、将第layer层中两两索引表进行合并形成一个新的索引表，并将layer数值加1后标记为新的索引表层数，若layer数值等于母图数量则停止合并，否则重新执行步骤s4；s5、恢复所有子图与母图的不确定性；本方法在挖掘图形中间加入同边共点模式，在此基础上提出频繁模式挖掘方法，使模型更加接近于现实，有效提高了挖掘的精确度，并且可以避免大量的候选子图和大量的子图同构测试，大大提高了挖掘效率，减少了计算成本。

21、进一步的，本专利技术通过两两子图的公共顶点和公共边构建对应索引表并记录相应索引层，可以很容易判断挖出的子图隶属的母图，节约了挖掘时间，有利于下一步研究工作的开展。

22、此外，本专利技术在挖掘过程中将所有图数据全部转化为表数据，降低了存储的空间复杂度，进一步降低了计算复杂图，提高了计算效率。

本文档来自技高网...

【技术保护点】

1.基于同边共点模式的不确定图数据频繁模式挖掘方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述索引表包含顶点数据以及顶点的关联边数据。

3.根据权利要求2所述的方法，其特征在于，所述顶点的关联边数据包含关联边名称与数量。

4.根据权利要求1所述的方法，其特征在于，步骤S4中所述将第layer层中两两索引表进行合并形成一个新的索引表具体为：将layer层中任意两张索引表之间存在的相同顶点和相同关联边进行保留形成一张新的索引表。

5.根据权利要求1所述的方法，其特征在于，第layer层中索引表的数量为其中A为母图的数量。

6.根据权利要求1所述的方法，其特征在于，步骤S4索引表合并过程中若两两索引表合并后的索引表隶属的母图数量大于layer数值则不合并这两张索引表。

7.根据权利要求1所述的方法，其特征在于，步骤S1中剪枝具体为：将母图中存在概率小于预设概率的边去除后生成新的母图。

8.根据权利要求1所述的方法，其特征在于，步骤S2具体为：通过将所述母图集合中每个母图的

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

10.根据权利要求1所述的方法，其特征在于，所述不确定图数据库为PPI数据库。

...

【技术特征摘要】

1.基于同边共点模式的不确定图数据频繁模式挖掘方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述索引表包含顶点数据以及顶点的关联边数据。

3.根据权利要求2所述的方法，其特征在于，所述顶点的关联边数据包含关联边名称与数量。

4.根据权利要求1所述的方法，其特征在于，步骤s4中所述将第layer层中两两索引表进行合并形成一个新的索引表具体为：将layer层中任意两张索引表之间存在的相同顶点和相同关联边进行保留形成一张新的索引表。

5.根据权利要求1所述的方法，其特征在于，第layer层中索引表的数量为其中a为母图的数量。

【专利技术属性】
技术研发人员：李峰，田娟秀，向昌盛，曾莹，黄鲲，
申请(专利权)人：湖南工程学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人