当前位置: 首页 > 专利查询>湖南大学专利>正文

一种不确定的数据交互图中挖掘子图的方法及装置制造方法及图纸

技术编号:33242793 阅读:49 留言:0更新日期:2022-04-27 17:47
本发明专利技术公开了一种不确定的数据交互图中挖掘子图的方法及装置,输入不确定图、度数限制、概率临界值,不确定图用于表示连接关系不稳定的多个结点之间的关系,度数限制、概率临界值用于获取满足特定限制的子图;对不确定图进行剪枝;对剪枝后的不确定子图的每个结点,求出其出现的概率;对剪枝后的不确定子图中的每个结点进行遍历,当结点出现的概率小于概率临界值时,将结点从剪枝后的不确定子图中移除。采用本发明专利技术能够充分考虑了现实场景中数据的不稳定性对子图概率造成的波动,提高了子图挖掘的稳定性;同时使用三种剪枝算法,减少计算量,在相同挖掘场景下对比其他挖掘子图的算法大大降低了资源的消耗。法大大降低了资源的消耗。法大大降低了资源的消耗。

【技术实现步骤摘要】
一种不确定的数据交互图中挖掘子图的方法及装置


[0001]本专利技术涉及数据挖掘领域,尤其是涉及一种不确定图中挖掘(k,θ)

clique的方法及装置。

技术介绍

[0002]近几年来,全球大数据进入加速发展时期,数据量呈现指数级、爆发式增长,而这些大量数据中不同个体间彼此交互产生的数据以图的形式表现。因此,从一个复杂的网络挖掘子图成为一个重要的课题。同时,团是最为广泛使用的子图模型,其用于在社交网络发现重叠社群,检测社会阶层以及在蛋白质交互作用中识别蛋白质复合体等。因此,如何高效地从图中挖掘子图成为社会各界需要解决的重大挑战。
[0003]从过去几年看,现有的研究主要侧重于对于确定图的最大团的枚举。但是在现实场景中,由于实验推断链接、不确定的链路连通性以及潜在影响,网络是不确定的。因为不确定性,从不确定图中挖掘子图,比在确定图中挖掘更为困难,也因此吸引了广泛关注,得到了一些实用的模型。在现有的解决方案中,(k,τ)

clique被广泛使用于在不确定图中建模、表示以及组织相互关联的数据,尤其使用于在给定的概率图发现可靠集群、在不确定网络中挖掘凝聚子图。然而,由于(k,τ)

clique的概率由每条边直接影响,导致子图的概率容易受到较大波动。并且在现实场景中,数据之间的关系不总是稳定的,比如说人际关系网络中,人与人之间的关系受到各种因素影响,所以如果使用(k,τ)

clique,会导致挖掘结果的巨大波动性。
[0004]因此随着大数据时代的到来,尤其是以图形式相互关联的数据爆发式增长,高效稳定的挖掘子图算法显得尤为重要,如果没有高效稳定的算法,这将成为网络分析的主要障碍之一。
[0005]但是,现有的子图挖掘技术存在子图稳定性差、挖掘过程计算量大的问题。

技术实现思路

[0006]为解决现有技术的不足,实现提高不确定图中挖掘子图的稳定性差,降低计算量的目的,本专利技术采用如下的技术方案:
[0007]一种不确定的数据交互图中挖掘子图的方法,包括如下步骤:
[0008]S1,输入不确定图度数限制k、概率临界值θ,不确定图用于表示连接关系不稳定的多个结点之间的关系,度数限制k、概率临界值θ用于获取满足特定限制的子图;
[0009]S2,对不确定图进行剪枝,大大简化要挖掘的图,从而降低计算过程中的资源耗费;
[0010]S3,对剪枝后的不确定子图的每个结点u,求出其出现的概率p(u);
[0011]S4,对剪枝后的不确定子图中的每个结点u进行遍历,当结点出现的概率p(u)小于概率临界值θ时,将结点u从剪枝后的不确定子图中移除。
[0012]进一步地,还包括S5,从S4所得的剪枝后的不确定图中找出极大确定图,并求出极
大确定图的所有极大(k,θ)

clique。
[0013]进一步地,还包括S6,返回S5得到的所有极大(k,θ)

clique。
[0014]进一步地,S2中的剪枝,采用基于度数的剪枝策略,遍历不确定图中的每个结点,将度数≤k的结点u放入队列Q,当Q不为时,取出队列Q的首元素记为u,遍历结点u在不确定图中的每个邻居结点v,将结点v和结点u之间的边(u,v)从不确定图中删除,更新删除边(u,v)后的v的度数,如果结点v的度数≤k,则将结点v放入队列Q,重复此步骤,直到队列Q为空,,返回剪枝后的不确定图
[0015]进一步地,S2中的剪枝,采用基于θ

degree的剪枝策略,获取不确定图概率临界值θ,最大确定图G
m
,遍历不确定图中的每个结点u,使用动态规划算法维护二维变量Y
u
(h,i),计算公式如下:
[0016]Y
u
(0,i)=0,i∈[1,k][0017]Y
u
(h,0)=1,h∈[0,d
u
(G
m
)][0018][0019]其中h和i皆表示结点的度数,i≤h,且当k≤h时计算才有效,G
h
表示有h条边的图,Y
u
(h,i)表示结点u在G
h
中的度数大于i的概率,d
u
(G
m
)表示结点u在最大确定图G
m
中的度数,p
eh
表示边e
h
的概率;如果Y
u
(d
u
(G
m
),k)<θ,则将结点u从不确定图中删除,返回剪枝后的不确定图
[0020]进一步地,S2中的剪枝,采用基于马尔可夫上界的剪枝策略,获取不确定图度数限制k,概率临界值θ和最大确定图G
m
,将队列Q设置为空集,遍历中的每一个结点u,将每个结点u的马尔可夫上界概率p
+
(u)赋值为表示在不确定图中结点u的度数大于等于k的概率,将结点u放入队列Q;当Q不为时,取出Q队首元素结点u,根据如下公式更新结点u的马尔可夫上界概率p
+
(u),直到队列Q为空:
[0021][0022]遍历不确定图G中的每个结点u,如果其马尔可夫上界概率p
+
(u)<θ,则将结点u从不确定图中删除,返回剪枝后的不确定图d
u
(G
m
)表示结点u在最大确定图G
m
中的度数,e(u,v
i
)表示节点u和节点v
i
之间的边,p(e(u,v
i
))表示边的概率,如此可以减小图的规模。
[0023]进一步地,S3中基于蒙特卡罗方法的概率计算方法,计算所有结点在不确定图中的概率p(u),包括如下步骤:
[0024]S31,输入不确定图度数限制k、概率临界值θ;
[0025]S32,遍历不确定图的结点u,将每个结点所在的最大k

clique数初始化为0,即u
c
=0;
[0026]S33,首先计算所有样本图中最大k

clique的总数N
s
,所述样本图,是先根据不确定图得到一组确定图,再从确定图中抽样得到样本图;
[0027]S34,将样本图定义为集合S,对样本图集合S中的每个实例图G,求出实例图G的最大k

clique,对于最大k

clique,求出其中每个结点u所在的最大k

clique数,得出每个结点出现的最大k团的数量作为u
c

[0028]S35,对每个结点u求出其对不确定图的概率p(u),即每个结点u的k

clique频率,计算公式为:
[0029]p(u)=u
c
/N
s...

【技术保护点】

【技术特征摘要】
1.一种不确定的数据交互图中挖掘子图的方法,其特征在于包括如下步骤:S1,输入不确定图度数限制k、概率临界值θ,不确定图用于表示连接关系不稳定的多个结点之间的关系,度数限制k、概率临界值θ用于获取满足特定限制的子图;S2,对不确定图进行剪枝;S3,对剪枝后的不确定子图的每个结点u,求出其出现的概率p(u);S4,对剪枝后的不确定子图中的每个结点u进行遍历,当结点出现的概率p(u)小于概率临界值θ时,将结点u从剪枝后的不确定子图中移除。2.根据权利要求1所述的一种不确定的数据交互图中挖掘子图的方法,其特征在于还包括S5,从S4所得的剪枝后的不确定图中找出极大确定图,并求出极大确定图的所有极大(k,θ)

clique。3.根据权利要求1所述的一种不确定的数据交互图中挖掘子图的方法,其特征在于还包括S6,返回S5得到的所有极大(k,θ)

clique。4.根据权利要求1所述的一种不确定的数据交互图中挖掘子图的方法,其特征在于所述S2中的剪枝,采用基于度数的剪枝策略,遍历不确定图中的每个结点,将度数≤k的结点u放入队列Q,当Q不为时,取出队列Q的首元素记为u,遍历结点u在不确定图中的每个邻居结点v,将结点v和结点u之间的边(u,v)从不确定图中删除,更新删除边(u,v)后的v的度数,如果结点v的度数≤k,则将结点v放入队列Q,重复此步骤,直到队列Q为空,返回剪枝后的不确定图5.根据权利要求1所述的一种不确定的数据交互图中挖掘子图的方法,其特征在于所述S2中的剪枝,采用基于θ

degree的剪枝策略,获取不确定图概率临界值θ,最大确定图G
m
,遍历不确定图中的每个结点u,使用动态规划算法维护二维变量Y
u
(h,i),计算公式如下:Y
u
(0,i)=0,i∈[1,k]Y
u
(h,0)=1,h∈[0,d
u
(G
m
)]其中h和i皆表示结点的度数,i≤h,且当k≤h时计算才有效,G
h
表示有h条边的图,Y
u
(h,i)表示结点u在G
h
中的度数大于i的概率,d
u
(G
m
)表示结点u在最大确定图G
m
中的度数,表示边e
h
的概率;如果Y
u
(d
u
(G
m
),k)<θ,则将结点u从不确定图中删除,返回剪枝后的不确定图6.根据权利要求1所述的一种不确定的数据交互图中挖掘子图的方法,其特征在于所述S2中的...

【专利技术属性】
技术研发人员:周旭苏浩天顾天乐张吉余婷肖国庆陈岑李肯立
申请(专利权)人:湖南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1