【技术实现步骤摘要】
一种不确定的数据交互图中挖掘子图的方法及装置
[0001]本专利技术涉及数据挖掘领域,尤其是涉及一种不确定图中挖掘(k,θ)
‑
clique的方法及装置。
技术介绍
[0002]近几年来,全球大数据进入加速发展时期,数据量呈现指数级、爆发式增长,而这些大量数据中不同个体间彼此交互产生的数据以图的形式表现。因此,从一个复杂的网络挖掘子图成为一个重要的课题。同时,团是最为广泛使用的子图模型,其用于在社交网络发现重叠社群,检测社会阶层以及在蛋白质交互作用中识别蛋白质复合体等。因此,如何高效地从图中挖掘子图成为社会各界需要解决的重大挑战。
[0003]从过去几年看,现有的研究主要侧重于对于确定图的最大团的枚举。但是在现实场景中,由于实验推断链接、不确定的链路连通性以及潜在影响,网络是不确定的。因为不确定性,从不确定图中挖掘子图,比在确定图中挖掘更为困难,也因此吸引了广泛关注,得到了一些实用的模型。在现有的解决方案中,(k,τ)
‑
clique被广泛使用于在不确定图中建模、表示以及组织相互关联的数据,尤其使用于在给定的概率图发现可靠集群、在不确定网络中挖掘凝聚子图。然而,由于(k,τ)
‑
clique的概率由每条边直接影响,导致子图的概率容易受到较大波动。并且在现实场景中,数据之间的关系不总是稳定的,比如说人际关系网络中,人与人之间的关系受到各种因素影响,所以如果使用(k,τ)
‑
clique,会导致挖掘结果的巨大波动性。
[0004]因此
【技术保护点】
【技术特征摘要】
1.一种不确定的数据交互图中挖掘子图的方法,其特征在于包括如下步骤:S1,输入不确定图度数限制k、概率临界值θ,不确定图用于表示连接关系不稳定的多个结点之间的关系,度数限制k、概率临界值θ用于获取满足特定限制的子图;S2,对不确定图进行剪枝;S3,对剪枝后的不确定子图的每个结点u,求出其出现的概率p(u);S4,对剪枝后的不确定子图中的每个结点u进行遍历,当结点出现的概率p(u)小于概率临界值θ时,将结点u从剪枝后的不确定子图中移除。2.根据权利要求1所述的一种不确定的数据交互图中挖掘子图的方法,其特征在于还包括S5,从S4所得的剪枝后的不确定图中找出极大确定图,并求出极大确定图的所有极大(k,θ)
‑
clique。3.根据权利要求1所述的一种不确定的数据交互图中挖掘子图的方法,其特征在于还包括S6,返回S5得到的所有极大(k,θ)
‑
clique。4.根据权利要求1所述的一种不确定的数据交互图中挖掘子图的方法,其特征在于所述S2中的剪枝,采用基于度数的剪枝策略,遍历不确定图中的每个结点,将度数≤k的结点u放入队列Q,当Q不为时,取出队列Q的首元素记为u,遍历结点u在不确定图中的每个邻居结点v,将结点v和结点u之间的边(u,v)从不确定图中删除,更新删除边(u,v)后的v的度数,如果结点v的度数≤k,则将结点v放入队列Q,重复此步骤,直到队列Q为空,返回剪枝后的不确定图5.根据权利要求1所述的一种不确定的数据交互图中挖掘子图的方法,其特征在于所述S2中的剪枝,采用基于θ
‑
degree的剪枝策略,获取不确定图概率临界值θ,最大确定图G
m
,遍历不确定图中的每个结点u,使用动态规划算法维护二维变量Y
u
(h,i),计算公式如下:Y
u
(0,i)=0,i∈[1,k]Y
u
(h,0)=1,h∈[0,d
u
(G
m
)]其中h和i皆表示结点的度数,i≤h,且当k≤h时计算才有效,G
h
表示有h条边的图,Y
u
(h,i)表示结点u在G
h
中的度数大于i的概率,d
u
(G
m
)表示结点u在最大确定图G
m
中的度数,表示边e
h
的概率;如果Y
u
(d
u
(G
m
),k)<θ,则将结点u从不确定图中删除,返回剪枝后的不确定图6.根据权利要求1所述的一种不确定的数据交互图中挖掘子图的方法,其特征在于所述S2中的...
【专利技术属性】
技术研发人员:周旭,苏浩天,顾天乐,张吉,余婷,肖国庆,陈岑,李肯立,
申请(专利权)人:湖南大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。