一种针对单个不确定图的频繁子图挖掘与优化方法技术

技术编号：12051660 阅读：156 留言：0更新日期：2015-09-13 21:41

本发明专利技术公开了一种针对单个不确定图的频繁子图挖掘与优化方法，包括：获取单个不确定图；枚举出单个不确定图的所有子图；指定部分蕴含图为样本图；多个检查点将样本图集合分割为多个部分样本图集合，并依次指定每个检查点；使用计算重用方法分别计算单个不确定图的被指定检查点覆盖的部分样本图集合中每个样本图的存在概率，并使用计算重用方法计算每个子图在被指定检查点覆盖的部分样本图集合中每个样本图上的期望支持度；根据每个子图在被指定检查点覆盖的部分样本图集合中每个样本图上的期望支持度与单个不确定图的每个样本图的存在概率，判定该子图是频繁子图、不是频繁子图、或不确定是不是频繁子图；输出所有频繁子图。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图挖掘技术，特别地，涉及一种针对单个不确定图的频繁子图挖掘与优化方法。
技术介绍
不确定性在现实应用中，无论是对内源还是外源，都是一种固有的属性。例如，在一个合作社交网络中，利用目前掌握的信息，我们未必能明确断言比尔和马修两人具有很好的合作关系，通常我们使用概率来衡量这种合作关系的可能性。假设这种关系存在的概率为p，P的值由本领域专家通过可用信息人工确定，或者由信息抽取或生成规则自动产生。在大数据时代的今天，对于管理不确定数据有更为强烈的需求，因此目前出现了各种质量不一的数据。特别地，我们专注于不确定图，尤其是图的边上具有存在概率的不确定图。不确定图模型具有广泛的应用领域，除了社会网络，不确定图模型还被应用于通信网络，无线传感器网络，蛋白质交互网络以及生物学中的调控网络等。另一方面，频繁模式挖掘作为数据挖掘领域高度关注的主题，一直持续了近十年，相关研宄也取得了长足的进展，其中频繁子图引起了特别的研宄兴趣。所谓频繁子图是指从多个小确定图的集合或者单个大确定图中发现的支持度不小于用户给定阈值的子图。频繁子图再刻画确定图的数据特征、分类、聚类以及建立索引方面具有重要作用。虽然目前对于频繁子图及其在确定图上挖掘的方法已经具有很好的理解，但在不确定图上，这一问题变得更加有趣但也更少被研宄。一个不确定图时特殊的边加权图，其中每条边（u，v)上的权重是其存在的概率。最近，研宄工作致力于在多个小的不确定图的图集上挖掘频繁子图。但是，该问题在单个大型不确定图中虽然同等重要，因为现实生活中的大型网络越来越多地出现了...
一种<a href="http://www.xjishu.com/zhuanli/55/CN104899885.html" title="一种针对单个不确定图的频繁子图挖掘与优化方法原文来自X技术">针对单个不确定图的频繁子图挖掘与优化方法</a>

【技术保护点】
一种针对单个不确定图的频繁子图挖掘与优化方法，其特征在于，包括：获取单个不确定图；根据所述单个不确定图枚举出所述单个不确定图的所有子图；在所述单个不确定图的所有蕴含图中指定部分蕴含图为样本图；在所述样本图集合中设定多个检查点，所述多个检查点将所述样本图集合分割为多个部分样本图集合，并依次指定所述每个检查点；使用计算重用方法分别计算所述单个不确定图的所述被指定检查点覆盖的部分样本图集合中每个样本图的存在概率，并使用计算重用方法计算所述每个子图在所述被指定检查点覆盖的部分样本图集合中每个样本图上的期望支持度；根据所述每个子图在所述被指定检查点覆盖的部分样本图集合中每个样本图上的期望支持度与所述单个不确定图的每个样本图的存在概率，判定该子图是频繁子图、不是频繁子图、或不确定是不是频繁子图，若判定该子图是频繁子图或不是频繁子图则停止该子图的相关运算，若判定该子图不确定是不是频繁子图则继续指定下一个检查点并根据下一个被指定检查点覆盖的部分样本图集合重新进行判定直到所述每个检查点都被指定过，其中，对所述最末被指定的检查点覆盖的部分样本图集合进行判定时一定不会得出不确定的判定结果；输出所有频繁子图。

【技术特征摘要】

【专利技术属性】
技术研发人员：赵翔，陈一帆，胡艳丽，汤大权，
申请(专利权)人：中国人民解放军国防科学技术大学，
类型：发明
国别省市：湖南;43

全部详细技术资料下载我是这个专利的主人