本发明专利技术公开了一种针对单个不确定图的频繁子图挖掘与优化方法,包括:获取单个不确定图;枚举出单个不确定图的所有子图;指定部分蕴含图为样本图;多个检查点将样本图集合分割为多个部分样本图集合,并依次指定每个检查点;使用计算重用方法分别计算单个不确定图的被指定检查点覆盖的部分样本图集合中每个样本图的存在概率,并使用计算重用方法计算每个子图在被指定检查点覆盖的部分样本图集合中每个样本图上的期望支持度;根据每个子图在被指定检查点覆盖的部分样本图集合中每个样本图上的期望支持度与单个不确定图的每个样本图的存在概率,判定该子图是频繁子图、不是频繁子图、或不确定是不是频繁子图;输出所有频繁子图。
【技术实现步骤摘要】
本专利技术涉及图挖掘技术,特别地,涉及一种针对单个不确定图的频繁子图挖掘与 优化方法。
技术介绍
不确定性在现实应用中,无论是对内源还是外源,都是一种固有的属性。例如,在 一个合作社交网络中,利用目前掌握的信息,我们未必能明确断言比尔和马修两人具有很 好的合作关系,通常我们使用概率来衡量这种合作关系的可能性。假设这种关系存在的概 率为p,P的值由本领域专家通过可用信息人工确定,或者由信息抽取或生成规则自动产 生。在大数据时代的今天,对于管理不确定数据有更为强烈的需求,因此目前出现了各种质 量不一的数据。特别地,我们专注于不确定图,尤其是图的边上具有存在概率的不确定图。 不确定图模型具有广泛的应用领域,除了社会网络,不确定图模型还被应用于通信网络,无 线传感器网络,蛋白质交互网络以及生物学中的调控网络等。 另一方面,频繁模式挖掘作为数据挖掘领域高度关注的主题,一直持续了近十年, 相关研宄也取得了长足的进展,其中频繁子图引起了特别的研宄兴趣。所谓频繁子图是指 从多个小确定图的集合或者单个大确定图中发现的支持度不小于用户给定阈值的子图。频 繁子图再刻画确定图的数据特征、分类、聚类以及建立索引方面具有重要作用。 虽然目前对于频繁子图及其在确定图上挖掘的方法已经具有很好的理解,但在不 确定图上,这一问题变得更加有趣但也更少被研宄。一个不确定图时特殊的边加权图,其中 每条边(u,v)上的权重是其存在的概率。最近,研宄工作致力于在多个小的不确定图的图 集上挖掘频繁子图。但是,该问题在单个大型不确定图中虽然同等重要,因为现实生活中的 大型网络越来越多地出现了不确定性一一比如,在社会网络中一个人对另一个人的影响是 具有概率的;在生物网络中的蛋白质交互情况也有一定测量误差一一但现有技术在本方面 是一片空白。 针对现有技术中缺乏针对单个不确定图的频繁子图挖掘与优化技术方案的问题, 目前尚缺乏有效的解决方案。
技术实现思路
针对现有技术中缺乏针对单个不确定图的频繁子图挖掘与优化技术方案的问题, 本专利技术的目的在于提出,能允许针对单 个不确定图进行频繁子图挖掘并优化挖掘算法,填补了本领域的技术空白。 基于上述目的,本专利技术提供的技术方案如下: 根据本专利技术的一个方面,提供了一种针对单个不确定图的频繁子图挖掘与优化方 法,包括: 获取单个不确定图; 根据单个不确定图枚举出单个不确定图的所有子图; 在单个不确定图的所有蕴含图中指定部分蕴含图为样本图; 在样本图集合中设定多个检查点,多个检查点将样本图集合分割为多个部分样本 图集合,并依次指定每个检查点; 使用计算重用方法分别计算单个不确定图的被指定检查点覆盖的部分样本图集 合中每个样本图的存在概率,并使用计算重用方法计算每个子图在被指定检查点覆盖的部 分样本图集合中每个样本图上的期望支持度; 根据每个子图在被指定检查点覆盖的部分样本图集合中每个样本图上的期望支 持度与单个不确定图的每个样本图的存在概率,判定该子图是频繁子图、不是频繁子图、或 不确定是不是频繁子图,若判定该子图是频繁子图或不是频繁子图则停止该子图的相关运 算,若判定该子图不确定是不是频繁子图则继续指定下一个检查点并根据下一个被指定检 查点覆盖的部分样本图集合重新进行判定直到每个检查点都被指定过,其中,对最末被指 定的检查点覆盖的部分样本图集合进行判定时一定不会得出不确定的判定结果; 输出所有频繁子图。 其中,使用计算重用方法分别计算单个不确定图的被指定检查点覆盖的部分样本 图集合中每个样本图的存在概率,并使用计算重用方法计算每个子图在被指定检查点覆盖 的部分样本图集合中每个样本图上的期望支持度,为根据单个不确定图构造重用树,为单 个不确定图的被指定检查点覆盖的部分样本图集合中每个样本图中的每条嵌入边构建反 向索引,并根据重用树与反向索引分别计算单个不确定图的被指定检查点覆盖的部分样本 图集合中每个样本图的存在概率与每个子图在被指定检查点覆盖的部分样本图集合中每 个样本图上的期望支持度。 并且,根据单个不确定图构造重用树,为从单个不确定图上选取一根节点,根据一 条嵌入边的存在与否生成第一层二叉树,再根据根节点的子节点上嵌入边的存在与否生成 第二层二叉树,如此重复直到单个不确定图上所有节点与嵌入边的二叉树形式均被重用树 包括。 另外,根据单个不确定图枚举出单个不确定图的所有子图包括: 从单个不确定图提取出多个蕴含图,每个蕴含图都是单个不确定图可能的存在方 式; 分别计算每个蕴含图所包含的所有子图。 并且,提取出多个蕴含图的个数为2的单个不确定图中边的个数次幂。 并且,在单个不确定图的所有蕴含图中指定部分蕴含图为样本图,为在单个不确 定图的所有蕴含图随机指定数个蕴含图为样本图,其中,样本图的数量与任一子图在单个 不确定图的所有蕴含图的支持度最大值的平方成正比,与不置信度的自然对数成反比,与 误差系数的平方成反比,与支持度阈值的平方成反比。 并且,使用计算重用方法分别计算单个不确定图的被指定检查点覆盖的部分样本 图集合中每个样本图的存在概率,并使用计算重用方法每个子图在被指定检查点覆盖的部 分样本图集合中每个样本图上的期望支持度包括: 根据单个不确定图中每条边的概率,计算出每个蕴含图的存在概率; 指定单个不确定图的所有子图中的一个; 分别计算被指定的子图在被指定检查点覆盖的部分样本图集合中每个样本图上 的支持度; 根据每个样本图的存在概率、被指定的子图在每个样本图上的支持度,计算被指 定的子图在被指定检查点覆盖的部分样本图集合中每个样本图的支持度; 继续从单个不确定图中指定下一个子图并计算其在被指定检查点覆盖的部分样 本图集合中每个样本图上的支持度,直到单个不确定图的所有子图都被指定; 根据每个子图在被指定检查点覆盖的部分样本图集合中每个样本图上的支持度, 计算每个子图在单个不确定图上的期望支持度。 并且,分别计算被指定的子图在被指定检查点覆盖的部分样本图集合中每个样本 图上的支持度,为使用最大独立集法计算被指定的子图在被指定检查点覆盖的部分样本图 集合中每个样本图上的基于最小像的支持度。 并且,根据每个子图在被指定检查点覆盖的部分样本图集合中每个样本图上的期 望支持度与单个不确定图的每个样本图的存在概率,判定该子图是频繁子图、不是频繁子 图、或不确定是不是频繁子图包括: 获取期望支持度阈值; 根据单个不确定图的每个样本图的存在概率,计算子图在所有支持度等于一恒定 值的蕴含图上的聚合概率; 根据子图在所有支持度等于一恒定值的蕴含图上的聚合概率,计算子图在单个不 确定图的所有蕴含图中期望支持度不小于该恒定值的聚合概率; 根据子图在单个不确定图的所有蕴含图中期望支持度不小于该恒定值的聚合概 率,计算当前概率观察值与结果区间; 根据结果区间与期望支持度阈值判定子图是否为频繁子图,将所有结果区间上限 大于期望支持度阈值、且结果区间下限大于期望支持度阈值与非误差系数的乘积的子图判 定为频繁子图,将所有结果区间上限小于期望支持度阈值的子图判定为不是频繁子图,将 所有结果区间上限大于期望支持度阈值、且结果区间下限小于期望支持度阈值与非误差系 数的乘积的子图判定为不确定是不是频繁子图。 从上面所述可以看出,本专利技术提供的技本文档来自技高网...
【技术保护点】
一种针对单个不确定图的频繁子图挖掘与优化方法,其特征在于,包括:获取单个不确定图;根据所述单个不确定图枚举出所述单个不确定图的所有子图;在所述单个不确定图的所有蕴含图中指定部分蕴含图为样本图;在所述样本图集合中设定多个检查点,所述多个检查点将所述样本图集合分割为多个部分样本图集合,并依次指定所述每个检查点;使用计算重用方法分别计算所述单个不确定图的所述被指定检查点覆盖的部分样本图集合中每个样本图的存在概率,并使用计算重用方法计算所述每个子图在所述被指定检查点覆盖的部分样本图集合中每个样本图上的期望支持度;根据所述每个子图在所述被指定检查点覆盖的部分样本图集合中每个样本图上的期望支持度与所述单个不确定图的每个样本图的存在概率,判定该子图是频繁子图、不是频繁子图、或不确定是不是频繁子图,若判定该子图是频繁子图或不是频繁子图则停止该子图的相关运算,若判定该子图不确定是不是频繁子图则继续指定下一个检查点并根据下一个被指定检查点覆盖的部分样本图集合重新进行判定直到所述每个检查点都被指定过,其中,对所述最末被指定的检查点覆盖的部分样本图集合进行判定时一定不会得出不确定的判定结果;输出所有频繁子图。
【技术特征摘要】
【专利技术属性】
技术研发人员:赵翔,陈一帆,胡艳丽,汤大权,
申请(专利权)人:中国人民解放军国防科学技术大学,
类型:发明
国别省市:湖南;43
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。