本发明专利技术公开了一种动态复杂网络中的进化模式挖掘方法,用于解决大规模动态复杂网络中局部拓扑结构演化特征的分析,方便用户对复杂系统的行为和发展趋势进行预测。本发明专利技术将动态复杂网络中多个时刻的网络数据,在保留有用信息的前提下,构造成边上带有标签的总和图;在总和图上,通过字符串匹配来搜索规则边,并记录每条规则;根据规则边,构造权重图,完成进化模式的搜索。本发明专利技术中模式的定义具有通用性,可以处理噪声数据,发现近似模式和保守子结构;模式挖掘方法简单灵活,避免了常规频繁模式挖掘方法中产生候选子集和子图同构的复杂计算,具有非常高的效率。
【技术实现步骤摘要】
本专利技术涉及数据挖掘和复杂网络分析领域,特别是动态复杂网络中的进化模式挖 掘方法。
技术介绍
随着计算机科学和网络技术的发展,来自各个领域的网络数据呈指数级增长。在 网络数据分析的相关研究中,图是一种非常重要的建模工具,把个体抽象成节点、把个体之 间的联系抽象成边就构成了图结构。图可以对很多复杂系统进行建模,包括生物系统、物理 系统、软件系统和社会系统等。运用图挖掘算法对复杂网络进行分析,可以增强人们对大规 模网络的认识和理解,有助于相关领域做出正确的决策和专家对相关领域进行更深入的研 究。然而,由于问题规模的巨大和图挖掘本身的复杂性,从海量数据中抽取有用的知识和信 息成为摆在人们面前的重大难题。频繁模式挖掘是一种典型的具有很高计算复杂性的图挖掘问题,它可以分成图集 合挖掘(Graph dataset mining)和大图挖掘(large graph mining)。图集合挖掘是从一 组图的集合中,搜索频繁出现的子图,这些子图在该组图的集合中出现的次数不少于某个 阈值。大图挖掘是从单个大图中搜索频繁出现的子图。频繁模式挖掘可以广泛应用在Web 挖掘、网络入侵检测、药物发现、化合物合成等领域。聚类作为另一种非常重要的图挖掘问 题,是将物理或抽象对象的集合分成由类似的对象组成的多个社团(community)结构的过 程。属于同一社团的内部成员间连接紧密,不同社团之间的成员连接松散。通过对网络进 行聚类分析,可以得到网络的功能模块或者兴趣相同的工作组等,方便人们进行决策,具有 重要意义。例如,在商务上,聚类能帮助市场分析人员从客户基本库中发现不同的客户群, 并且用购买模式来刻画不同的客户群的特征。在生物学上,聚类能用于推导植物和动物的 分类,对基因进行分类,获得对种群中固有结构的认识。现实世界中的网络数据大多具有随时间缓慢变化的特征,这样的网络数据称之为 动态复杂网络。然而,当前的图挖掘方法主要集中在对静态网络的分析,这些静态网络是动 态复杂网络中多个时刻的数据的简单集成或动态复杂网络在某一时刻的快照。单纯的对静 态网络进行分析,忽略动态复杂网络不断演化的特性,那么这些分析是有局限的。随着动态 复杂网络数据越来越丰富,许多学者开始将静态网络中的问题扩展到动态网络,并在动态 网络上进行频繁模式挖掘和聚类等研究。一些用于静态网络的方法也已经被扩展到动态网 络上,例如,Wackersreuther等人提出了一个用静态图上的图挖掘技术来解决动态网络中 的频繁模式挖掘问题的框架,首先将动态网络中多个时刻的数据整合为一个大图,然后用 静态网络中的经典方法在大图上搜索频繁子图,最后用后缀树从这些频繁子图中搜索动态 网络的频繁模式。Chakrabarti等人第一次提出了进化聚类的框架该框架在对每一个时 刻的网络数据进行聚类时,既要求聚类结果符合当前时刻的网络拓扑特征,又要求聚类结 果和前一时刻的聚类结果尽量保持一致。将两个目标结合起来,寻求一个最佳的平衡点,这 是符合动态复杂网络是缓慢变化这一基本特征的。基于这一框架,学者们又提出了一些运用传统的聚类算法来解决动态网络聚类问题的策略。上述基于动态复杂网络的频繁模式挖掘和聚类分析方法能够帮助我们理解复杂 系统,然而,对动态复杂网络的演化规则和保守子结构的挖掘也具有重要的意义。这些演化 规则包括进化模式(evolving patterns)和进化系统的发展趋势(Development trendof the evolving systems)等。Lahiri等人运用频繁子图和模式树的方法来挖掘具有周期 性的模式。You和Cook运用图重写规则(graph-rewriting rules)来刻画网络随时间的 变化情况,用描述规则(description rules)来表示在结构变化中的时序模式(temporal patterns) 0本专利技术的方法要解决和他们相似的问题,但也存在不同(1)模式的定义不同。本专利技术中定义的模式更通用,Lahiri等人定义的模式是本 专利技术中定义的模式的特例。(2)考虑到了现实世界复杂系统的演化规律具有某种程度的不确定性,以及收集 到的网络数据具有噪声的特点,因此本专利技术还发现近似模式,更具有现实意义。(3)本专利技术中的方法还能够在动态复杂网络中搜索保守(conserved)子结构。保 守子结构是动态复杂网络变化过程中比较稳定的部分,在不同应用中具有不同的含义。例 如蛋白质相互作用网络中的保守子结构代表着具有一定功能的单元,科学家合作网络中的 保守子结构代表着比较稳定的研究团体。(4)解决问题的方法完全不同。本专利技术中的方法避免了常规频繁模式挖掘方法中 产生候选子集和子图同构的复杂计算,大大降低了方法的时间和空间复杂度,具有非常高 的效率,可以解决大规模动态复杂网络中局部拓扑结构演化特征的分析问题。
技术实现思路
鉴于上述分析,本专利技术定义了一种在动态复杂网络中比较通用的模式,并提出了 一种用于挖掘该模式的方法,通过对这类模式进行挖掘,得到动态复杂网络演化过程中的 局部变化特征,用来预测网络的变化和发展趋势。本专利技术的关键在于进化模式的定义。所谓进化模式,就是在动态复杂网络演化过 程中频繁出现的、具有一定出现规则的模式。本专利技术的主要技术问题是如何高效的完成规则边(regular edge)的筛选和进化 模式的搜索。对动态复杂网络中多个时刻的图,在不丢失数据有效信息的前提下,构造成总 和图,把多个图上的模式挖掘问题转化到单个图上,从而大大降低了方法的时间和空间复 杂度。运用一种策略来判断并标记在动态网络变化过程中存在出现规则的边,也就是规则 边,得到由规则边构成的总和图的一个子图。在搜索进化模式时,仅对该子图中的规则边进 行,从而进一步降低了算法的计算复杂性。一、本专利技术的标准的进化模式挖掘方法的具体步骤表达如下第一步、输入动态复杂网络G = <G1;G2,…,GT>和阈值S,构造总和图Gs。给Gs中 的每一条边e加上长度为T的“ 0” “1”字符串,作为e的标签,记为le,在标签的位置t,如 果字符为“0”,表示边e在第t个图中不出现;如果字符为“1”,表示边e在第t个图中出 现。删除不频繁的边,也就是边标签中字符“1”的个数小于阈值S的边。第二步、判断并标记规则边,删除无规则边。对&中的每一条边e,如果Ie的所有 字符全为“ 1 ”或者前t (用户定义的数值)个字符全为“0”,则e为非规则边,这里t = T/24或者t = 3T/4,当然也可以根据先验知识设置t的值。否则,假设规则r的长度为d,表示 为Ie (1. . d),取d等于2到T/2,比较r和剩下的T/d段字符串,如果每一段都和r相同,则 认为e是规则边,否则e为非规则边。标记规则边,删除非规则边,得到仅包含规则边的有 标记图G1。第三步、将规则边的规则映射为权重,得到带权图。本专利技术中用二元组(d, rule)代表规则序列,其中d是规则的长度,rule是对应的规则。假设一个标签字符串为 “001101001101001101”,则 rule 为 “001101”,d 为 6,用二元组(6, "001101")来表示。这 样,就可以将二元组映射为一个6位整数。方法如下最高位为d本文档来自技高网...
【技术保护点】
1.动态复杂网络中的进化模式挖掘方法,其特征在于,具体步骤如下:(1)输入动态复杂网络G=(G1,G2,…,GT)和阈值S,构造总和图Gs;给Gs中的每一条边e加上长度为T的“0”“1”字符串,作为e的标签,记为le,在标签的位置t,如果字符为“0”,表示边e在第t个图中不出现;如果字符为“1”,表示边e在第t个图中出现。删除不频繁的边,也就是边标签中字符“1”的个数小于阈值S的边;(2)判断并标记规则边,删除非规则边;对Gs中的每一条边e,如果le的所有字符全为“1”或者前t个字符全为“0”,则e为非规则边,这里t=T/2或者t=3T/4,当然也可以根据先验知识设置t的值。否则,假设规则r的长度为d,表示为le(1..d),取d等于2到T/2,比较r和剩下的T/d段字符串,如果每一段都和r相同,则认为边e是规则边,否则e为非规则边;标记规则边,删除非规则边,得到仅包含规则边的有标记图G1;(3)将规则边的规则映射为权重,得到带权图;(4)在步骤(3)得到的带权图上搜索进化模式。
【技术特征摘要】
【专利技术属性】
技术研发人员:高琳,覃桂敏,熊站营,杨建业,
申请(专利权)人:西安电子科技大学,
类型:发明
国别省市:87
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。