当前位置: 首页 > 专利查询>西南大学专利>正文

一种社团挖掘方法技术

技术编号:14211596 阅读:149 留言:0更新日期:2016-12-18 20:55
一种社团挖掘方法,用以加强马尔可夫聚类算法正反馈机制,使得算法的准确率和效率都得到提升。包括:S1、模拟网络中流的随机流动,即基于T的M随机流动,其中T为流的转移矩阵,M为流的分布矩阵;S2、执行所述M到所述T的反馈操作;S3、执行所述T的正则化操作;S4、计算所述M在当前时间步长中的变化量;S5、判断所述的变化量是否达到阈值,若是,则转入步骤S6,否则,转入步骤S1;S6、归结并输出社团。本发明专利技术对正则马尔可夫聚类算法中正反馈系统进行增强,提出了一种新的社团挖掘方法(P‑MCL),具有更高的准确率和更少的时间消耗。

【技术实现步骤摘要】

本专利技术涉及软件算法领域,尤其是一种社团挖掘方法
技术介绍
现实世界中有许多复杂的系统可以用复杂网络表示,如社交网络、生物网络、蛋白质网络等等。社团结构是复杂网络的一个重要性质,对于分析网络功能,解释网络表征有重要的作用。由于社团结构的重要作用,学者们提出了很多算法进行社团挖掘,包括基于优化的方法,基于模型的方法,谱方法等。基于优化的方法通常用一个基于网络拓扑结构的评价函数作为目标函数,如模块度Q。之后,基于现有的搜索算法,如蚁群算法、遗传算法等等,寻找使得目标函数达到最大值的社团划分。基于随机分块(Stochastic block)的社团挖掘算法是一种典型的基于模型的方法。该模型将拓扑性质相似的点逐步合并,形成最终的社团。谱方法包含所有基于网络的邻接矩阵特征值的方法。以基于Laplace矩阵的谱方法为列,先求出Laplace矩阵的特征值和特征向量,并找出第二小的特征值对应的特征向量。该特征向量中正元素所对应的节点组成一个社团,负元素所对应的节点组成另一个社团。如果需要将一个网络分成两个以上的社团,则重复以上步骤。这些算法的易用性和效率限制了它们的应用。马尔可夫聚类算法是一类通过模拟一种特殊的网络中的流扩散行为进行图聚类方法。得益于其高效和易用性,此算法在生物信息学领域得到广泛应用。但该类算法的效率和准确性同样有待提高。马尔可夫聚类算法的核心机制是一个正反馈系统。通过进一步实验发现,现有马尔可夫聚类算法的正反馈系统可以进一步加强,从而提高算法的准确性和效率。如何加强其正反馈机制,使得算法的准确率和效率都得到提升,是当前亟待解决的问题。【专利技术内容】本专利技术提供了一种社团挖掘方法,用以加强马尔可夫聚类算法正反馈机制,使得算法的准确率和效率都得到提升。本专利技术的一种社团挖掘方法,包括下列步骤:S1、模拟网络中流的随机流动,即基于T的M随机流动,其中T为流的转移矩阵,M为流的分布矩阵;S2、执行所述M到所述T的反馈操作;S3、执行所述T的正则化操作;S4、计算所述M在当前时间步长中的变化量;S5、判断所述的变化量是否达到阈值,若是,则转入步骤S6,否则,转入步骤S1;S6、归结并输出社团。其中,所述步骤S1中具体采用马尔可夫概率转移方式模拟网络中流的随机流动;在t时刻,流的分布矩阵表示为Mt,流的转移矩阵表示为Tt,则游走步长l的随机流动通过M与T之间的矩阵连乘实现,具体参见公式1:其中,步骤S2中执行所述M到T的反馈流,具体参见公式2:Tt+1(i,j)=(1-λ)[Mt+1(i,j)]u+λTt 公式2;公式2中λ控制该反馈流对T的影响程度,u控制反馈流M元素差异性的放大程度。其中,步骤S3中执行所述T的正则化操作,具体参见公式3:其中,步骤S4中计算所述M在当前时间步长中的变化量,具体取所述M中元素在单步迭代过程中的最大值作为变化量,该变化量以Energy表示,参见公式4:其中,步骤S5中,若判定所述的变化量Energy未达到迭代终止阈值TE,则执行t=t+1,并转入步骤S1。其中,步骤S6中所述的归结并输出社团,具体将所述M每一列的元素最大值所在的行索引定为对应节点的标签,再将所述标签相同的节点归为一个社团并输出。其中,在所述的步骤S1之前,还包括步骤:S01、初始化参数;包括:所述M的膨胀系数r;所述M对所述T的反馈参数u、λ;删除小元素阈值Tp;迭代终止阈值TE;随机流动的步长l。其中,在所述的步骤S1之前,还包括步骤:S02、基于输入的网络邻接矩阵A,初始化流的分布矩阵M0、流转移矩阵T0;初始化公式参见公式5:其中,步骤S1与S2之间还包括步骤:S11、执行所述M的膨胀操作,具体先将Mt中的元素取其r次幂再除以每一列元素r次幂的和,参见公式6:其中,M(i,j)表示从节点i流向节点j的流的大小。其中,步骤S2与S3之间还包括步骤:S21、执行对所述M中较小元素的删除操作,具体采用预先设定的阈值Tp,删除每列中小于Tp的元素。本专利技术对正则马尔可夫聚类算法中正反馈系统进行增强,提出了一种新的社团挖掘方法(P-MCL),具有更高的准确率和更少的时间消耗。【附图说明】图1是本专利技术实施方式的流程图,详细描述见技术方案。图2是本专利技术(P-MCL)求解社团挖掘问题的工作机制图:(a)多头绒泡菌网络和复杂网络的对应图,包括多头绒泡菌数学模型(PM)中的正反馈系统,马尔可夫聚类算法的中反馈系统,同时还表示了这两个正反馈系统如何整合。(b)表示了R-MCL和P-MCL在该网络上的迭代曲线,可以见P-MCL拥有更快的迭代速度。(c)表示了在迭代最后的转移矩阵的情况,上版面为R-MCL的转移矩阵,下版面为P-MCL的转移矩阵。(d)和(e)为R-MCL和P-MCL的社团挖掘结果,结果表示不同的正反馈系统挖掘的社团会不尽相同。图3、图4、图5分别是P-MCL和R-MCL在海豚网络、政治书目网络、跆拳道网络上的社团挖掘结果。形状(如圆、矩阵)表示的是真实背景下的标准社团,颜色表示算法发现的社团。图3中可见,P-MCL发现的社团与真实的社团只有一个点的偏差。而R-MCL有更多的错误,包括将一个社团分成了更多的部分。图4中,虽然两种算法对于中间社团(三角形)都不能很好的识别。但是P-MCL能比较准确的识别另外两个社团(圆和正方形),而R-MCL识别比较混乱。图5中,两种算法都能比较好的识别跆拳道网络中的两个派别,但是P-MCL仍然展现出更好的准确率。P-MCL完全准确的识别出网络中的两个派别,R-MCL错误的识别了一个点。图6展示了算法在足球网络上的社团挖掘结果。位置代表了真实背景下的社团,颜色代表了算法发现的社团。P-MCL识别出了几乎12个标准社团,而R-MCL混合了其中一些社团。图7展示了在真实网络上,不同算法的社团挖掘结果。并通过模块度Q和标准互信息(NMI)对结果的优劣进行量化。(a)展示了在6个拥有标准社团的网络上的社团挖掘结果,NMI描述了算法的挖掘结果与真实的社团结构的相似程度。可以看出,本实验方法比起R-MCL算法有较大提高,同时比起其它社团挖掘算法也拥有较高的准确率。(b)展示了在6个不具有标准社团的网络上的社团挖掘结果,Q描述了结果的模块化程度。可以看出,本实验方法比起R-MCL算法在模块度上有较大的提高,同时比起其它社团挖掘算法,更能够发掘出较高模块度的社团划分。图8展示了R-MCL算法和P-MCL算法在六个网络上的运行时间对比(以秒计算)。在其中四个数据集上,P-MCL优于R-MCL,计算时间消耗更少。在另外两个数据集上没有明显差距。图9展示了在政治书目和网络科学数据集上的迭代过程,由图可见P-MCL的最大迭代步数更小。这表示P-MCL能够更早的收敛。图10表示的是P-MCL和R-MCL中Energy的变化程度,即ΔEnergy=|Energy′-Energyt-1|,在迭代过程中的统计频率。可以看出P-MCL的ΔEnergy在较小值时频率相对较低,同时在较大值时有较高的频率。这些结果说明了P-MCL的正反馈得到了增强了。图11分析了在不同的参数(u,λ)的设置下P-MCL的准确性。图中分析了P-MCL对参数的敏感性,并且给出一个比较好的参数设置。可以看出在λ>0.1时本文档来自技高网...
一种社团挖掘方法

【技术保护点】
一种社团挖掘方法,其特征在于,包括下列步骤:S1、模拟网络中流的随机流动,即基于T的M随机流动,其中T为流的转移矩阵,M为流的分布矩阵;S2、执行所述M到所述T的反馈操作;S3、执行所述T的正则化操作;S4、计算所述M在当前时间步长中的变化量;S5、判断所述的变化量是否达到阈值,若是,则转入步骤S6,否则,转入步骤S1;S6、归结并输出社团。

【技术特征摘要】
1.一种社团挖掘方法,其特征在于,包括下列步骤:S1、模拟网络中流的随机流动,即基于T的M随机流动,其中T为流的转移矩阵,M为流的分布矩阵;S2、执行所述M到所述T的反馈操作;S3、执行所述T的正则化操作;S4、计算所述M在当前时间步长中的变化量;S5、判断所述的变化量是否达到阈值,若是,则转入步骤S6,否则,转入步骤S1;S6、归结并输出社团。2.如权利要求1所述的社团挖掘方法,其特征在于,所述步骤S1中具体采用马尔可夫概率转移方式模拟网络中流的随机流动;在t时刻,流的分布矩阵表示为Mt,流的转移矩阵表示为Tt,则游走步长l的随机流动通过M与T之间的矩阵连乘实现,具体参见公式1:3.如权利要求1所述的社团挖掘方法,其特征在于,步骤S2中执行所述M到T的反馈流,具体参见公式2:Tt+1(i,j)=(1-λ)[Mt+1(i,j)]u+λTt 公式2;公式2中λ控制该反馈流对T的影响程度,u控制反馈流M元素差异性的放大程度。4.如权利要求1所述的社团挖掘方法,其特征在于,步骤S3中执行所述T的正则化操作,具体参见公式3:5.如权利要求1所述的社团挖掘方法,其特征在于,步骤S4中计算所述M在当前时间步长中的变化量,具体取所述M中元素在单步迭代过程中的最大值作为变化量,该变化量以Energy表示,参见公式4:6.如...

【专利技术属性】
技术研发人员:李向华梁鸣心高超张自力
申请(专利权)人:西南大学
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1