一种新型社会网络采样方法技术

技术编号:11604453 阅读:56 留言:0更新日期:2015-06-17 01:52
本发明专利技术提出一种新型社会网络采样方法,属于复杂网络技术领域。本方法适用于由于现有硬件条件的限制下对大规模数据分析的数据采样,提供了社区聚集系数和社区聚集中心两个概念,步骤包括:根据节点的社区聚集系数找出所有社区聚集中心;利用PageRank方法对所有节点进行网络排名;每次采样的起始节点选取网络排名最低的未被采样社区聚集中心;按比例设置采样大小;利用森林火灾采样方法进行采样。经过实验证明,本发明专利技术方法得到的采样结果的社区结构和原图的社区结构比较相似,较好地保持了社区结构,很大程度上减小需要处理的数据规模,大规模的降低计算和存储的成本。

【技术实现步骤摘要】

本专利技术提出一种可以保持社区结构的基于社会网络的采样方法,属于复杂网络

技术介绍
近年来人们发现,各种各样的社交网络(complex network)不断地涌现,如新浪微博,微信,人人网等。通常社交网络有复杂的结构和数以万计的节点。除此之外,复杂网络的节点和边可能是动态变化的。例如微博等社交网络中有数亿个节点和无数动态变化的好友关系。在中国至少已经有10亿的QQ用户,并在进一步扩大中,而且用户之间的好友关系也在不断地变化。因此,如何处理超大规模的社交网络数据,已经成为研究者亟待解决的关键科学问题之一。社区结构已成为社交网络最普遍和最重要的拓扑结构属性之一。通常来说,网络社区结构具有社区内部节点相互连接紧密、社区之间节点连接稀疏的特点。研究复杂网络社区结构对于研究复杂网络具有重要的理论意义。同时,社区结构研究已被应用于恐怖组织识别、社会网络分析与管理、未知蛋白质功能预测、好友推荐、主控基因识别、推荐系统以及Web社区挖掘和搜索引擎等众多领域,具有极其广阔的应用前景。
技术实现思路
由于网络的结构日益复杂,数据越来越多,直接在原始网络上进行计算对计算能力和存储空间有巨大的要求,而且大多数目前的采样方法都没有将保持社区结构作为目标。本专利技术提出了一种新型社会网络采样方法,以实现能较好地维持原网络的社区结构的前提下,很大程度上减小需要处理的数据规模,适用于由于现有硬件条件的限制下对大规模数据分析的数据采样。将社区网络用无向无权图G=(V,E)表示,V表示网络中节点集合,E表示网络中边集合,设网络中节点总数为n,边总数为m,用(μ,ν)表示网络中的一条边,μ,ν∈V;对于V中任一节点v,设节点v的度数为kv。首先定义社区聚集系数和社区聚集中心两个概念:社区聚集系数定义为节点任意两个邻居是好友的概率,节点v的社区聚集系数CCv为:其中节点i和节点j是节点v的任意两个邻居节点,e(i,j)用于标记节点i和节点j是否是邻居节点关系,若是e(i,j)的值为1,否则e(i,j)的值为0;社区聚集中心定义为社区聚集系数极大值的网络节点,如果节点v的社区聚集系数大于等于它的所有邻居节点的社区聚集系数,节点v被称为社区聚集中心。本专利技术提供的一种新型社会网络采样方法,实现步骤为:步骤1:遍历V中的所有节点,找到社区聚集中心;步骤2:利用PageRank方法对V中所有节点进行排序;步骤3:在未被采样的社区聚集中心中,选择网络排名最低的节点作为采样的起始节点;标记选取的社区聚集中心为节点v;步骤4:设置节点v的采样大小Samsize=cur_size×Rv;其中,cur_size表示本次采样方法要求采样的节点总数,Rv表示节点v的采样比例;Rv通过下式确定:其中,Nv表示节点v的邻居节点的集合,Nv中节点j的度数为kj,C表示所有社区聚集中心的集合,C中节点i的度数为ki,节点i的邻居节点的集合为Ni,Ni中的节点h的度数为kh。步骤5:利用森林火灾采样方法进行采样,当达到步骤4设置的采样大小或者没有继续烧下去的节点时,进入步骤6执行;步骤6:判断是否达到本次采样方法要求采样的节点总数,若是,停止采样,输出采样节点;若否,继续转步骤2执行。本专利技术的优点与积极效果在于:本专利技术的社会网络采样方法可以在能较好地维持原网络的社区结构的前提下,很大程度上减小需要处理的数据规模,大规模降低计算和存储的成本,从而为在现有的计算和存储限制条件下对大数据处理提供有效的支持。附图说明图1是本专利技术的新型社会网络采样方法的步骤流程示意图;图2是cond-mat-2005数据集下各采样方法的NCP前6个参数的采样效果图;图3是cond-mat-2005数据集下各采样方法的NCP后5个参数的采样效果图;图4是cond-mat数据集下各采样方法的NCP前6个参数的采样效果图;图5是cond-mat数据集下各采样方法的NCP后5个参数的采样效果图;图6是astro-ph数据集下各采样方法的NCP前6个参数的采样效果图;图7是astro-ph数据集下各采样方法的NCP后5个参数的采样效果图。具体实施方式下面将结合附图和实施例对本专利技术作进一步的详细说明。本专利技术提供的新型社会网络采样方法是基于森林火灾采样方法和PageRank方法的改进。森林火灾采样方法:步骤一,随机选择节点v,然后产生一个随机数r,r符合平均数为pf/(1-pf)的几何分布。参数pf被称为向前燃烧概率,森林火灾采样方法倾向于采样度数大的节点。节点v选择r条邻边,这些边的另一个节点都是没访问过的,则得到这r条边对应的r个未被访问的节点v1,v2,v3,....,vr。步骤二,对这未被访问的r个节点循环步骤一直到烧到足够多的节点。为了避免出现重复,所以在采样过程中,节点是不能被访问两次的。如果火熄灭了,重新随机选择一个节点。PageRank方法:PageRank表示网络排名,其主要作用是衡量节点的重要程度。初始每个节点的权值设置为1,然后每个节点将自己的权值传递给它的所有邻居节点。节点v传递的值为wv/degree(v),其中wv代表节点v的权值,degree(v)代表节点v的邻居总数。同理,权值就在网络中不断的传递,直到网络趋于稳定。可以想到在网络中占有比较重要地位的节点会聚集更大的权值。然后对节点的权值进行排名就得到了节点重要顺序的排名。首先,本专利技术定义了“社区聚集系数”和“社区聚集中心”两个概念,并在此基础上结合PageRank方法提出一种有效保持社区结构采样方法,既减小了网络数据规模,又保持原网络的社区结构。其中“社区聚集系数”定义为节点任意两个邻居也是好友的概率,“社区聚集中心”定义为“社区聚集系数”极大值的网络节点。本专利技术按照PageRank方法所得的社区聚集中心排名按比例分配大小逆序进行采样:按照PageRank方法所得的排序,从“社区聚集中心”中选取排序较低的节点,按照森林火灾方式采样,采样的大小是用当前采样起始节点的度数占“社区聚集中心”总的度数的比例来分配,当采样大小足够之后,跳转到“社区聚集中心”中的下一个节点。不断循环直到所有的“社区聚集中心”都进行了按比例的采样。本专利技术的新型社会网络采样方法,将复杂网络用无向无权图G表示,G=(V,E),图中节点总数为|V|=n,边总数为|E|=m,设S为G中某些节点的集合,用(μ,ν)表示复杂网络中的一条边,其中μ,ν∈V,称ν是μ的邻居节点,或者μ是ν的邻居节点,μ的邻居节点集合...

【技术保护点】
一种新型社会网络采样方法,将社区网络用无向无权图G=(V,E)表示,V表示网络中节点集合,E表示网络中边集合,设网络中节点总数为n,边总数为m,对于V中的任一节点v,用kv表示节点v的度数;其特征在于:首先定义社区聚集系数和社区聚集中心两个概念:社区聚集系数定义为节点任意两个邻居是好友的概率,节点v的社区聚集系数CCv为:其中节点i和节点j是节点v的任意两个邻居节点,e(i,j)用于标记节点i和节点j是否是邻居节点关系,若是e(i,j)的值为1,否则e(i,j)的值为0;社区聚集中心定义为社区聚集系数极大值的网络节点,如果节点v的社区聚集系数大于等于它的所有邻居节点的社区聚集系数,则节点v被称为社区聚集中心;所述的社会网络采样方法通过以下步骤实现:步骤1:遍历V中的所有节点,找到所有的社区聚集中心;步骤2:利用PageRank方法对V中所有节点进行网络排名;步骤3:在未被采样的社区聚集中心中,选择网络排名最低的节点作为采样的起始节点;标记选取的社区聚集中心为节点v;步骤4:设置节点v的采样大小Samsize=cur_size×Rv;cur_size表示本次采样方法要求采样的节点总数,Rv表示节点v的采样比例;Rv通过下式确定:其中,Nv表示节点v的邻居节点的集合,C表示所有社区聚集中心的集合,C中节点i的度数为ki,节点i的邻居节点的集合为Ni,Ni中的节点h的度数为kh;步骤5:利用森林火灾采样方法进行采样,如果达到步骤4设置的采样大小或者没有继续烧下去的节点时,进入步骤6执行;步骤6:判断是否达到本次采样方法要求采样的节点总数,若是,停止采样,输出采样节点;若否,继续转步骤3执行。...

【技术特征摘要】
1.一种新型社会网络采样方法,将社区网络用无向无权图G=(V,E)表示,V表示网络中
节点集合,E表示网络中边集合,设网络中节点总数为n,边总数为m,对于V中的任一节
点v,用kv表示节点v的度数;其特征在于:
首先定义社区聚集系数和社区聚集中心两个概念:
社区聚集系数定义为节点任意两个邻居是好友的概率,节点v的社区聚集系数CCv为:
其中节点i和节点j是节点v的任意两个邻居节点,e(i,j)
用于标记节点i和节点j是否是邻居节点关系,若是e(i,j)的值为1,否则e(i,j)的值为0;
社区聚集中心定义为社区聚集系数极大值的网络节点,如果节点v的社区聚集系数大于
等于它的所有邻居节点的社区聚集系数,则节点v被称为社区聚集中心;
所述的社会网络采样方法通过以下步骤实现:
步骤1:遍历V中的所有节点,找到所有的社区聚集中心;
步骤2:利用PageRank方法对V中所有节点进行网络排名;
步骤3:在未被采样的社区聚集中心中,选择网络排名最低的节点作为采样的起始节点;
标记选取的社区聚集中心为节点v;
步骤4:设置节点v的采样大小Samsize=cur_size×Rv;cur_size表示本次采样方法要
求采样的节点总数,Rv表示节点v的采样比例;Rv通过下式确定:
其中,Nv表示节点v的邻居节点的...

【专利技术属性】
技术研发人员:童超连宇牛建伟谢忠玉张杨
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1