一种社交网络中有影响力用户的识别方法技术

技术编号:25482244 阅读:58 留言:0更新日期:2020-09-01 23:02
本发明专利技术公开了一种基于社交网络的有影响力用户的识别方法,包括步骤:数据标准化,将选取的社交网络数据集抽象成为社交网络图并计算出邻接矩阵;权值计算,利用离散程度以及累积分布函数将各节点的拓扑结构转化为数值用于计算;节点排序,按照节点的权值大小对各节点进行排序;动态攻击,按百分比依次删除排序后的节点并计算每次删除前后的最大连通子图所占比例;精确性分析,通过计算各节点的权值与节点真实传播能力之间的关系来判定节点的重要性。本发明专利技术不再仅仅考虑单个节点的性能,而是将网络的拓扑结构包含在内,从网络全局对节点的重要性进行分析,丰富了重要节点的识别手段,提高了重要节点识别的精度。

【技术实现步骤摘要】
一种社交网络中有影响力用户的识别方法
本专利技术涉及复杂网络领域,尤其涉及一种社交网络中有影响力用户的识别方法。
技术介绍
在网络信息时代,人们可以通过社交网络获取信息、传递消息,并且在交通、医疗以及金融方面得到了广泛的应用。社交网络的出现极大地便利了人们的生活,已经逐渐取代传统的信息传播方式如电视、广播和报纸。在整个网络中,信息的传播往往是由那几个最具影响力的节点所控制的,如何确定这些节点一直是研究的热点问题。复杂网络与人们的生活紧密相关,比如人际关系网络,因特网、新陈代谢网络、电线网络、交通网络等一系列网络,都是一些常见的复杂网络。这些网络都具有一个很明显的特点,就是所有的网络都被少量的集散节点所支配,且这些节点几乎控制着整个网络,而大部分的其他节点都是无关紧要,对整个网络所造成的影响不大。当这样的网络受到攻击时,如果是突然的意外故障或随机的攻击,可能对整个网络所造成的危害不大,但是如果遭到蓄意的攻击,并且刚好攻击的节点就是网络少数的集散节点,那么整个网络可能会非常脆弱并且有可能会处于瘫痪状态,从而给人们的日常生活带来巨大的损害。因此如何在复杂网络下,保证网络的抗毁性和可靠性已成为复杂网络研究中的一个的重要研究课题。研究结果表明,复杂网络中的每个节点功能并不相同,节点与节点之间存在着显著的区别,而且位于不同位置的节点对网络所造成的影响也是不相同。在网络信息时代,社交网络既便利了人们的生活,改变了传统的信息传播方式,同时也带来了新的挑战。因此,有效地辨别复杂网络的节点重要程度,对维护网络的可靠性和抗毁性具有极为重要的作用。用于衡量节点重要性的指标性能的方法定义如下:(1)传播模型:可用于衡量节点的扩展能力,被广泛使用的传播模型包括线性阈值模型、独立级联模型和流行模型。近年来,J.Zhou,M.E.Newman等学者使用了一种易感传播模型:Susceptible-Infectious-Recovered(SIR)来模拟社交网络中的传播过程,对一个节点进行重复大量的实验,并将结束时处于易感状态的平均节点数作为节点的传播能力(SC)。在标准SIR随机模型中,每个节点可以被分为三个不同的状态:易感(S)、感染(I)和恢复(R)。在实验刚开始的时候,只有一个节点被设置为感染状态,而所有其他节点将被设置为易感状态。然后,受感染的节点将以概率α扩散到与之相连的所有易感节点。受感染的节点将有可能以概率β进行恢复,并被定义为恢复状态。在传播过程结束后,整个网络中只有两种状态:易感状态与恢复状态。只需要计算网络中易感节点的数量并将这个数值记录为节点的传播能力。(2)Kendall相关系数:计算完节点的传播能力并生成序列σ之后,再获取由不同度量方式所得的节点权值序列R。两个列表的相关性越高,说明对应方法在评估节点扩展能力方面的准确性越高,可以使用Kendall相关系数来表示两个列表的相关性。假设{(σ1,R1),(σ2,R2),...,(σn,Rn)}是由序列σ和序列R构成的一组有序对,对于其中的任意两个元素对(σi,Ri)和(σj,Rj),当σi>σj且Ri>Rj或σi<σj且Ri<Rj时,则认为这两个元素对是一致的;当σi>σj且Ri<Rj或σi>σj且Ri<Rj时,则认为这两个元素对不是一致的;当σi=σj或Ri=Rj时,则这两个元素对被认为既不是一致的也不是不一致的。Kendall相关系数的定义如下:其中,nc是两个序列中一致元素对的数目,nd是两个序列中不一致元素对的数目,n是两个元素对的规模。(3)单调性:区分具有不同传播能力的节点和在不同等级上均匀分布节点的能力是评价社交网络中有影响力节点排序方法的标准之一。单调性(Monotonicity)被用于检验各中心性度量方式区分节点传播效率的能力。单调性(M)的定义如下所示:其中,n是序列R中元素的个数,Nr是在第r个等级中元素的个数。M的值始终是范围[0,1]内的一个数字,M值越大,则意味着该度量方式对于网络中的节点判别能力越强。当前刻画复杂网络节点重要性的指标可以从基于网络局部、位置、全局、随机游走和其他方法几个方面进行划分:基于网络局部属性的指标一般适用于大型网络,因为其计算简单,时间复杂度低。这类指标主要考虑的是节点自身信息和其邻居节点信息,其中这一类指标最为广泛应用的就是节点的度数;基于网络位置属性的指标认为复杂网络中节点的重要性和其在网络中所处的位置有着直接关系,这类方法最典型的就是K-Shell指标,以及在此基础上发展而来的MDD指标;基于网络全局属性的节点重要性排序指标一般准确性较高,但是不适用于大型复杂网络,这是因为其计算复杂,时间复杂度高。该类指标主要考虑节点在网络的全局信息,这些指标典型的有特征向量、紧密度、介数、Katz等指标;基于链接关系的网页排序技术一般也称为基于随机游走的节点重要性排序方法。这类典型的方法有PageRank算法、LeaderRank算法、HTTS算法。除以上四类方法外,还有些方法分别从节点效率、边权值、节点删除、网络连通性等视角度量节点的重要性。
技术实现思路
为克服现有技术的不足,本专利技术提出一种社交网络中有影响力用户的识别方法,包括:步骤1,数据标准化,将选取的社交网络数据集抽象成为社交网络图并计算出邻接矩阵;步骤2,权值计算,利用离散程度以及累积分布函数将各节点的拓扑结构转化为数值用于计算各节点的EMH(扩展混合H指数中心性,简称EMH)值,包括步骤S21:在标准化处理过的数据集中找出每个节点的邻居节点,并计算节点的离散程度,离散程度的计算公式为:其中,节点的H指数是指节点的邻居节点中至少有H个节点的度大于等于H,H_max是邻居节点中最大的H指数值,如果节点v的邻居节点中有一个节点的H指数值为vj,则将αj(v)记为1,否则记为0;S22:利用网络中每一个节点的度的以及计算好的离散程度,根据公式计算各个节点的改进后的H指数(IH),其中,|Dv|即节点v的度,α1和α2表示的是[0,1]区间内的随机数,A1表示的是节点v的邻居节点中离散程度大于v的节点个数,A2表示的是节点v的邻居节点中离散程度等于v的节点个数;S23:通过计算网络中各节点的IH值,将节点v的邻居节点按照IH值的大小排序,排序后序列为S(v)={c1(v),c2(v),...,cm(v)},其中,c1(v)表示的是节点v的邻居节点中最大的IH值,cm(v)表示的是节点v的邻居节点中最小的IH值;S24:将排序后的结果用到累积分布函数中,累积分布函数的公式为其中,s和r表示的是[0,1]区间内的随机数,Sj(v)表示的是在序列S(v)中的第j个位置的数值,将节点v的邻居节点的MC值进行求和,求和公式为其中,Nv表示的是节点v的邻居节点集合,vj是邻居节点集Nv中的一个元素,MC(vj)表示的是节点vj的MC值;步骤3,将步骤2中求得的网络中各节点的EMH值进行排序,排序后的结果用EMH序列R本文档来自技高网
...

【技术保护点】
1.一种社交网络中有影响力用户的识别方法,其特征在于,包括:/n步骤1,数据标准化,将选取的社交网络数据集抽象成为社交网络图并计算出邻接矩阵;/n步骤2,权值计算,利用离散程度以及累积分布函数将各节点的拓扑结构转化为数值用于计算各节点的EMH值,包括步骤/nS21:在标准化处理过的数据集中找出每个节点的邻居节点,并计算节点的离散程度,离散程度的计算公式为:

【技术特征摘要】
1.一种社交网络中有影响力用户的识别方法,其特征在于,包括:
步骤1,数据标准化,将选取的社交网络数据集抽象成为社交网络图并计算出邻接矩阵;
步骤2,权值计算,利用离散程度以及累积分布函数将各节点的拓扑结构转化为数值用于计算各节点的EMH值,包括步骤
S21:在标准化处理过的数据集中找出每个节点的邻居节点,并计算节点的离散程度,离散程度的计算公式为:其中,节点的H指数是指节点的邻居节点中至少有H个节点的度大于等于H,H_max是邻居节点中最大的H指数值,节点v的邻居节点中有一个节点的H指数值为j,则将αj(v)记为1,否则记为0;
S22:利用网络中每一个节点的度以及计算好的离散程度,根据公式计算各个节点的改进后的H指数(IH),其中,|Dv|即节点v的度,α1和α2表示[0,1]区间内的随机数,A1表示节点v的邻居节点中离散程度大于v的节点个数,A2表示节点v的邻居节点中离散程度等于v的节点个数;
S23:通过计算网络中各节点的IH值,将节点v的邻居节点按照IH值的大小排序,排序后序列为S(v)={c1(v),c2(v),...,cm(v)},其中,c1(v)表示的是节点v的邻居节点中最大的IH值,cm(v)表示的是节点v的邻居节点中最小的IH值;
S24:将排序后的结果用到累积分布函数中,累积分布函数的公式为其中,s和r表示的是[0,1]区间内的随机数,Sj(v)表示的是在序列S(v)中的第j个位置的数值,将节点v的邻居节点的MC进行求和,求和公式为其中,Nv表示的是节点v的邻居节点集合,vj是邻居节点集Nv中的一个元素,MC(vj)表示的是节点vj的MC值;
步骤3,将步骤2中求得的网络中各节点的EMH值进行排序,排序后的结果用EMH序列R={r...

【专利技术属性】
技术研发人员:卢鹏丽董晨蔚京娟栾瑞陈炜张芝铷
申请(专利权)人:兰州理工大学
类型:发明
国别省市:甘肃;62

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1