话题领域中社交网络关键节点的识别方法技术

技术编号:13925102 阅读:76 留言:0更新日期:2016-10-28 05:25
本发明专利技术提出了一种话题领域中社交网络关键节点的识别方法,克服现有技术中没有考虑到真实社交网络中用户节点对于信息传播的影响因素以及计算复杂性较高的问题。其实现步骤是:(1)构建网络的有向图;(2)生成与有向图对应的邻接矩阵;(3)量化用户节点对信息传播的影响因素;(4)量化用户节点的话题topic相关度;(5)量化用户节点信息传播能力;(6)识别关键节点。本发明专利技术提出的方法依赖于网络的本地拓扑结构,引入了实际社交网络中用户节点对于信息传播影响因素及用户话题相关度的概念,降低了计算的复杂性,可以有效地识别出话题领域中社交网络关键节点。

【技术实现步骤摘要】

本专利技术属于网络
,更进一步涉及数据挖掘
的一种基于话题领域社交网络中关键节点的识别方法。本专利技术通过对用户信息传播属性特征值的量化以及传播模型的建立,在不需要整体网络拓扑结构的情况下,可有效地识别出特定话题领域中关键节点。
技术介绍
社交网络中关键节点识别的研究源于复杂网络的研究工作,其特点是利用复杂网络理论,分析节点及节点间的交互关系,进行网络模型的建立,对网络中关键节点进行识别,有助于更好地理解社交网络中信息传播过程,解决网络中信息传播最大化问题。目前,已有的网络中关键节点的识别方法大都以来于网络拓扑结构,忽略了真实社交网络中信息传播所具有的话题限制,社交网络中用户对于信息的关注依赖于个人所感兴趣的话题,不同的话题领域中关键节点不同,如针对医学信息的传播,在具有相同度的情况下,在医学方面具有权威性的用户比没有医学知识用户具有较高的可信度,更加有利于该类信息的传播。西北工业大学申请的专利“微博网络意见领袖的识别方法”(专利申请号201310027808.4,公开号CN 103136331 A)中公开了一种微博网络意见领袖的识别方法。该方法包括信息的搜集,节点间交互关系权值的设定,以及意见领袖的识别,考虑到节点的粉丝数量,节点链接关系和交互关系,从而通过权重的大小来标识节点重要性和影响力。该方法存在的不足之处是,意见领袖的识别方法中没有考虑意见领袖中存在的话题限制,使得通过识别方法得到的意见领袖在进行信息的传播的过程中,无法实现最短时间内信息的传播最大化,降低了意见领袖识别准确性问题。Zhongwu Zhai,Hua Xu,Peifa Jia在其发表的论文“Identifying Opinion Leaders in BBS”(IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology,2008)中提出一种用户兴趣的意见领袖识别方法。该方法考虑到在BBS中信息传播过程中兴趣领域的限制问题,并通过与Zcore,PageRank等算法进行对比,验证其方法的有效性。该方法存在的不足之处是,对于用户信息的回复链量化过程中,计算复杂度相对较高,使得识别过程的开销增大,降低了关键节点识别的效率。Klaus Wehmuth,Artur Ziviani在其发表的论文“Distributed Assessment of the Closeness Centrality Ranking in Complex Networks”(The Fourth Annual Workshop on Simplifying Complex Networks for Practitioners,2012)中提出一种利用紧密中心性方法对关键节点进行分布式评估的方法。该方法在传统紧密中心性的计算方法进行了改进,不需要了解网络整体拓扑结构的信息,仅依赖于本地拓扑结构的信息,降低了关键节点识别方法的复杂性。该方法存在的不足之处是,没有考虑到真实社交网络中用户节点对于信息传播的影响因素,较低了识别的有效性。
技术实现思路
本专利技术的目的在于克服上述现有技术的不足,提出一种话题领域中社交网络关键节点的识别方法,以实现实际社交网络中关键节点的识别。本专利技术通过分析网络拓扑结构,量化用户节点对信息传播的影响因素及用户节点的话题topic相关度,依据实际社交网络中用户节点信息传播能力,有效地实现话题领域中社交网络关键节点的识别。本专利技术的具体步骤如下:(1)构建网络的有向图:将待识别的社交网络映射成有向图G(V,E),其中,V表示社交网络用户节点集合,E表示社交网络用户节点间的交互关系集合。(2)采用网络邻接矩阵的生成方法,生成与有向图对应的邻接矩阵。(3)量化用户节点对信息传播的影响因素:(3a)搜集用户发布的信息,按照下式,量化影响信息传播的用户节点信息发布的活跃度: A i = Σ j = 1 n f Δt j n ]]>其中,Ai表示社交网络中第i个用户节点信息发布的活跃度,i表示社交网络中的用户节点,n表示用户发布信息所选取的时间段的总数,∑表示求和操作,表示用户发布信息选取的Δtj时间段内用户发布信息的平均数,Δtj表示用户发布信息选取的第j个时间段;(3b)从搜集到的用户节点发布的信息中,提取影响信息传播的邻居节点对信息转发数目、邻居节点对信息评论数目、邻居节点对信息赞同数目;(3c)利用Saaty的10级重要性等级表,计算用户节点信息发布的活跃度、邻居用户节点对信息转发的数目、邻居用户节点对信息评论的数目、邻居用户节点对信息赞同的数目对信息传播影响的权值;(3d)按照下式,计算用户节点对信息传播影响因素的量化值:Ui=αAi+βr1+γ(r2+r3)其中,Ui表示社交网络中第i个用户节点对信息传播影响因素的量化值,α表示用户节点信息发布的活跃度对信息传播影响的权值,Ai表示社交网络中第i个用户节点发布信息的活跃度,β表示邻居用户节点对信息转发的数目对信息传播影响的权值,r1表示邻居用户节点对信息转发数目,γ表示邻居用户节点对信息评论的数目和邻居用户节点对信息赞同的数目对信息传播影响的权值,r2表示邻居用户节点对信息评论数目,r3表示邻居用户节点对信息赞同数目。(4)量化用户节点的话题topic相关度:(4a)搜集与话题topic相关的信息,从所搜集到的与话题topic相关的信息中,提取与话题topic高度相关的高频词汇集wn;(4b)搜集用户节点当前时间段内发布的信息,建立用户节点发布的信息集合Mi;(4c)利用汉词分词工具,对用户节点发布信息集合Mi中的每条信息进行数据处理,建立用户节点发布信息的分词集合Mic;(4d)将用户节点发布信息的分词集合Mic与话题topic高度相关的高频词汇集wn进行对比,采用权值设定方法,得到用户节点发布信息集合Mi中每条信息与话题topic的相关度(4e)通过下述量化公式,计算用户节点的话题topic相关度: R i = 1 s Σ j ∈ M i n m j c ‾ ]]>其中,Ri表本文档来自技高网
...

【技术保护点】
一种话题领域中社交网络关键节点的识别方法,具体步骤如下:(1)构建网络的有向图:将待识别的社交网络映射成有向图G(V,E),其中,V表示社交网络用户节点集合,E表示社交网络用户节点间的交互关系集合;(2)采用网络邻接矩阵的生成方法,生成与有向图对应的邻接矩阵;(3)量化用户节点对信息传播的影响因素:(3a)搜集用户发布的信息,按照下式,量化影响信息传播的用户节点信息发布的活跃度:Ai=Σj=1nfΔtjn]]>其中,Ai表示社交网络中第i个用户节点信息发布的活跃度,i表示社交网络中的用户节点,n表示用户发布信息所选取的时间段的总数,∑表示求和操作,表示用户发布信息选取的Δtj时间段内用户发布信息的平均数,Δtj表示用户发布信息选取的第j个时间段;(3b)从搜集到的用户节点发布的信息中,提取影响信息传播的邻居节点对信息转发数目、邻居节点对信息评论数目、邻居节点对信息赞同数目;(3c)利用Saaty的10级重要性等级表,计算用户节点信息发布的活跃度、邻居用户节点对信息转发的数目、邻居用户节点对信息评论的数目、邻居用户节点对信息赞同的数目对信息传播影响的权值;(3d)按照下式,计算用户节点对信息传播影响因素的量化值:Ui=αAi+βr1+γ(r2+r3)其中,Ui表示社交网络中第i个用户节点对信息传播影响因素的量化值,α表示用户节点信息发布的活跃度对信息传播影响的权值,Ai表示社交网络中第i个用户节点发布信息的活跃度,β表示邻居用户节点对信息转发的数目对信息传播影响的权值,r1表示邻居用户节点对信息转发数目,γ表示邻居用户节点对信息评论的数目和邻居用户节点对信息赞同的数目对信息传播影响的权值,r2表示邻居用户节点对信息评论数目,r3表示邻居用户节点对信息赞同数目;(4)量化用户节点的话题topic相关度:(4a)搜集与话题topic相关的信息,从所搜集到的与话题topic相关的信息中,提取与话题topic高度相关的高频词汇集wn;(4b)搜集用户节点当前时间段内发布的信息,建立用户节点发布的信息集合Mi;(4c)利用汉词分词工具,对用户节点发布信息集合Mi中的每条信息进行数据处理,建立用户节点发布信息的分词集合Mic;(4d)将用户节点发布信息的分词集合Mic与话题topic高度相关的高频词汇集wn进行对比,采用权值设定方法,得到用户节点发布信息集合Mi中每条信息与话题topic的相关度(4e)通过下述量化公式,计算用户节点的话题topic相关度:Ri=1sΣj∈Minmjc‾]]>其中,Ri表示社交网络中第i个用户节点的话题topic相关度,s表示当前时间段内用户节点发布信息的数目,∑表示求和操作,∈表示属于符号,Mi表示社交网络中第i个用户节点发信息集合,mjc表示用户节点发布的信息集合中第j条信息的分词集合,表示用户节点发布的信息集合中第j条信息与话题topic的相关度;(5)量化用户节点信息传播能力:(5a)按照下式,计算用户节点基本的信息传播能力:PR(vi)‾=deg(vi)*Ui*Ri]]>其中,表示用户节点vi基本的信息传播能力,vi表示社交网络中第i个用户节点,deg(vi)表示用户节点vi的度,Ui表示社交网络中第i个用户节点对对信息传播的影响因素的量化值,Ri表示社交网络中第i个用户节点的话题topic相关度;(5b)依据网络有向图中用户节点间的交互关系,按照下式,计算社交网络用户节点的信息传播能力:PR(vi)=(1-d)n+dΣj=1nw(vj,vi)*PR(vj)degjout]]>其中,PR(vi)表示社交网络中第i个用户节点vi信息传播能力,d表示阻尼系数,设置为默认值0.85,n表示社交网络中节点的总数,∑表示求和操作,w(vj,vi)表示从社交网络第i个用户节点vi到社交网络第j个用户节点vj信息传播的概率,vi表示社交网络的第i个用户节点,vj表示社交网络的第j个用户节点,*表示相乘操作,表示社交网络中第j个用户节点出度的大小;(5c)判断相邻两次信息传播能力的差值是否小于0.01,若是,将相邻两次的最后一次计算得到的结果作为社交网络用户节点的信息传播能力,执行步骤(6),否则,执行步骤(5b);(6)识别关键节点:(6a)按照从大到小的顺序,将社交网络用户节点的信息传播能力进行排序;(6b)将排序中的前Q个用户节点作为网络关键节点,Q∈(0,10%)。...

【技术特征摘要】
1.一种话题领域中社交网络关键节点的识别方法,具体步骤如下:(1)构建网络的有向图:将待识别的社交网络映射成有向图G(V,E),其中,V表示社交网络用户节点集合,E表示社交网络用户节点间的交互关系集合;(2)采用网络邻接矩阵的生成方法,生成与有向图对应的邻接矩阵;(3)量化用户节点对信息传播的影响因素:(3a)搜集用户发布的信息,按照下式,量化影响信息传播的用户节点信息发布的活跃度: A i = Σ j = 1 n f Δt j n ]]>其中,Ai表示社交网络中第i个用户节点信息发布的活跃度,i表示社交网络中的用户节点,n表示用户发布信息所选取的时间段的总数,∑表示求和操作,表示用户发布信息选取的Δtj时间段内用户发布信息的平均数,Δtj表示用户发布信息选取的第j个时间段;(3b)从搜集到的用户节点发布的信息中,提取影响信息传播的邻居节点对信息转发数目、邻居节点对信息评论数目、邻居节点对信息赞同数目;(3c)利用Saaty的10级重要性等级表,计算用户节点信息发布的活跃度、邻居用户节点对信息转发的数目、邻居用户节点对信息评论的数目、邻居用户节点对信息赞同的数目对信息传播影响的权值;(3d)按照下式,计算用户节点对信息传播影响因素的量化值:Ui=αAi+βr1+γ(r2+r3)其中,Ui表示社交网络中第i个用户节点对信息传播影响因素的量化值,α表示用户节点信息发布的活跃度对信息传播影响的权值,Ai表示社交网络中第i个用户节点发布信息的活跃度,β表示邻居用户节点对信息转发的数目对信息传播影响的权值,r1表示邻居用户节点对信息转发数目,γ表示邻居用户节点对信息评论的数目和邻居用户节点对信息赞同的数目对信息传播影响的权值,r2表示邻居用户节点对信息评论数目,r3表示邻居用户节点对信息赞同数目;(4)量化用户节点的话题topic相关度:(4a)搜集与话题topic相关的信息,从所搜集到的与话题topic相关的信息中,提取与话题topic高度相关的高频词汇集wn;(4b)搜集用户节点当前时间段内发布的信息,建立用户节点发布的信息集合Mi;(4c)利用汉词分词工具,对用户节点发布信息集合Mi中的每条信息进行数据处理,建立用户节点发布信息的分词集合Mic;(4d)将用户节点发布信息的分词集合Mic与话题topic高度相关的高频词汇集wn进行对比,采用权值设定方法,得到用户节点发布信息集合Mi中每条信息与话题topic的相关度(4e)通过下述量化公式,计算用户节点的话题topic相关度: R i = 1 s Σ j ∈ M i n m j c ‾ ]]>其中,Ri表示社交网络中第i个用户节点的话题topic相关度,s表示当前时间段内用户节点发布信息的数目,∑表示求和操作,∈表示属于符号,Mi表示社交网络中第i个用户节点发信息集合,mjc表示用户节点发布的信息集合中第j条信息的分词集合,表示用户节点发布的信息集合中第j条信息与话题topic的相关度;(5)量化用户节点信息传播能力:(5a)按照下式,计算用户节点基本的信息传播能力: P R ( v i ) ‾ = deg ( v i ) * U i * R i ]]>其中,表示用户节点vi基本的信息传播能力,vi表示社交网络中第i个用户节点,deg(vi)表示用户节点vi的度,Ui表示社交网络中第i个用户节点对对信息传播的影响因素的量化值,Ri表示社交网络中第i个用户节点的话题topic相关度;(5b)依据网络有向图中用户节点间的交互关系,按照下式,计算社交网络用户节点的信息传播能力: P R ( v i ) = ( 1 - d ) n + d Σ j = ...

【专利技术属性】
技术研发人员:杨力田亚平王小琴马建峰张俊伟张冬冬王利军
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1