当前位置: 首页 > 专利查询>天津大学专利>正文

基于联合贝叶斯生成模型的社团检测和语义识别的方法技术

技术编号:22817669 阅读:36 留言:0更新日期:2019-12-14 13:21
本发明专利技术属于复杂网络领域,具体涉及一种基于联合贝叶斯生成模型的社团检测和语义识别的方法,该方法包括如下步骤:S1属性网络的定义、S2联合贝叶斯生成模型、S3模型的优化过程。本发明专利技术对构建的属性网络进行社团检测,并且给出每个社团的语义描述。同时对网络的结构以及网络中节点的属性进行建模,并且给出结构社团与属性主题之间的关系。

Community detection and semantic recognition based on joint Bayesian generation model

【技术实现步骤摘要】
基于联合贝叶斯生成模型的社团检测和语义识别的方法
本专利技术属于复杂网络领域,具体涉及融合网络结构和属性的广义社团检测和社团语义识别的方法。
技术介绍
近年来,随着大数据时代的到来以及获取数据渠道的多样化,现实世界中复杂系统的大量数据都可以得到。复杂网络通常作为复杂系统的有力表示,例如社交网络、生物网络、文献网络等。我们不仅可以获得复杂系统中多种多样的实体,还能获得对这些实体的多样描述,属性复杂网络通常用来研究和分析这些数据。识别网络中的社团结构以及社团的语义特征是复杂网络分析中的重要任务。国内外学者社团检测问题进行了大量的研究,提出了一些经典的方法。例如,层次聚类的方法,模块度优化的方法,统计推理的方法,谱方法,生成模型,马尔科夫动态的方法等。真实的网络往往具有多种多样的内在结构规则,传统的已提出的社团检测方法仅仅适用于同构的社团结构,现实的网络可能具有异构结构(二分结构),混合结构(同时混合同构和异构结构规则)以及其他类型的结构。因此,广义社团检测是当前社团检测任务所面临的新的挑战。同时,在属性网络中节点的属性提供了节点及网络的潜在语义信息,当网络的结构与节点的属性同时应用于社团检测时,缺失的结构信息能够得到补充同时能够进行更深层次的社团检测。同一个社团中的节点所具有的属性,可以为社团提供语义描述,这些描述可以帮助解释为何一些确定的节点能够划分到同一个社团以及划分的社团的具体语义。Newman等人提出了一个混合模型来探索网络的结构规则,他们对社团与节点之间的关系进行建模,能够检测具有多种规则的网络,但是这个方法仅仅考虑了网络的结构而没有考虑节点的属性;经典的LDA模型仅仅关注节点的属性,认为同一个社团中的节点往往具有类似的属性;Yang等人提出了一个判别模型,利用了网络的拓扑结构和节点的内容来进行社团检测,然而这个模型并没有给出社团的语义描述,没有将网络结构和节点的属性看作两个相关的部分;He等人提出了一个生成模型包括两部分,一部分是社团,一部分是语义。这个模型能够同时进行社团检测和描述社团的语义,但是它仅仅适用于同构的网络结构规则的社团检测,并不能够检测广义社团。因此,考虑到真实的网络具有丰富的社团结构规则这一事实,以及节点的属性不仅能够帮助提高社团检测的结果而且可以识别社团的潜在语义特征。识别网络中的广义社团并且对社团的语义进行解释是复杂网络分析中值得研究的问题。已经提出方法没有同时解决这个两层的问题,因此提出一种方法同时融合网络的拓扑结构和节点的属性,而不仅仅将它们看作孤立的两部分,并且进行广义社团检测及社团多重语义识别,使社团检测的结果更具有广泛的适用性和意义。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提供一种融合网络拓扑结构和节点的属性同时进行广义社团检测和社团语义识别的方法。本专利技术针对探索复杂网络中的广义的社团结构和对社团的多重语义进行解释的困难,以及考虑到将网络的拓扑结构和节点的属性同时联系起来而不是当作两个孤立的部分进行建模的问题,目的在于提出一个联合的模型,同时建模网络结构和节点的属性。该模型包括两个部分,第一个是拓扑部分,它主要是基于混合模型,认为属于同一个社团中的节点具有相同的连接倾向而不假设网络事先具有什么样的结构规则,因此可以检测多种社团结构。第二个是属性部分,我们利用典型的LDA主题模型来进行语义识别,我们假设每个社团都具有多个主题,即每个社团都具有一个主题分布,每个主题都以一定的概率去生成不同的属性。并且我们利用一个概率转移矩阵来揭示社团和主题的潜在联系,同时对网络的结构和节点的属性进行建模,对社团语义进行解释。本专利技术为解决上述
技术介绍
中提出的技术问题,采用的技术方案是:基于联合贝叶斯生成模型的社团检测和语义识别的方法,该方法包括如下步骤:S1属性网络的定义:(1)将具有N个节点和M个属性的属性网络G定义为一个N×N维的邻接矩阵A和N×M的属性矩阵X。(2)邻接矩阵A中aij=1表示节点vi和vj之间有连边,aij=0表示vi和vj之间没有连边;属性矩阵X中xit=1表示节点vi具有第t个属性wt。S2联合贝叶斯生成模型:(4)模型参数的定义:模型主要包括三种类型的变量:观测变量、潜在变量和模型参数;观测变量:社团数目K,节点数目N,属性数目M,邻接矩阵A和属性矩阵X。潜在变量:社团标签z,主题标签g。模型参数:π=(πr)1×N,πr表示社团r中的节点所占的比例;θ=(θrj)K×N,θrj表示社团r中的节点和节点vj连接的概率;η=(ηks)K×K,ηks是节点vi属于第r个社团,主题是s的概率;Φ=(Φst)K×M,Φst是主题s生成属性wt的概率。α,β,γ,ξ属于模型的超参数。(5)模型定义:a)模型的目的在于通过利用网络的邻接矩阵A和属性矩阵X,将具有多种结构规则的网络中的节点同时划分为K个网络社团和K个属性社团。b)为了建模网络的结构,我们假设同一个社团中的节点具有相同的连接模式。就是说网络中的一个节点和其他所有剩余的其他节点之间的连接概率只与当前节点所在的社团与剩余节点的连接倾向有关。c)为了联合建模网络的结构和节点的属性,我们定义了参数η=(ηks)K×K。网络中的一个社团可能会具有多个主题,社团和主题并不是相互匹配的关系,ηr代表了社团r的主题分布。因此η提供了社团和主题之间的转移关系,并且将这两部分紧密的联系起来。当一个节点的社团标签确定之后,我们利用转移矩阵来获得节点属性的主题,然后根据参数Φ来生成节点的属性。(6)模型的生成过程:a)从以α为参数的狄利克雷分布中生成参数π。b)对于每个社团r属于{1,2...K}i.从以β为参数的狄利克雷分布中生成参数θrii.从以γ为参数的狄利克雷分布中生成参数ηrc)对于每个主题sii.从以ξ为参数的狄利克雷分布中生成参数Φsd)对于每一个节点vi,i∈{1,2...N}iv.从以π为参数的狄利克雷分布中生成每个节点的社团标签ziv.对于每一个节点vj,并且vi≠vj从以为参数的多项分布中生成边aijvi.对于每个属性wt并且xit=1从以为参数的多项分布中生成每个属性的主题标签git从以Φgit为参数的多项分布中生成属性wtS3模型的优化过程:精确地推断潜在变量z和g是很困难的,因此我们使用吉布斯采样和切片采样来分别采样潜在变量z,g以及超参数α,β,γ,ξ。(1)采样z:对于网络中每一个节点vi,给出所有其他节点的社团标签,然后求出每个节点vi,的社团标签是r的后验概率。(2)采样gi:对于任一社团r中的节点vi,给出所有节点的所有属性的主题标签除了节点vi的属性wt,计算属性wt的主题标签是s的后验概率。本专利技术步骤S1在构造属性网络时,对于获得的数据,需要根据实体之间的关系构造出网络,同时利用对实体的描述信息,需要抽取出每个实体的属性,构造节点-属性矩阵。...

【技术保护点】
1.基于联合贝叶斯生成模型的社团检测和语义识别的方法,其特征在于,该方法包括如下步骤:/nS1:属性网络的定义:/n(1)将具有N个节点和M个属性的属性网络G定义为一个N×N维的邻接矩阵A和N×M的属性矩阵X;/n(2)邻接矩阵A中a

【技术特征摘要】
1.基于联合贝叶斯生成模型的社团检测和语义识别的方法,其特征在于,该方法包括如下步骤:
S1:属性网络的定义:
(1)将具有N个节点和M个属性的属性网络G定义为一个N×N维的邻接矩阵A和N×M的属性矩阵X;
(2)邻接矩阵A中aij=1表示节点vi和vj之间有连边,aij=0表示vi和vj之间没有连边;属性矩阵X中xit=1表示节点vi具有第t个属性wt;
S2:联合贝叶斯生成模型:
(1)模型参数的定义:模型主要包括三种类型的变量:观测变量、潜在变量和模型参数;
观测变量:社团数目K,节点数目N,属性数目M,邻接矩阵A和属性矩阵X;
潜在变量:社团标签z,主题标签g;
模型参数:π=(πr)1×N,πr表示社团r中的节点所占的比例;
θ=(θrj)K×N,θrj表示社团r中的节点和节点vj连接的概率;
η=(ηks)K×K,ηks是节点vi属于第r个社团,主题是s的概率;Ф=(Фst)K×M,Фst是主题s生成属性wt的概率;
α,β,γ,ξ属于模型的超参数;
(2)模型定义:
定义了参数η=(ηks)K×K,网络中的一个社团可能会具有多个主题,社团和主题并不是相互匹配的关系,ηr代表了社团r的主题分布;
当一个节点的社团标签确定之后,利用转移矩阵来获得节点属性的主题,然后根据参数Ф来生成节点的属性;
(3)模型的生成过程:
a)从以α为参数的狄利克雷分布中生成参数π
b)对于每个社团r属于{1,2…K}
i.从以β为参数的狄利克雷分布中生成参数θr
ii.从以γ为参数的狄利克雷分布中生成参数ηr
c)对于每个主题s
i.从以ξ为参...

【专利技术属性】
技术研发人员:朱莹莹戴维迪焦鹏飞王文俊
申请(专利权)人:天津大学
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1