当前位置: 首页 > 专利查询>清华大学专利>正文

面向跨网络的表示学习算法制造技术

技术编号:29601132 阅读:32 留言:0更新日期:2021-08-06 20:05
本公开提出一种面向跨网络的表示学习算法,包括:S1,生成包括源网络和目标网络的网络数据;S2,分别从源网络和目标网络随机采样设定数量的节点,并整理成满足算法输入的数据格式;S3,得到源网络和目标网络的输入数据后,分别将其输入到一个L层的神经网络,并对每一层分别计算源网络和目标网络的结构特征和表达特征,计算源网络和目标网络的对应特征之间的距离损失;S4,将从L层的神经网络中得到的源网络节点的表达向量进行分类预测概率计算,通过交叉熵损失函数计算分类损失,并且结合距离损失,通过反向传播算法更新神经网络参数;S5,重复步骤S2‑S4,直至整个算法收敛。本公开有效地解决了跨网络表示学习问题,在现实中有着广阔的应用空间。

【技术实现步骤摘要】
【国外来华专利技术】面向跨网络的表示学习算法
本公开属于计算机
,尤其涉及一种面向跨网络的表示学习算法。
技术介绍
网络结构数据因其能够自然地表达对象与对象之间的关系而广泛存在于众多的应用场景中。比如在社交领域(微信或者微博),用户与用户的友好关系能够以社交网络的形式表达;在科研领域,作者和论文之间的关系,论文与论文之间的关系,可以分别用发表网络和引用网络进行表达;在电商领域,用户与商品之间的点击关系形成的网络。正因为网络结构数据的普遍性以及重要性,近年来,针对网络中的节点如何进行有效的向量化表达(即网络嵌入表达)成为一个重要的研究问题。节点的向量化,指的是希望通过算法将网络中的节点映射到一个低维空间。在这个低维的向量空间,节点与节点之间的距离能够反映彼此之间在原始网络中的关系。学习得到的节点向量可以被应用到多个任务,比如推荐、链路预测等等。现有的网络嵌入表示算法主要可以分为两类:一是直推式的表示学习算法。给定一个目标网络,直推式的表示算法直接通过节点的属性以及网络关系去优化每个节点的表达向量,比如DeepWalk和Node2vec。二是归纳式的表示学习算法。归纳式的表示算法往往是学习出一个映射函数,只要给定输入节点的属性以及其邻居,就可以通过映射函数推断出节点的表达向量,比如GCN,GraphSAGE和GAT。在现实的应用中,我们面临的可能是多个网络,每个网络可能来自不同的时刻或者不同的数据源。这些网络数据的分布可能不同。我们往往是希望从已知的网络中总结出有用的知识,将总结的知识应用到未知的网络中去。比如,在论文的引用网络中,即使不同时刻发表的论文主题热点不同,我们仍然可以借助由过去多年发表的论文形成的网络去帮助推断最近发表的论文与论文之间的关系。因此,在面对多个不同网络的时候,如何解决网络与网络之间分布不同的问题,使得算法能够充分利用已知的网络数据,来提升未知网络数据的表示学习向量的质量是本技术研究的重点。然而,现有的算法都不能够很好地解决跨网络的表示学习问题。具体来讲:(1)对于直推式的算法而言,由于直推式算法是直接去优化网络中的节点表达向量,因此对于一个新的网络,直推式算法无法直接去推断新网络中节点的表达向量。因此直推式算法没有任何可用的知识可以被用来进行跨网络的学习。(2)对于归纳式的算法而言,尽管其在建模的时候考虑的是学习一个节点属性和结构信息的映射函数,这样可以自然地进行跨网络的推断,但是归纳式的算法并没有考虑到网络与网络之间的数据分布是不同的,从一个网络中归纳出来的模式或者知识可能并不能很好地适用于另一个网络,因此归纳式算法在跨网络表示学习的问题上也存在着一定的缺陷。因此,现有技术需要改进。上述
技术介绍
内容仅用于帮助理解本公开,而并不代表承认或认可所提及的任何内容属于相对于本公开的公知常识的一部分。
技术实现思路
为解决上述技术问题,本公开提出了一种面向跨网络的表示学习算法。基于本公开实施例的一个方面,公开一种面向跨网络的表示学习算法,包括:S1,生成包括源网络和目标网络的网络数据,每个网络数据包含网络的拓扑结构信息和节点属性信息,所述目标网络为所要推断表征的网络;S2,分别从源网络和目标网络随机采样设定数量的节点,并整理成满足算法输入的数据格式;S3,得到源网络和目标网络的输入数据后,分别将其输入到一个L层的神经网络,并对每一层分别计算源网络和目标网络的结构特征和表达特征,计算源网络和目标网络的对应特征之间的距离损失;S4,将从L层的神经网络中得到的源网络节点的表达向量进行分类预测概率计算,通过交叉熵损失函数计算分类损失,并且结合距离损失,通过反向传播算法更新网络参数;S5,重复步骤S2-S4,直至整个算法收敛。基于本公开的面向跨网络的表示学习算法的另一个实施例中,所述步骤S3,得到源网络和目标网络的输入数据后,分别将其输入到一个L层的神经网络,并对每一层分别计算源网络和目标网络的结构特征和表达特征,计算源网络和目标网络的对应特征之间的距离损失包括:S30,将源网络和目标网络的节点特征输入到L层的神经网络中;S31,在L层神经网络的每一层中,每个网络的节点特征表达向量经过一个消息路由模块产生结构特征;S32,结构特征经过消息聚合模块得到当前节点的新的表达特征向量;S33,通过跨网络对齐模块,计算当前层来自源网络和目标网络之间的结构特征距离损失和表达特征距离损失;S34,重复步骤S31至S33进行L次,得到最终源网络和目标网络的节点特征向量和L层累积的结构特征距离损失和表达特征距离损失。基于本公开的面向跨网络的表示学习算法的另一个实施例中,所述步骤S31,在L层神经网络的每一层中,每个网络的节点特征表达向量经过一个消息路由模块产生结构特征包括:每一层的消息路由模块表示为:式中,ri(l)为节点i在L层神经网络中第l层计算的源网络和目标网络的结构特征向量,为L层神经网络中第l-1层的源网络和目标网络的表达特征向量,第0层的表达特征向量由节点的原始特征向量xi表示,为第l层的消息路由模块涉及的参数矩阵,a(l)T为第l层的消息路由模块涉及的参数向量,σ为激活函数,||为两个向量的直接相连操作,N(v)为节点v直接相连的邻居集合,为节点u传向节点v的消息权重。基于本公开的面向跨网络的表示学习算法的另一个实施例中,所述步骤S32,结构特征经过消息聚合模块得到当前节点的新的表达特征向量包括:每一层的消息聚合模块表示为:式中,和为消息聚合模块涉及的参数矩阵,为示节点聚合层面的向量。基于本公开的面向跨网络的表示学习算法的另一个实施例中,所述步骤S33,通过跨网络对齐模块,计算当前层来自源网络和目标网络之间的结构特征距离损失和表达特征距离损失包括:当前层来自源网络和目标网络之间的结构特征距离损失为:式中,Pr,Qr为源网络和目标网络的结构特征向量和的分布,为一个距离函数,用来计算结构特征向量和的期望距离。当前层来自源网络和目标网络之间的表达特征距离损失为:式中,Pa,Qa为源网络和目标网络的节点表达特征向量和的分布,为一个距离函数,用来计算节点表达特征向量和的期望距离。基于本公开的面向跨网络的表示学习算法的另一个实施例中,所述步骤S34,重复步骤S31至S33进行L次,得到最终源网络和目标网络的节点特征向量和L层累积的结构特征距离损失和表达特征距离损失包括:源网络和目标网络的节点特征向量和L层累积的结构特征距离损失为:源网络和目标网络的节点特征向量和L层累积的表达特征距离损失为:基于本公开的面向跨网络的表示学习算法的另一个实施例中,所述步骤S4,将从L层的神经网络中得到的源网络节点的表达向量进行分类预测概率计算,通过交叉熵损失函数计算分类损失,并且结合距离损失,通过反向传播算法更新网络参数包括:<本文档来自技高网
...

【技术保护点】
1.一种面向跨网络的表示学习算法,其特征在于,包括:/nS1,生成包括源网络和目标网络的网络数据,每个网络数据包含网络的拓扑结构信息和节点属性信息,所述目标网络为所要推断表征的网络;/nS2,分别从源网络和目标网络随机采样设定数量的节点,并整理成满足算法输入的数据格式;/nS3,得到源网络和目标网络的输入数据后,分别将其输入到一个L层的神经网络,并对每一层分别计算源网络和目标网络的结构特征和表达特征,计算源网络和目标网络的对应特征之间的距离损失;/nS4,将从L层的神经网络中得到的源网络节点的表达向量进行分类预测概率计算,通过交叉熵损失函数计算分类损失,并且结合距离损失,通过反向传播算法更新网络参数;/nS5,重复步骤S2-S4,直至整个算法收敛。/n

【技术特征摘要】
【国外来华专利技术】1.一种面向跨网络的表示学习算法,其特征在于,包括:
S1,生成包括源网络和目标网络的网络数据,每个网络数据包含网络的拓扑结构信息和节点属性信息,所述目标网络为所要推断表征的网络;
S2,分别从源网络和目标网络随机采样设定数量的节点,并整理成满足算法输入的数据格式;
S3,得到源网络和目标网络的输入数据后,分别将其输入到一个L层的神经网络,并对每一层分别计算源网络和目标网络的结构特征和表达特征,计算源网络和目标网络的对应特征之间的距离损失;
S4,将从L层的神经网络中得到的源网络节点的表达向量进行分类预测概率计算,通过交叉熵损失函数计算分类损失,并且结合距离损失,通过反向传播算法更新网络参数;
S5,重复步骤S2-S4,直至整个算法收敛。


2.根据权利要求1所述的面向跨网络的表示学习算法,其特征在于,所述步骤S3,得到源网络和目标网络的输入数据后,分别将其输入到一个L层的神经网络,并对每一层分别计算源网络和目标网络的结构特征和表达特征,计算源网络和目标网络的对应特征之间的距离损失包括:
S30,将源网络和目标网络的节点特征输入到L层的神经网络中;
S31,在L层神经网络的每一层中,每个网络的节点特征表达向量经过一个消息路由模块产生结构特征;
S32,结构特征经过消息聚合模块得到当前节点的新的表达特征向量;
S33,通过跨网络对齐模块,计算当前层来自源网络和目标网络之间的结构特征距离损失和表达特征距离损失;
S34,重复步骤S31至S33进行L次,得到最终源网络和目标网络的节点特征向量和L层累积的结构特征距离损失和表达特征距离损失。


3.根据权利要求2所述的面向跨网络的表示学习算法,其特征在于,所述步骤S31,在L层神经网络的每一层中,每个网络的节点特征表达向量经过一个消息路由模块产生结构特征包括:
每一层的消息路由模块表示为:






式中,为节点i在L层神经网络中第l层计算的源网络和目标网络的结构特征向量,为L层神经网络中第l-1层的源网络和目标网络的表达特征向量,第0层的表达特征向量由节点的原始特征向量xi表示,为第l层的消息路由模块涉及的参数矩阵,a(l)T为第l层的消息路由模块涉及的参数向量,...

【专利技术属性】
技术研发人员:王朝坤严本成
申请(专利权)人:清华大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1