当前位置: 首页 > 专利查询>武汉大学专利>正文

一种基于多层图注意力网络的关联用户识别方法及装置制造方法及图纸

技术编号:30756711 阅读:24 留言:0更新日期:2021-11-10 12:10
本发明专利技术提供了一种基于多层图注意力网络的关联用户识别方法及装置,其中的方法首先通过随机置换矩阵模拟结构噪声与属性噪声,以提高模型的自适应性;并构建了关联用户识别模型,基于注意力机制,计算每个邻居节点对目标节点的重要性;利用归一化的注意力系数以及权重矩阵,计算得到每个节点的嵌入向量,并将所有目标节点的嵌入向量融合为嵌入矩阵;将多层图注意力网络得到的多层嵌入矩阵按照权重进行融合,基于贪心策略,得到最终的嵌入矩阵;对最终的嵌入矩阵进行关联识别,得到最终结果。由于提前模拟结构噪声与属性噪声,大大提高了模型的自适应性;有效的提取了多层图注意力网络的嵌入结果,因此提高了关联用户识别的准确率,有效降低了误差。有效降低了误差。有效降低了误差。

【技术实现步骤摘要】
一种基于多层图注意力网络的关联用户识别方法及装置


[0001]本专利技术涉及关联用户识别
,尤其涉及一种基于多层图注意力网络的关联用户识别方法及装置。

技术介绍

[0002]关联用户识别,是一种在多个社交网络中检测出关联用户的技术。关联用户是指不同社交网络中的用户,但它们归属于现实世界中的同一自然人。关联用户识别常应用于推荐系统、犯罪行为预测、个性化服务以及“冷启动”问题,因此成为目前社交网络研究的一个热点;但是,社交网络中的节点信息多种多样,网络结构庞大且复杂,这使得社交网络的特征提取成为一个难点。目前大部分的关联用户识别算法是基于Perozzi,Al

Rfou and Skiena在文献(DeepWalk:Online Learning of Social Representations[C].Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining

KDD'14,2014:701

710.)中提出的基于深层随机游走的社交网络特征提取方法,Perozzi在随机游走算法(Random Walk)提取的顶点序列的基础上,采用自然语言处理工具(word2vec)将顶点序列表示为一个多维的向量,最后获得了较好的特征提取效果。但是,基于随机游走的特征提取方法并不能直接对社交网络这种非欧结构进行处理,而是将其转化为顶点序列后进行特征提取,这就导致了误差的产生。
[0003]正是由于随机游走算法导致特征提取产生了较大的误差与噪声,图神经网络这一可直接对非欧结构(例如,社交网络)进行特征提取的方法逐渐成为热点。如何将图神经网络与关联用户识别相结合,高效的提取社交网络特征,准确的进行关联用户识别成为了难题。也有相关研究致力于解决这个问题,如Chen等人在文献(H.Chen,H.Yin,X.Sun,T.Chen,B.Gabrys,and K.Musial,“Multi

level graph convolutional networks for cross

platform anchor link prediction,”in Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery&Data Mining,2020,pp.1503

1511.)中提出同时使用简单图卷积神经网络与超图卷积神经网络对社交网络进行特征提取,Trung等人在文献(H.T.Trung,T.Van Vinh,N.T.Tam,H.Yin,M.Weidlich,and N.Q.V.Hung,“Adaptive network alignment with unsupervised and multi

order convolutional networks,”in2020IEEE 36th International Conference on Data Engineering(ICDE).IEEE,2020,pp.85

96.)中提出基于图卷积神经网络的无监督关联用户识别方法,并通过扩大稳定节点的影响力提高识别精确度。本申请专利技术人在实施本专利技术的过程中,发现上述算法仍存在一些问题,它们将所有邻居节点的权重定义为1,忽略了不同邻居节点对目标节点的权重存在差异性,由此导致特征提取过程不够精确。
[0004]综合上述分析可知,目前各种改进的关联用户识别方法尽管取得了一定的检测效果,但是识别精度较低这一问题仍需改进。

技术实现思路

[0005]本专利技术提出一种基于多层图注意力网络的关联用户识别方法及装置,用于解决或者至少部分解决现有技术中存在的识别精度低的技术问题。
[0006]为了解决上述技术问题,本专利技术第一方面提供了一种基于多层图注意力网络的关联用户识别方法,包括:
[0007]S1:获取两个社交网络,将其中一个作为源社交网络,另一个作为目标社交网络,对两个社交网络进行数据增强学习,其中,社交网络包含节点、节点间的连边、节点的特征向量三种信息,节点表示存在于该社交网络中的用户,节点间的连边表示用户之间的好友关系,节点的特征向量表示通过热编码技术将用户的属性信息编码后得到的向量表示;
[0008]S2:构建基于多层图注意力网络的关联用户识别模型,其中,基于多层图注意力网络的关联用户识别模型包括多层图注意力网络、嵌入融合模块以及输出模块,多层图注意力网络包括节点关系提取模块、特征融合模块;节点关系提取模块用于基于注意力机制计算每个邻居节点对目标节点的重要性,即注意力系数,再进行归一化和激活处理得到激活后的注意力系数;特征融合模块用于利用激活后的注意力系数以及权重矩阵计算得到每个节点的嵌入向量,并将所有目标节点的嵌入向量融合为嵌入矩阵,嵌入向量为在特征向量的基础上融合注意力系数以及网络结构信息后得到的向量表示;嵌入融合模块用于对源社交网络和目标社交网络的嵌入矩阵按照预设权重进行融合,并基于贪心策略,得到表示用户之间好友关系的关联用户识别矩阵;输出模块,用于根据关联用户识别矩阵得到识别结果;
[0009]S3:将进行数据增强后的网络数据作为训练数据对基于多层图注意力网络的关联用户识别模型进行训练,最小化损失函数得到最优的嵌入矩阵,并得到与最优的嵌入矩阵对应的模型,作为训练好的基于多层图注意力网络的关联用户识别模型;
[0010]S4:利用训练好的基于多层图注意力网络的关联用户识别模型对输入的社交网络进行关联用户识别。
[0011]在一种实施方式中,步骤S1中对两个社交网络进行数据增强学习包括:通过随机置换矩阵模拟结构噪声与属性噪声来实现数据增强。
[0012]在一种实施方式中,步骤S2中节点关系提取模块的计算过程包括:
[0013]基于注意力机制,计算每个邻居节点对目标节点的重要性,并将其作为注意力系数,计算公式为:
[0014]e
uv
=a(WF
u
,WF
v
)
[0015]其中,e
uv
表示将节点u作为目标节点计算得到的注意力系数,W表示权重矩阵,F
u
表示节点u的特征向量,F
v
表示节点v的特征向量,a(.)表示注意力机制;
[0016]利用softmax函数对注意力系数进行归一化处理:
[0017][0018]其中,上式表示采用softmax函数对注意力系数进行归一化,α'
uv
表示归一化后的注意力系数,M
u
表示节点u的邻域,即所有邻居节点,表示以e为底的指数函数,exp(e
uv
)表示以e为底,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多层图注意力网络的关联用户识别方法,其特征在于,包括:S1:获取两个社交网络,将其中一个作为源社交网络,另一个作为目标社交网络,对两个社交网络进行数据增强学习,其中,社交网络包含节点、节点间的连边、节点的特征向量三种信息,节点表示存在于该社交网络中的用户,节点间的连边表示用户之间的好友关系,节点的特征向量表示通过热编码技术将用户的属性信息编码后得到的向量表示;S2:构建基于多层图注意力网络的关联用户识别模型,其中,基于多层图注意力网络的关联用户识别模型包括多层图注意力网络、嵌入融合模块以及输出模块,多层图注意力网络包括节点关系提取模块、特征融合模块;节点关系提取模块用于基于注意力机制计算每个邻居节点对目标节点的重要性,即注意力系数,再进行归一化和激活处理得到激活后的注意力系数;特征融合模块用于利用激活后的注意力系数以及权重矩阵计算得到每个节点的嵌入向量,并将所有目标节点的嵌入向量融合为嵌入矩阵,嵌入向量为在特征向量的基础上融合注意力系数以及网络结构信息后得到的向量表示;嵌入融合模块用于对源社交网络和目标社交网络的嵌入矩阵按照预设权重进行融合,并基于贪心策略,得到表示用户之间好友关系的关联用户识别矩阵;输出模块,用于根据关联用户识别矩阵得到识别结果;S3:将进行数据增强后的网络数据作为训练数据对基于多层图注意力网络的关联用户识别模型进行训练,最小化损失函数得到最优的嵌入矩阵,并得到与最优的嵌入矩阵对应的模型,作为训练好的基于多层图注意力网络的关联用户识别模型;S4:利用训练好的基于多层图注意力网络的关联用户识别模型对输入的社交网络进行关联用户识别。2.如权利要求1所述的关联用户识别方法,其特征在于,步骤S1中对两个社交网络进行数据增强学习包括:通过随机置换矩阵模拟结构噪声与属性噪声来实现数据增强。3.如权利要求1所述的关联用户识别方法,其特征在于,步骤S2中节点关系提取模块的计算过程包括:基于注意力机制,计算每个邻居节点对目标节点的重要性,并将其作为注意力系数,计算公式为:e
uv
=a(WF
u
,WF
v
)其中,e
uv
表示将节点u作为目标节点计算得到的注意力系数,W表示权重矩阵,F
u
表示节点u的特征向量,F
v
表示节点v的特征向量,a(.)表示注意力机制;利用softmax函数对注意力系数进行归一化处理:其中,上式表示采用softmax函数对注意力系数进行归一化,α

uv
表示归一化后的注意力系数,M
u
表示节点u的邻域,即所有邻居节点,表示以e为底的指数函数,exp(e
uv
)表示以e为底,e
uv
为指数的函数,表示对所有的邻居节点进行该运算并求和;利用LeakyReLU激活函数对归一化的注意力系数进行激活处理:
其中,上式表示采用LeakyReLU函数作为激活函数对归一化的注意力系数进行激活,α
uv
表示激活后的注意力系数,LeakyReLU表示激活函数,表示注意力机制参数化的权重向量,[
·
||
·
]表示向量的拼接,表示注意力机制a(
·
)的公式化表达。4.如权利要求1所述的关联用户识别方法,其特征在于,步骤S2中特征融合模块的计算过程包括:利用激活后的注意力系数以及权重矩阵,计算得到每个节点的嵌入向量F

【专利技术属性】
技术研发人员:胡瑞敏肖益林吴俊杭甄宇任灵飞胡文怡
申请(专利权)人:武汉大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1