一种基于多层图注意力网络的关联用户识别方法及装置制造方法及图纸

技术编号：30756711 阅读：24 留言：0更新日期：2021-11-10 12:10

本发明专利技术提供了一种基于多层图注意力网络的关联用户识别方法及装置，其中的方法首先通过随机置换矩阵模拟结构噪声与属性噪声，以提高模型的自适应性；并构建了关联用户识别模型，基于注意力机制，计算每个邻居节点对目标节点的重要性；利用归一化的注意力系数以及权重矩阵，计算得到每个节点的嵌入向量，并将所有目标节点的嵌入向量融合为嵌入矩阵；将多层图注意力网络得到的多层嵌入矩阵按照权重进行融合，基于贪心策略，得到最终的嵌入矩阵；对最终的嵌入矩阵进行关联识别，得到最终结果。由于提前模拟结构噪声与属性噪声，大大提高了模型的自适应性；有效的提取了多层图注意力网络的嵌入结果，因此提高了关联用户识别的准确率，有效降低了误差。有效降低了误差。有效降低了误差。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多层图注意力网络的关联用户识别方法及装置

[0001]本专利技术涉及关联用户识别
，尤其涉及一种基于多层图注意力网络的关联用户识别方法及装置。

技术介绍

[0002]关联用户识别，是一种在多个社交网络中检测出关联用户的技术。关联用户是指不同社交网络中的用户，但它们归属于现实世界中的同一自然人。关联用户识别常应用于推荐系统、犯罪行为预测、个性化服务以及“冷启动”问题，因此成为目前社交网络研究的一个热点；但是，社交网络中的节点信息多种多样，网络结构庞大且复杂，这使得社交网络的特征提取成为一个难点。目前大部分的关联用户识别算法是基于Perozzi,Al
‑
Rfou and Skiena在文献(DeepWalk:Online Learning of Social Representations[C].Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining
‑
KDD'14,2014:701
‑
710.)中提出的基于深层随机游走的社交网络特征提取方法，Perozzi在随机游走算法(Random Walk)提取的顶点序列的基础上，采用自然语言处理工具(word2vec)将顶点序列表示为一个多维的向量，最后获得了较好的特征提取效果。但是，基于随机游走的特征提取方法并不能直接对社交网络这种非欧结构进行处理，而是将其转化为顶点序列...

【技术保护点】

【技术特征摘要】
1.一种基于多层图注意力网络的关联用户识别方法，其特征在于，包括：S1：获取两个社交网络，将其中一个作为源社交网络，另一个作为目标社交网络，对两个社交网络进行数据增强学习，其中，社交网络包含节点、节点间的连边、节点的特征向量三种信息，节点表示存在于该社交网络中的用户，节点间的连边表示用户之间的好友关系，节点的特征向量表示通过热编码技术将用户的属性信息编码后得到的向量表示；S2：构建基于多层图注意力网络的关联用户识别模型，其中，基于多层图注意力网络的关联用户识别模型包括多层图注意力网络、嵌入融合模块以及输出模块，多层图注意力网络包括节点关系提取模块、特征融合模块；节点关系提取模块用于基于注意力机制计算每个邻居节点对目标节点的重要性，即注意力系数，再进行归一化和激活处理得到激活后的注意力系数；特征融合模块用于利用激活后的注意力系数以及权重矩阵计算得到每个节点的嵌入向量，并将所有目标节点的嵌入向量融合为嵌入矩阵，嵌入向量为在特征向量的基础上融合注意力系数以及网络结构信息后得到的向量表示；嵌入融合模块用于对源社交网络和目标社交网络的嵌入矩阵按照预设权重进行融合，并基于贪心策略，得到表示用户之间好友关系的关联用户识别矩阵；输出模块，用于根据关联用户识别矩阵得到识别结果；S3：将进行数据增强后的网络数据作为训练数据对基于多层图注意力网络的关联用户识别模型进行训练，最小化损失函数得到最优的嵌入矩阵，并得到与最优的嵌入矩阵对应的模型，作为训练好的基于多层图注意力网络的关联用户识别模型；S4：利用训练好的基于多层图注意力网络的关联用户识别模型对输入的社交网络进行关联用户识别。2.如权利要求1所述的关联用户识别方法，其特征在于，步骤S1中对两个社交网络进行数据增强学习包括：通过随机置换矩阵模拟结构噪声与属性噪声来实现数据增强。3.如权利要求1所述的关联用户识别方法，其特征在于，步骤S2中节点关系提取模块的计算过程包括：基于注意力机制，计算每个邻居节点对目标节点的重要性，并将其作为注意力系数，计算公式为：e
uv
＝a(WF
u
,WF
v
)其中，e
uv
表示将节点u作为目标节点计算得到的注意力系数，W表示权重矩阵，F
u
表示节点u的特征向量，F
v
表示节点v的特征向量，a(.)表示注意力机制；利用softmax函数对注意力系数进行归一化处理：其中，上式表示采用softmax函数对注意力系数进行归一化，α
′
uv
表示归一化后的注意力系数，M
u
表示节点u的邻域，即所有邻居节点，表示以e为底的指数函数，exp(e
uv
)表示以e为底，e
uv
为指数的函数，表示对所有的邻居节点进行该运算并求和；利用LeakyReLU激活函数对归一化的注意力系数进行激活处理：
其中，上式表示采用LeakyReLU函数作为激活函数对归一化的注意力系数进行激活，α
uv
表示激活后的注意力系数，LeakyReLU表示激活函数，表示注意力机制参数化的权重向量，[
·
||
·
]表示向量的拼接，表示注意力机制a(
·
)的公式化表达。4.如权利要求1所述的关联用户识别方法，其特征在于，步骤S2中特征融合模块的计算过程包括：利用激活后的注意力系数以及权重矩阵，计算得到每个节点的嵌入向量F
′

【专利技术属性】
技术研发人员：胡瑞敏，肖益林，吴俊杭，甄宇，任灵飞，胡文怡，
申请(专利权)人：武汉大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人