System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于虚拟身份关联的,具体涉及一种基于大模型与特征增强的图卷积神经网络实现虚拟身份关联方法及装置。
技术介绍
1、随着互联网和社交网络的快速发展,用户在多个平台上的活动日益增多,这种现象催生了跨社交网络虚拟身份关联的需求,即识别出不同平台上属于同一用户的多个账户。这一技术在个性化推荐、广告定位及网络安全等方面具有重要意义。
2、传统的虚拟身份关联方法主要依据用户属性、用户生成的内容以及用户的社交关系等三个方面进行特征提取和相似度计算。具体来说,这些方法会比较账户间的属性距离、内容统计特征以及社交图谱的相似性,并通过设定阈值来确定账户间的归属关系。虽然这些方法实现简单,但由于缺乏对复杂关联模式的捕捉能力,其准确率受限。近年来,随着机器学习技术的发展,研究人员开始采用监督学习方法来进行虚拟身份关联。这类方法能够自动从数据中学习到分类边界,但仍然面临特征工程的挑战,即需要手动设计高质量的特征。
3、目前,深度学习技术因其强大的特征表示能力而被广泛采纳。相较于传统方法,深度学习能够在无需人工干预的情况下自动提取多层次的抽象特征,从而更好地捕捉账户间复杂的关联特性。不过,大多数现有工作仅利用单一或少数几个维度的信息(如用户属性或社交图谱),这限制了关联分析的全面性和准确性。因此,如何有效地整合来自不同维度的数据,并从中学习到一致性的表示,成为该领域亟待解决的关键问题。
技术实现思路
1、本专利技术的主要目的在于克服现有技术的缺点与不足,提供一种基于大模型与特征
2、为了达到上述目的,本专利技术采用以下技术方案:
3、第一方面,本专利技术提供了一种基于大模型与特征增强的图卷积神经网络实现虚拟身份关联方法,包括下述步骤:
4、微调多模态大模型并提取用户最具区分度的多个属性,所述属性包括用户名、发帖内容、签到表示以及图像信息;
5、将用户名、发帖内容、签到表示以及图像信息的属性拼接成特征矩阵,以用户作为节点、用户之间的关系作为边、特征矩阵为节点的属性构造图神经网络结构图;
6、图神经网络结构图后,对邻居节点进行筛选,屏蔽掉出度和入度较小的节点保留那些在网络中具有显著影响力的节点,进而增强模型对重要节点关系的捕捉能力;将保留下来的邻居节点的特征作为目标节点的信息补充,通过多头注意力机制对这些补充信息进行加权整合,以进一步增强目标节点的特征表示和信息丰富性;
7、将两个平台中不同用户的身份嵌入到mlp分类器中并通过softmax输出,判断两个不同平台的用户是否属于同一用户。
8、作为优选的技术方案,所述用户名的提取方法如下:
9、对用户名按字符划分为唯一的字符序列,所述字符序列包括字符和数值,所述数值代表代表对应字符在用户名中的字符计数;
10、基于字符序列得到用户名的计数加权向量;
11、基于预设的单层自编码器得到最终用户名的特征向量表示。
12、作为优选的技术方案,所述发帖内容的提取方法如下:
13、将用户帖子文本corr_text与该帖子对应图像corr_image嵌入预先设置的prompt模板中;
14、将上述prompt模板作为预训练的大语言模型的输入,使得大语言模型准确的提取帖子的文本特征和图像特征z;
15、z=llmc(prompt,corr_text,corr_image);
16、其中,z是由大语言模型llmc输出的,结合了帖子文本和对应图像的多模态信息,代表了帖子的整体特征;其中z包含了从文本描述中提取的语义信息以及从图像中提取的视觉特征,这些特征通过大语言模型的处理和融合,生成的z是对于帖子的综合性描述;
17、利用预先训练的bert模型对z进行进一步处理,提取深层次的文本特征。
18、作为优选的技术方案,所述签到表示提取具体为:
19、选择构造时空特征矩阵实现用户基于时间段的打卡信息建模,所述时空特征矩阵维度为dl×dt,在时空特征矩阵的(m,n)位置上,若值为1则表示用户在时间m段内到达过地点n;相应地,根据签到帖子的打卡地点及其打卡时间,将时空特征矩阵中的对应位置置为1,表示用户的签到;
20、对于没有签到帖子发布的用户,采取ip地址进行信息缺失补齐;对采集时间段及其地址进行时空特征矩阵对应位置置1签到;
21、将时空特征矩阵进行st-gcn进行处理,得到最终的签到表示。
22、作为优选的技术方案,所述图像信息提取具体为:
23、基于残差网络提取图像特征;
24、基于yolov9算法对用户上传的图像进行目标检测,将检测到的目标与本地数据库中的图像进行匹配,匹配过程定义为寻找在地理标记和标签空间中与检测到的目标最相似的数据库项;
25、提取所有用户的地理标记,采用预训练的bert模型对地理标记进行编码,将地理标记转化为嵌入向量。
26、作为优选的技术方案,增强目标节点的特征表示具体为:
27、用户a的社交连接为n表示用户a共有n条社交连接,由于不是每条社交连接都具有相同的重要性,因此定义邻居节点的拓扑重要性评分si,其中i表示节点索引,采用度中心性或其他图中心性指标来计算si,即:
28、
29、其中∈是一个很小的常数,用于防止除零错误,degree(i)表示节点i的度数,即直接连接到节点i的节点数量;
30、设计多头注意力层,每个头计算邻居节点对目标节点的影响力,对于节点j到节点i的影响力,通过以下公式计算:
31、
32、其中w(k)是该头的权重矩阵,a(k)是注意力向量,∥表示向量连接;
33、根据si的值,对进行调整,抑制拓扑重要性低的节点,具体表达为:
34、
35、利用抑制性多头注意力更新节点特征。
36、作为优选的技术方案,所述将两个平台中不同用户的身份嵌入到mlp分类器中并通过softmax输出,判断两个不同平台的用户是否属于同一用户,具体为:
37、对于任意两个用户节点i和j,将它们的特征向量hi和hj进行配对,形成一个联合特征向hij;
38、使用多层感知机mlp处理联合特征向量hij;mlp包含多个隐藏层和非线性激活函数,以增强模型处理非线性数据的能力,最后通过一个输出层进行分类:
39、zij=σ(w2·relu(w1hij+b1)+b2)
40、其中w1,w2和b1,b2是mlp的权重矩阵和偏置向量,σ是输出层的sigmoid激活函数,用于将输出规范化到0和1之间,即输出两个节点属于同一自然人的概率;
41、基于mlp输出的概率值zi本文档来自技高网...
【技术保护点】
1.基于大模型与特征增强的图卷积神经网络实现虚拟身份关联方法,其特征在于,包括下述步骤:
2.根据权利要求1所述基于大模型与特征增强的图卷积神经网络实现虚拟身份关联方法,其特征在于,所述用户名的提取方法如下:
3.根据权利要求1所述基于大模型与特征增强的图卷积神经网络实现虚拟身份关联方法,其特征在于,所述发帖内容的提取方法如下:
4.根据权利要求1所述基于大模型与特征增强的图卷积神经网络实现虚拟身份关联方法,其特征在于,所述签到表示提取具体为:
5.根据权利要求1所述基于大模型与特征增强的图卷积神经网络实现虚拟身份关联方法,其特征在于,所述图像信息提取具体为:
6.根据权利要求1所述基于大模型与特征增强的图卷积神经网络实现虚拟身份关联方法,其特征在于,增强目标节点的特征表示具体为:
7.根据权利要求1所述基于大模型与特征增强的图卷积神经网络实现虚拟身份关联方法,其特征在于,所述将两个平台中不同用户的身份嵌入到MLP分类器中并通过softmax输出,判断两个不同平台的用户是否属于同一用户,具体为:
9.一种电子设备,其特征在于,所述电子设备包括:
10.一种计算机可读存储介质,存储有程序,其特征在于,所述程序被处理器执行时,实现权利要求1-7任一项所述的基于大模型与特征增强的图卷积神经网络实现虚拟身份关联方法。
...【技术特征摘要】
1.基于大模型与特征增强的图卷积神经网络实现虚拟身份关联方法,其特征在于,包括下述步骤:
2.根据权利要求1所述基于大模型与特征增强的图卷积神经网络实现虚拟身份关联方法,其特征在于,所述用户名的提取方法如下:
3.根据权利要求1所述基于大模型与特征增强的图卷积神经网络实现虚拟身份关联方法,其特征在于,所述发帖内容的提取方法如下:
4.根据权利要求1所述基于大模型与特征增强的图卷积神经网络实现虚拟身份关联方法,其特征在于,所述签到表示提取具体为:
5.根据权利要求1所述基于大模型与特征增强的图卷积神经网络实现虚拟身份关联方法,其特征在于,所述图像信息提取具体为:
6.根据权利要求1所述基于大模型与特征增强的图卷积神经网络实现虚拟身份关联方法,其特征在于,增强目标节点的特...
【专利技术属性】
技术研发人员:李树栋,姚明俊,吴晓波,方滨兴,曲春屹,张欣,冯依林,罗文伟,
申请(专利权)人:广州大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。