System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于语义感知进行正样本采样的引文网络分类方法及系统技术方案_技高网

基于语义感知进行正样本采样的引文网络分类方法及系统技术方案

技术编号:43864357 阅读:7 留言:0更新日期:2024-12-31 18:51
本发明专利技术公开了基于语义感知进行正样本采样的引文网络分类方法及系统,该方法首先构建原始引文网络,分别进行两次数据增强,得到两个增强引文网络。其次将两个增强引文网络输入至一个GNN编码器,得到增强引文网络的节点表示矩阵H。然后选择拓扑方面的正样本对和特征方面的正样本对。最后将两方面得到的正样本对取交集得到正对集合,并计算负对集合,利用正负样本对在H中对应的节点表示计算对比损失函数,进行训练优化,将优化后的H输入分类器中,得到引文网络分类结果。本发明专利技术有效改善了图对比学习的整体性能,使得模型在引文网络分类时更加高效、准确。

【技术实现步骤摘要】

本专利技术属于深度学习,具体涉及一种基于语义感知进行正样本采样的引文网络分类方法及系统


技术介绍

1、引文网络是学术文献之间的引用关系构成的图,其中每篇学术论文可以看作一个节点,而引用关系则表示为图中的边。这种网络广泛用于学术研究、文献检索和学术合作等领域。图神经网络(graph neural networks,gnn)在引文网络中的应用非常广泛,因为它们能够处理具有复杂关系的学术文献数据,帮助研究者更好地组织、理解和利用这些数据。通过学习图结构中的节点表示,gnn能够提高文献分类、引文预测、影响力分析和推荐系统的性能,这使得它成为处理引文网络数据的主流框架。gnn可以通过变换和聚合邻居信息来迭代地学习目标维度表示。然而,先前的图表示学习方法严重依赖于大量的标记数据,而标签往往是稀缺且珍贵的。因此,不需要标记数据的预训练gnn的自监督学习方法引起了人们的广泛关注。

2、图对比学习(graph contrastive learning,gcl)作为最具代表性的图自监督学习方法之一,引起了广泛的研究兴趣。它在许多下游任务中取得了良好的性能,例如节点分类、节点聚类和链路预测。gcl旨在学到一个有效的gnn编码器,使得经过编码后相似的节点得到相似的表示,不相似的节点得到差异较大的表示。现有的gcl方法大多采用类似的范式:首先,它们采用各种图增强方法对输入的原始图进行增强,生成两个增强视图;然后,将这些增强视图输入gnn编码器以学习初步的节点嵌入;最后,从两个增强视图中选出正负样本对,通过图对比损失函数优化整个训练过程,使得模型可以捕捉到正对之间的相似性和负对之间的差异性。因此,正负样本对的定义在gcl中起着至关重要的作用。有效的正负样本对选择能够显著影响模型的性能和稳定性,确保模型能够区分相似节点和不相似节点,从而提升整体的图表示质量。

3、目前的gcl方法在定义正负样本对时,通常将两个增强视图中的相同节点的嵌入定义为正对,而所有不同节点的嵌入定义为负对。然而,现有的gcl方法通常采用随机增强方式来生成增强视图。由于节点和边在图中往往具有不同的重要程度,随机删除重要的边或节点可能会严重破坏图的内在属性,导致两个增强视图中的相同节点语义发生漂移。例如,在分子结构中,删除一条边可能会破坏关键的化学键,使两个分子完全不同。此外,相同类别的两个不同节点经过增强其语义可能是相似的,而这些节点对不应被视为负样本。因此,认为先前定义正负对的方法存在瓶颈,因为正负对之间可能存在一些虚假性。

4、为了提高正负样本的质量,有几项工作专注于改进图增强方法,通过减少对图的内在属性的破坏,来降低两个视图中相同节点发生语义漂移的概率。比如,自适应增强的图对比学习(gca)在增强过程中引入了中心性度量,使得重要的边和节点属性被保留了下来。然而,这些方法依赖于精心设计的图数据增强,并没有改变正负样本对的定义方式,未能从根源上解决问题。最近,一些开创性的工作开始提出新的正负样本对的定义方式。基于可学习图增强的邻居对比学习(ncla)提出将每个节点的邻居视为额外的正样本。然而,该方法仅用了网络拓扑结构作为监督信号来定义正负样本,忽略了节点之间特征层面的语义信息,并不能保证正负样本对的质量。


技术实现思路

1、本专利技术的目的是针对现有技术的不足,提供一种基于语义感知进行正样本采样的引文网络分类方法及系统,从拓扑和特征两个方面挖掘图中的潜在语义信息,将真正语义相似的节点对构造为正对。通过提升样本对之间的语义匹配,不仅可以减少错误正对的影响,还可以帮助gnn学到节点间的语义关联。首先,对原始图进行增强,生成两个增强视图;然后,引入基于语义感知的正样本采样方法,从拓扑和特征两个方面改善正负样本对之间的语义匹配;具体来说,在拓扑方面,选择原始图中每个节点的一跳邻居作为额外的正样本;在特征方面,我们提取两个增强视图中每个节点的k跳子图,使用子图级图核融合节点特征和子图结构来表示这些节点,然后计算它们之间的相似度,根据同一节点在不同增强视图之间的相似度,为每个节点设置单独的阈值,相似度大于或等于该阈值的节点对被定义为正对;最后,将两方面得到的正对集合取交集,得到最终的正对集合,而两个视图中剩余的节点对被视为负对,利用这些样本对来计算对比损失,以学得更好的节点表示。通过引入图对比学习方法,显著提高了引文网络学术文献分类的准确率,并使模型更具泛化性和鲁棒性。本专利技术强调了一种基于语义感知的正样本采样方法,有助于改善特征表示、处理噪声标签和更好地理解文献之间的关系,从而提高分类性能。

2、第一方面,本专利技术提供基于语义感知进行正样本采样的引文网络分类方法,采用以下步骤实现:

3、步骤1:基于学术文献数据库,构建原始引文网络。

4、步骤2:对原始引文网络进行分别两次数据增强,得到两个增强引文网络,其中数据增强包括节点特征掩码和边扰动。

5、步骤3:将两个增强引文网络输入至一个gnn编码器,得到增强引文网络的节点表示矩阵h。

6、步骤4:从拓扑方面选择正样本对:根据原始引文网络,选择具有邻居关系的节点对作为正样本对,本专利技术选择原始引文网络上的一跳邻居节点。

7、步骤5:从特征方面选择正样本对:计算两个增强引文网络上节点对之间的语义相似度,选择相似度大于等于设定阈值的节点对作为正样本对。

8、步骤6:将两方面得到的正样本对取交集,得到最终的正对集合,然后计算负对集合,利用这些正负样本对在节点表示矩阵h中对应的节点表示来计算对比损失函数。

9、步骤7:重复步骤2至步骤6,按照对比损失函数进行梯度下降训练,优化节点表示矩阵h,直至完成预定迭代轮数。

10、步骤8:将优化后的节点表示矩阵h输入分类器中,得到引文网络分类结果,并测试分类结果的准确率。

11、第二方面,本专利技术还提供了基于语义感知进行正样本采样的引文网络分类系统,包括数据获取以及处理模块、分类模块:

12、所述数据获取以及处理模块,用于构建原始引文网络,对原始引文网络进行数据增强,得到两个增强引文网络。

13、所述分类模块,包括节点表示矩阵获取单元、正负样本对单元、训练分类单元,用于根据两个增强引文网络,得到引文网络分类结果,进行分类输出。

14、所述节点表示矩阵获取单元,用于将两个增强引文网络输入至一个gnn编码器,得到增强引文网络的节点表示矩阵。

15、所述正负样本对单元,用于分别从拓扑和特征两个方面挖掘图中的潜在语义信息,获取正样本对,构建正对集合,并计算负对集合。

16、所述训练分类单元,利用正负样本对在节点表示矩阵中对应的节点表示计算对比损失函数,进行训练优化,优化后的节点表示矩阵通过分类器输出引文网络分类结果。

17、本专利技术具有的有益效果:

18、本专利技术通过引入语义感知的图对比学习与正样本采样机制,显著改善了图神经网络的表示学习能力。具体来说,本专利技术在图对比学习过程中,通过结合拓扑结本文档来自技高网...

【技术保护点】

1.基于语义感知进行正样本采样的引文网络分类方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于语义感知进行正样本采样的引文网络分类方法,其特征在于,所述构建原始引文网络具体过程如下:

3.根据权利要求2所述的基于语义感知进行正样本采样的引文网络分类方法,其特征在于,所述步骤2中进行两次数据增强,包括节点特征掩码和边扰动,具体实现过程如下:

4.根据权利要求3所述的基于语义感知进行正样本采样的引文网络分类方法,其特征在于,所述步骤3中增强引文网络的节点表示矩阵表示为:为增强引文网络1中节点pi的节点表示,为增强引文网络2中节点qi的节点表示,节点pi和节点qi均对应于原始引文网络中的节点vi。

5.根据权利要求4所述的基于语义感知进行正样本采样的引文网络分类方法,其特征在于,所述步骤4具体实现过程如下:

6.根据权利要求5所述的基于语义感知进行正样本采样的引文网络分类方法,其特征在于,所述步骤5具体实现过程如下:

7.根据权利要求6所述的基于语义感知进行正样本采样的引文网络分类方法,其特征在于,所述步骤6具体实现过程如下:

8.基于语义感知进行正样本采样的引文网络分类系统,用于实现权利要求1至7任一所述的分类引文网络方法,其特征在于,包括数据获取以及处理模块、分类模块:

9.根据权利要求8所述的基于语义感知进行正样本采样的引文网络分类系统,其特征在于,所述节点表示矩阵获取单元,用于将两个增强引文网络输入至一个GNN编码器,得到增强引文网络的节点表示矩阵;

...

【技术特征摘要】

1.基于语义感知进行正样本采样的引文网络分类方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于语义感知进行正样本采样的引文网络分类方法,其特征在于,所述构建原始引文网络具体过程如下:

3.根据权利要求2所述的基于语义感知进行正样本采样的引文网络分类方法,其特征在于,所述步骤2中进行两次数据增强,包括节点特征掩码和边扰动,具体实现过程如下:

4.根据权利要求3所述的基于语义感知进行正样本采样的引文网络分类方法,其特征在于,所述步骤3中增强引文网络的节点表示矩阵表示为:为增强引文网络1中节点pi的节点表示,为增强引文网络2中节点qi的节点表示,节点pi和节点qi均对应于原始引文网络中的节点vi。

5.根据权利要求4所述的基于语...

【专利技术属性】
技术研发人员:焦鹏飞余凯妍鲍青赵治栋
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1