System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及学术网络数据处理,特别是涉及一种基于图对比学习的学术网络论文分类方法。
技术介绍
1、学术网络中不仅涵盖了丰富的论文、会议和学者等信息,同时还记录了学术论文间的引用关系和学者撰写论文的关系。研究学术网络中的论文分类,有助于将海量的学术论文按照主题和领域进行组织,使得研究者可以更有效地检索到特定主题或领域的论文,提高研究效率。
2、目前,针对多节点类型和多关系类型的学术网络,大部分论文分类的方法根据设定的元路径对学术网络进行建模,但这类方法忽略了元路径中间节点信息,例如作者和会议节点的信息,这在一定程度上会造成论文节点表示信息的损失。基于图对比学习的论文分类方法不依赖于论文的标签信息,是一种可行的方式,许多相关研究取得了较好的效果。然而,现有大多数研究都忽略了学术网络中论文之间的交互数据存在长尾分布问题,如少数论文的引用量很高,大部分论文引用量都比较低。这种论文交互数据的长尾分布问题会导致论文节点在模型中学习到的信息不平衡,从而导致论文分类结果不准确。
技术实现思路
1、为此,本专利技术的目的在于提供一种基于图对比学习的学术网络论文分类方法,以提高论文分类结果的准确性。
2、一种基于图对比学习的学术网络论文分类方法,包括:
3、步骤s1,在学术资源平台获取待分类论文构成的学术网络数据集,构建节点的初始特征向量,所述初始特征向量包括:通过统计论文的关键字构建的论文节点的初始特征向量,以及通过随机初始化得到的作者和会议节点的初始特征向量;
4、步骤s2,依据元路径构建学术网络中不同语义的论文子图;
5、步骤s3,依据所述论文子图和所述初始特征向量构建元路径视图,学习论文节点在元路径视图中的嵌入向量,将不同语义下的元路径视图嵌入向量进行融合,并通过多层感知机进行投影得到元路径视图下的最终嵌入向量;
6、步骤s4,依据所述论文子图和所述初始特征向量构建增强视图,学习论文节点在增强视图中的嵌入向量,将不同语义下的增强视图嵌入向量进行融合,并通过多层感知机进行投影得到增强视图下的最终嵌入向量;
7、步骤s5,分别构建元路径视图的损失函数和增强视图的损失函数,并将元路径视图的损失函数和增强视图的损失函数进行加权融合得到总对比损失函数,通过总对比损失函数优化元路径视图下的最终嵌入向量和增强视图下的最终嵌入向量,得到优化后的元路径视图下的最终嵌入向量和优化后的增强视图下的最终嵌入向量;
8、步骤s6,拼接优化后的元路径视图下的最终嵌入向量和优化后的增强视图下的最终嵌入向量,得到拼接后的嵌入表示,将拼接后的嵌入表示输入到论文分类模型中得到分类结果。
9、本专利技术的有益效果:
10、该方法利用元路径将学术网络建模为不同语义的论文子图,同时综合考虑元路径中不同类型节点信息,对论文节点特征进行重构从而构建论文子图的元路径视图,能够学习到更全面的论文节点特征,提高分类的准确率,分别对大度论文节点和小度论文节点设置不同的数据增强策略以消除论文交互数据的长尾分布问题,从而构建增强视图,使其适用于各种长尾分布的场景,利用图对比学习方法对元路径视图和增强视图的嵌入向量进行对比学习,得到了更全面、更有效的论文嵌入向量,通过多层感知机对论文节点进行分类,最终提高了学术网络论文分类的准确性。
本文档来自技高网...【技术保护点】
1.一种基于图对比学习的学术网络论文分类方法,其特征在于,包括:
2.根据权利要求1所述的基于图对比学习的学术网络论文分类方法,其特征在于,步骤S3具体包括:
3.根据权利要求2所述的基于图对比学习的学术网络论文分类方法,其特征在于,步骤S4具体包括:
4.根据权利要求3所述的基于图对比学习的学术网络论文分类方法,其特征在于,步骤S1中,定义学术网络数据集HG为HG=(V, E, T, R),其中,V为节点集合,E为关系集合,T为节点类型集合,R为关系类型集合,且满足,即节点类型数与关系类型数的总和超过2种,统计学术网络中论文节点的度,按照从大到小的顺序排序,将度排名在前10%的划分为大度论文节点,度排名在后40%的划分为小度论文节点,小度论文节点定义为{node1,…,nodes},其中node1为第1个小度论文节点,nodes为第s个小度论文节点,大度论文节点定义为{Node1,…,Nodem},其中Node1为第1个大度论文节点,Nodem为第m个大度论文节点。
5.根据权利要求4所述的基于图对比学习的学术网络论文分类方法,其
6.根据权利要求5所述的基于图对比学习的学术网络论文分类方法,其特征在于,步骤S31中,对于第k条元路径,将元路径中间节点作为虚拟节点加入第k个论文子图Gk中,并且根据元路径的连接方式,与对应的论文节点产生连边得到第k个重构子图,利用图卷积编码器学习论文节点在中的特征向量,得到的重构特征向量作为元路径视图的特征向量;
7.根据权利要求6所述的基于图对比学习的学术网络论文分类方法,其特征在于,步骤S41具体包括:
8.根据权利要求7所述的基于图对比学习的学术网络论文分类方法,其特征在于,步骤S5具体包括:
9.根据权利要求8所述的基于图对比学习的学术网络论文分类方法,其特征在于,步骤S6中,论文分类模型为多层感知机,将拼接后的嵌入表示输入到多层感知机中计算分类结果,为一个概率分布矩阵,每一行对应一个样本,每一列对应一个类别的概率,选择概率最高的类别作为样本预测结果,计算过程为:
...【技术特征摘要】
1.一种基于图对比学习的学术网络论文分类方法,其特征在于,包括:
2.根据权利要求1所述的基于图对比学习的学术网络论文分类方法,其特征在于,步骤s3具体包括:
3.根据权利要求2所述的基于图对比学习的学术网络论文分类方法,其特征在于,步骤s4具体包括:
4.根据权利要求3所述的基于图对比学习的学术网络论文分类方法,其特征在于,步骤s1中,定义学术网络数据集hg为hg=(v, e, t, r),其中,v为节点集合,e为关系集合,t为节点类型集合,r为关系类型集合,且满足,即节点类型数与关系类型数的总和超过2种,统计学术网络中论文节点的度,按照从大到小的顺序排序,将度排名在前10%的划分为大度论文节点,度排名在后40%的划分为小度论文节点,小度论文节点定义为{node1,…,nodes},其中node1为第1个小度论文节点,nodes为第s个小度论文节点,大度论文节点定义为{node1,…,nodem},其中node1为第1个大度论文节点,nodem为第m个大度论文节点。
5.根据权利要求4所述的基于图对比学习的学术网络论文分类方法,其特征在于,步骤s2中:确定待分类的论文节点类型...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。