System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于无监督伪负标签策略的学术论文评审人推荐方法技术_技高网

基于无监督伪负标签策略的学术论文评审人推荐方法技术

技术编号:43794244 阅读:2 留言:0更新日期:2024-12-24 16:25
本申请提出了一种基于无监督伪负标签策略的的学术论文评审人推荐方法,包括:获取异构的学术知识图谱并分解,得到表示论文和评审人交互行为的二部图和描述节点信息的知识图谱;使用两阶段编码器分别对二部图和知识图谱进行编码,得到各节点的基本嵌入表示,并通过聚合运算分别将每个节点的基本嵌入表示融合,得到各节点的融合嵌入表示;通过图对比学习对各节点的融合嵌入表示精调,在图对比学习时使用对节点聚类得到的伪标签提取负样本,并进行正样本嵌入表示学习,得到各节点的最终嵌入表示;选定待预测的评审人和论文,通过推荐网络基于对应的节点的最终嵌入表示预测评审发生概率。采用上述方案的本发明专利技术实现了有效且准确的学术评审人的推荐。

【技术实现步骤摘要】

本申请涉及计算机,尤其涉及基于无监督伪负标签策略的的学术论文评审人推荐方法。


技术介绍

1、学术评审人推荐是为各种学术文档材料(如基金申报书、研究论文、技术报告等)提供合适的同行评议评审人的关键过程。已有的评审人推荐研究通常是基于一个主题相似假设,即:评审人更有可能愿意评审与他们的研究兴趣密切相关的论文。然而,由于潜在的评审偏好,这种假设可能并不总是成立。例如,评审人做出评审的决定不仅受到与其专业领域的直接相关性的影响,还受到诸如出版物的声誉、该领域的隐含相关性以及评审人当前工作量等因素的影响。并且,为了确保评审过程的客观性,大多数同行评议记录都是保密的,这一政策使得编辑部和资助机构之间的信息共享几乎不可能实现。所以,现有的图神经网络模型不能直接适应“评审人-论文”固有的图稀疏性,难以直接用于学术评审人推荐。


技术实现思路

1、本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

2、为此,本申请的第一个目的在于提出一种基于无监督伪负标签策略的的学术论文评审人推荐方法,解决了捕获全面的上下文信息需要考虑异构实体之间的复杂关联分析的困难,并整合了论文的密集知识信息和评审人之间有限的稀疏行为标签之间的关联,从而实现了有效且准确的学术评审人的推荐。

3、本申请的第二个目的在于提出一种计算机设备。

4、为达上述目的,本申请第一方面实施例提出了一种基于无监督伪负标签策略的的学术论文评审人推荐方法,包括:获取异构的学术知识图谱,其中,学术图谱中的节点包括评审人节点和论文节点,学术图谱中的关系包括评审关系;将学术知识图谱分解,得到表示论文和评审人交互行为的二部图和描述节点信息的知识图谱;使用两阶段编码器分别对二部图和知识图谱进行编码,得到各节点的第一基本嵌入表示和第二基本嵌入表示,并通过聚合运算分别将每个节点的第一基本嵌入表示和第二基本嵌入表示融合,得到各节点的融合嵌入表示;通过图对比学习对各节点的融合嵌入表示精调,在图对比学习时使用对节点聚类得到的伪标签提取负样本,并进行正样本嵌入表示学习,得到各节点的最终嵌入表示;选定待预测的评审人和论文,通过推荐网络基于对应的节点的最终嵌入表示预测评审发生概率。

5、本申请实施例的基于无监督伪负标签策略的的学术论文评审人推荐方法,采用两阶段编码器结构来学习评审人和论文的全方位嵌入表示。在第一阶段,使用一个解耦的gnn对评审人的行为偏好进行编码,同时使用基于学术语料预训练语言模型捕获论文的先验科学语义知识;在第二阶段,通过引入伪负标签策略来解决“评审人-论文”的二部图的极端稀疏性导致的假阴性问题,以提高图对比学习过程中的负采样性能。本申请实施例利用无监督伪负标签策略来增强图对比学习,更加有效地选取与当前节点语义范围不一致的节点,在用于推荐学术评审人时提供相对性的表示信息支持。

6、可选地,在本申请的一个实施例中,学术知识图谱表示为:

7、g=(n,ε)

8、其中,n为不同类型节点的集合,n={nscholar,nsubmission},nscholar为评审人节点,nsubmission为论文节点,ε={ereview},ereview为评审关系。

9、可选地,在本申请的一个实施例中,两阶段编码器包括行为偏好编码器和知识编码器,行为偏好编码器为解耦的图卷积网络,知识编码器为预训练语言编码模型oag-bert,通过两阶段编码器分别对二部图和知识图谱进行编码,得到各节点的第一基本嵌入表示和第二基本嵌入表示,包括:

10、通过行为偏好编码器对二部图进行编码,得到各节点的第一基本嵌入表示;

11、通过知识编码器对二部图进行编码,得到各节点的第二基本嵌入表示;

12、上述方法还包括:

13、在通过行为偏好编码器、知识编码器进行编码时,通过优化行为偏好编码器的损失函数调整解耦的图卷积网络中的参数。

14、可选地,在本申请的一个实施例中,行为偏好编码器的编码过程表示为:

15、

16、其中,节点u在l层的嵌入表示向量,第l层推导出的节点表示矩阵为

17、d表示嵌入表征的维度,为归一化的邻接矩阵,a为具有自环的邻接矩阵,d是与a对应的对角度矩阵,wb(l)为解耦的图卷积网络中第l层可学习的参数矩阵;

18、行为偏好编码器的损失函数表示为:

19、

20、其中,(u,v)∈εreview表示,yu,v表示在节点u和v之间观察到的边,为待评审论文u到评审人v之间连边的概率,表示,表示,

21、可选地,在本申请的一个实施例中,通过聚合运算分别将每个节点的第一基本嵌入表示和第二基本嵌入表示融合,得到各节点的融合嵌入表示,表示为:

22、

23、其中,为各节点的第一基本嵌入表示,为各节点的第二基本嵌入表示。

24、可选地,在本申请的一个实施例中,通过图对比学习对各节点的融合嵌入表示精调,包括:

25、通过第一协同对比编码器和第二协同对比编码器进行图对比学习,实现对各节点的融合嵌入表示的优化,其中,第一协同对比编码器通过行为偏好编码器和知识编码器分别处理二部图和知识图谱的数据,并将处理得到的嵌入表示融合,得到各节点的基本嵌入表示,第二协同对比编码器利用伪标签提取负样本,第一协同对比编码器和第二协同编码器分别学习正样本和负样本的嵌入表示;

26、上述方法还包括:

27、在通过编码器进行图对比学习时,选择与当前节点伪标签不一致的节点作为负样本,其中,节点的伪标签的生成过程包括:通过聚类层对节点聚类,为每个节点分配标识;

28、上述方法还包括:

29、在通过编码器进行图对比学习时,通过修改每个节点上的特征嵌入表示获取正样本,并通过图卷积层在图上传播嵌入表示信息;

30、通过联合优化第一协同对比编码器和第二协同对比编码器的损失函数调整图卷积层中的参数,并将对比互信息编码进节点的嵌入表示中。

31、可选地,在本申请的一个实施例中,通过聚类层对节点聚类,为每个节点分配标识,包括:

32、设定存在c个聚类,对应的聚类中心在rd空间被随机初始化,通过最小化第一协同对比编码器的损失函数,为每个节点分配聚类id作为伪标签;

33、图卷积层为共享权重的图卷积层,表示为:

34、

35、其中,为归一化的邻接矩阵,a为具有自环的邻接矩阵,d是与a对应的对角度矩阵,wc为图卷积层中的权重矩阵,h1为所有节点的嵌入表示矩阵,

36、第一协同对比编码器的损失函数表示为:

37、

38、其中,nschoiar为评审人节点,nsubmission为论文节点,pu,i为目标分布,qu,i为嵌入表示hu和聚类中心μi之间的相似度,pu,i表示目标分布;

39、第二协同对比编码器的损失函数表示为:...

【技术保护点】

1.一种基于无监督伪负标签策略的的学术论文评审人推荐方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,所述学术知识图谱表示为:

3.如权利要求1所述的方法,其特征在于,所述两阶段编码器包括行为偏好编码器和知识编码器,所述行为偏好编码器为解耦的图卷积网络,所述知识编码器为预训练语言编码模型OAG-BERT,所述通过两阶段编码器分别对所述二部图和所述知识图谱进行编码,得到各节点的第一基本嵌入表示和第二基本嵌入表示,包括:

4.如权利要求3所述的方法,其特征在于,所述行为偏好编码器的编码过程表示为:

5.如权利要求1所述的方法,其特征在于,所述通过聚合运算分别将每个节点的第一基本嵌入表示和第二基本嵌入表示融合,得到各节点的融合嵌入表示,表示为:

6.如权利要求2-5任一所述的方法,其特征在于,通过图对比学习对所述各节点的融合嵌入表示精调,包括:

7.如权利要求6所述的方法,其特征在于,所述通过聚类层对节点聚类,为每个节点分配标识,包括:

8.如权利要求1所述的方法,其特征在于,所述对应的节点的最终嵌入表示包括待预测的评审人节点的最终嵌入表示、待预测的论文节点的最终嵌入表示以及评审人的历史评审论文节点的最终嵌入表示;

9.如权利要求8所述的方法,其特征在于,所述计算待预测的论文节点的最终嵌入表示和历史评审论文节点的最终嵌入表示之间的交互注意力,确定历史评审论文节点的注意力权重,包括:

10.如权利要求2-9任一所述的方法,其特征在于,在所述学术论文评审人推荐方法的训练过程中,采用的损失函数为BCE损失函数,训练对象为论文和评审人之间的连边概率,在训练时将损失梯度反向传播到解耦的图卷积网络中的权重矩阵,在训练时将所有的损失函数乘以将其调整到相同数值水平的系数,得到总损失函数。

...

【技术特征摘要】

1.一种基于无监督伪负标签策略的的学术论文评审人推荐方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,所述学术知识图谱表示为:

3.如权利要求1所述的方法,其特征在于,所述两阶段编码器包括行为偏好编码器和知识编码器,所述行为偏好编码器为解耦的图卷积网络,所述知识编码器为预训练语言编码模型oag-bert,所述通过两阶段编码器分别对所述二部图和所述知识图谱进行编码,得到各节点的第一基本嵌入表示和第二基本嵌入表示,包括:

4.如权利要求3所述的方法,其特征在于,所述行为偏好编码器的编码过程表示为:

5.如权利要求1所述的方法,其特征在于,所述通过聚合运算分别将每个节点的第一基本嵌入表示和第二基本嵌入表示融合,得到各节点的融合嵌入表示,表示为:

6.如权利要求2-5任一所述的方法,其特征在于,通过图对比学习对所述各节点的融合嵌入...

【专利技术属性】
技术研发人员:朱一凡郭爽冯煜宋美娜欧中洪鄂海红
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1