文献作者信息消歧方法、装置及电子设备制造方法及图纸

技术编号:34725988 阅读:9 留言:0更新日期:2022-08-31 18:13
本公开提出一种文献作者信息消歧方法、装置及电子设备,涉及计算机技术领域,方法包括:获取多篇待消歧的目标文献,并采用预设算法,计算多篇待消歧的目标文献在多种特征信息下的多个相似度矩阵,并根据预设的权重参数对多个相似度矩阵进行融合,得到融合矩阵,以及基于融合矩阵进行聚类得到多个聚类簇,并根据多个聚类簇对应的作者信息确定每篇目标文献对应的作者信息,能够深入提取目标文献的多种特征,并综合多种特性的相似度进行聚类分析,因此可以提高作者信息的准确性,从而提升文献作者信息消歧效果。者信息消歧效果。者信息消歧效果。

【技术实现步骤摘要】
文献作者信息消歧方法、装置及电子设备


[0001]本公开涉及计算机
,尤其涉及一种文献作者信息消歧方法、装置及电子设备。

技术介绍

[0002]随着信息技术和社会的发展,全网各类文献的数据量级呈指数级上升。目前,数字图书馆中已经存放了海量文献,比如论文、专利、基金项目、软件著作权、专著等,与此同时,作者同名歧义的问题也愈发严重。例如,论文(paper)同名歧义问题发源于多个论文库甚至单个论文库内的论文下的作者存在同名情况,随后暴露于多个源库聚合操作之后。论文作者同名消歧问题旨在将记载同名专家的多个文档进行区分,将拥有相同姓名的文档映射到现实世界中的专家实体,用以消除相同姓名造成的歧义。相关技术中,通常采用聚类的方式进行文献作者信息的消歧处理,但是其只使用了某些单一强特征进行聚类,对数据的特征提取较为低效和低质,因此影响消歧结果的准确性。

技术实现思路

[0003]本公开提出了一种文献作者信息消歧方法、装置及电子设备,旨在至少在一定程度上解决相关技术中的技术问题之一。
[0004]本公开第一方面实施例提出了一种文献作者信息消歧方法,包括:获取多篇待消歧的目标文献,并采用预设算法,计算多篇待消歧的目标文献在多种特征信息下的多个相似度矩阵,并根据预设的权重参数对多个相似度矩阵进行融合,得到融合矩阵,以及基于融合矩阵进行聚类得到多个聚类簇,并根据多个聚类簇对应的作者信息确定每篇目标文献对应的作者信息。
[0005]本公开第二方面实施例提出了一种文献作者信息消歧装置,包括:获取模块,用于获取多篇待消歧的目标文献;计算模块,用于采用预设算法,计算多篇待消歧的目标文献在多种特征信息下的多个相似度矩阵;融合模块,用于根据预设的权重参数对多个相似度矩阵进行融合,得到融合矩阵;以及聚类模块,用于基于融合矩阵进行聚类得到多个聚类簇,并根据多个聚类簇对应的作者信息确定每篇目标文献对应的作者信息。
[0006]本公开第三方面实施例提出了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开实施例的文献作者信息消歧方法。
[0007]本公开第四方面实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本公开实施例公开的文献作者信息消歧方法。
[0008]本实施例中,通过获取多篇待消歧的目标文献,并采用预设算法,计算多篇待消歧的目标文献在多种特征信息下的多个相似度矩阵,并根据预设的权重参数对多个相似度矩
阵进行融合,得到融合矩阵,以及基于融合矩阵进行聚类得到多个聚类簇,并根据多个聚类簇对应的作者信息确定每篇目标文献对应的作者信息,能够深入提取目标文献的多种特征,并综合多种特性的相似度进行聚类分析,因此可以提高作者信息的准确性,从而提升文献作者信息消歧效果。
[0009]本公开附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本公开的实践了解到。
附图说明
[0010]本公开上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
[0011]图1是根据本公开一实施例提供的文献作者信息消歧方法的流程示意图;
[0012]图2是根据本公开实施例提供的文献特征处理过程示意图;
[0013]图3是根据本公开实施例提供的元路径随机游走示意图;
[0014]图4是根据本公开一实施例提供的文献作者信息消歧方法的流程示意图;
[0015]图5是根据本公开实施例提供的文献作者信息消歧系统的架构示意图;
[0016]图6是根据本公开实施例提供的文献作者信息消歧过程示意图;
[0017]图7是根据本公开另一实施例提供的文献作者信息消歧装置的示意图;
[0018]图8示出了适于用来实现本公开实施方式的示例性电子设备的框图。
具体实施方式
[0019]下面详细描述本公开的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本公开,而不能理解为对本公开的限制。相反,本公开的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
[0020]需要说明的是,本实施例的文献作者信息消歧方法的执行主体可以为文献作者信息消歧装置,该装置可以由软件和/或硬件的方式实现,该装置可以配置在电子设备中,电子设备可以包括但不限于终端、服务器端等。
[0021]图1是根据本公开一实施例提供的文献作者信息消歧方法的流程示意图,如图1所示,该方法包括:
[0022]S101:获取多篇待消歧的目标文献。
[0023]其中,需要进行作者信息(姓名)消歧处理的文献可以被称为目标文献,目标文献例如论文、专利、基金项目、软件著作权、专著以及其它任意可能类型的文献,对此不作限制。一些实施例中,多篇待消歧的目标文献例如可以是作者姓名相同的文献。
[0024]S102:采用预设算法,计算多篇待消歧的目标文献在多种特征信息下的多个相似度矩阵。
[0025]上述获取多篇目标文献后,进一步地,本实施例可以采用预设算法,计算多篇待消歧的目标文献在多种特征信息下的多个相似度矩阵,也即是说,可以对目标文献进行不同层级的特征抽取,计算在不同层级特征下的相似度矩阵。
[0026]在一个具体实例中,图2是根据本公开实施例提供的文献特征处理过程示意图,如图2所示,多篇目标文献例如可以是多篇论文(论文数据),而本实施例的多种特征信息例如包括浅层语义信息、中层语义信息、深层语义信息、结构关系信息(例如文献作者CoAuthor,文献组织CoOrg,文献标题CoTitle结构关系)、多种文献标签信息(也可以称为综合信息)中的一种或者多种信息,对此不作限制。也即是说,本实施例可以分别计算多篇论文在浅层语义信息、中层语义信息、深层语义信息、结构关系信息、综合信息下的相似度矩阵,每个相似度矩阵可以表征多篇论文在该特征下的相似性。
[0027]具体地,本实施例首先可以采用word2vec、doc2vec模型(其中一种预设算法)计算出多篇论文浅层语义信息的embedding向量,其可以分别用E1、E2表示,计算公式如下:
[0028]E1=Word2Vec(Text)
[0029]E2=Doc2Vec(Text)
[0030]对于中层语义信息,本实施例可以采用sentence_transformer、OAG

BERT模型(其中一种预设算法)计算出多篇论文中层语义信息的embedding向量,其可以分别用E3、E4表示,计算公式如下:
[0031]E3=Sentence_Transformer(Text)
[0032]E本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文献作者信息消歧方法,其特征在于,包括:获取多篇待消歧的目标文献;采用预设算法,计算所述多篇待消歧的目标文献在多种特征信息下的多个相似度矩阵;根据预设的权重参数对所述多个相似度矩阵进行融合,得到融合矩阵;以及基于所述融合矩阵进行聚类得到多个聚类簇,并根据所述多个聚类簇对应的作者信息确定每篇所述目标文献对应的作者信息。2.如权利要求1所述的方法,其特征在于,所述计算所述多篇待消歧的目标文献在多种特征信息下的多个相似度矩阵,包括:计算所述多篇待消歧的目标文献在浅层语义信息下的相似度矩阵;和/或计算所述多篇待消歧的目标文献在中层语义信息下的相似度矩阵;和/或计算所述多篇待消歧的目标文献在深层语义信息下的相似度矩阵;和/或计算所述多篇待消歧的目标文献在文献作者、文献组织、文献标题结构关系信息下的相似度矩阵;和/或计算所述多篇待消歧的目标文献在多种文献标签信息下的相似度矩阵。3.如权利要求1所述的方法,其特征在于,所述获取多篇待消歧的目标文献,包括:获取多篇待消歧的第一候选文献;将每篇第一候选文献的作者唯一标识信息与预先构建的文献作者库中作者信息进行匹配;以及确定匹配成功的第一候选文献的作者信息和未匹配成功的多篇第二候选文献,并从所述多篇第二候选文献中获取所述目标文献。4.如权利要求3所述的方法,其特征在于,所述从所述多篇第二候选文献中获取所述目标文献,包括:计算每篇第二候选文献与对应的目标文献库中多篇备选文献的多个相似度分值;以及确定相似度分值满足设定规则的第二候选文献的作者信息,并将相似度分值不满足设定规则的第二候选文献作为所述目标文献。5.如权利要求4所述的方法,其特征在于,所述计算每篇第二候选文献与对应的目标文献库中多篇备选文献的多个相似度分...

【专利技术属性】
技术研发人员:张瀚允李学文房小涵魏玉聪李欣谚宋健
申请(专利权)人:北京智谱华章科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1