文献作者信息消歧方法、装置及电子设备制造方法及图纸

技术编号：34725988 阅读：9 留言：0更新日期：2022-08-31 18:13

本公开提出一种文献作者信息消歧方法、装置及电子设备，涉及计算机技术领域，方法包括：获取多篇待消歧的目标文献，并采用预设算法，计算多篇待消歧的目标文献在多种特征信息下的多个相似度矩阵，并根据预设的权重参数对多个相似度矩阵进行融合，得到融合矩阵，以及基于融合矩阵进行聚类得到多个聚类簇，并根据多个聚类簇对应的作者信息确定每篇目标文献对应的作者信息，能够深入提取目标文献的多种特征，并综合多种特性的相似度进行聚类分析，因此可以提高作者信息的准确性，从而提升文献作者信息消歧效果。者信息消歧效果。者信息消歧效果。

全部详细技术资料下载

【技术实现步骤摘要】
文献作者信息消歧方法、装置及电子设备

[0001]本公开涉及计算机
，尤其涉及一种文献作者信息消歧方法、装置及电子设备。

技术介绍

[0002]随着信息技术和社会的发展，全网各类文献的数据量级呈指数级上升。目前，数字图书馆中已经存放了海量文献，比如论文、专利、基金项目、软件著作权、专著等，与此同时，作者同名歧义的问题也愈发严重。例如，论文(paper)同名歧义问题发源于多个论文库甚至单个论文库内的论文下的作者存在同名情况，随后暴露于多个源库聚合操作之后。论文作者同名消歧问题旨在将记载同名专家的多个文档进行区分,将拥有相同姓名的文档映射到现实世界中的专家实体,用以消除相同姓名造成的歧义。相关技术中，通常采用聚类的方式进行文献作者信息的消歧处理，但是其只使用了某些单一强特征进行聚类，对数据的特征提取较为低效和低质，因此影响消歧结果的准确性。

技术实现思路

[0003]本公开提出了一种文献作者信息消歧方法、装置及电子设备，旨在至少在一定程度上解决相关技术中的技术问题之一。
[0004]本公开第一方面实施例提出了一种文献作者信息消歧方法，包括：获取多篇待消歧的目标文献，并采用预设算法，计算多篇待消歧的目标文献在多种特征信息下的多个相似度矩阵，并根据预设的权重参数对多个相似度矩阵进行融合，得到融合矩阵，以及基于融合矩阵进行聚类得到多个聚类簇，并根据多个聚类簇对应的作者信息确定每篇目标文献对应的作者信息。
[0005]本公开第二方面实施例提出了一种文献作者信息消歧装置，包括：获取模块，用于获...

【技术保护点】

【技术特征摘要】
1.一种文献作者信息消歧方法，其特征在于，包括：获取多篇待消歧的目标文献；采用预设算法，计算所述多篇待消歧的目标文献在多种特征信息下的多个相似度矩阵；根据预设的权重参数对所述多个相似度矩阵进行融合，得到融合矩阵；以及基于所述融合矩阵进行聚类得到多个聚类簇，并根据所述多个聚类簇对应的作者信息确定每篇所述目标文献对应的作者信息。2.如权利要求1所述的方法，其特征在于，所述计算所述多篇待消歧的目标文献在多种特征信息下的多个相似度矩阵，包括：计算所述多篇待消歧的目标文献在浅层语义信息下的相似度矩阵；和/或计算所述多篇待消歧的目标文献在中层语义信息下的相似度矩阵；和/或计算所述多篇待消歧的目标文献在深层语义信息下的相似度矩阵；和/或计算所述多篇待消歧的目标文献在文献作者、文献组织、文献标题结构关系信息下的相似度矩阵；和/或计算所述多篇待消歧的目标文献在多种文献标签信息下的相似度矩阵。3.如权利要求1所述的方法，其特征在于，所述获取多篇待消歧的目标文献，包括：获取多篇待消歧的第一候选文献；将每篇第一候选文献的作者唯一标识信息与预先构建的文献作者库中作者信息进行匹配；以及确定匹配成功的第一候选文献的作者信息和未匹配成功的多篇第二候选文献，并从所述多篇第二候选文献中获取所述目标文献。4.如权利要求3所述的方法，其特征在于，所述从所述多篇第二候选文献中获取所述目标文献，包括：计算每篇第二候选文献与对应的目标文献库中多篇备选文献的多个相似度分值；以及确定相似度分值满足设定规则的第二候选文献的作者信息，并将相似度分值不满足设定规则的第二候选文献作为所述目标文献。5.如权利要求4所述的方法，其特征在于，所述计算每篇第二候选文献与对应的目标文献库中多篇备选文献的多个相似度分...

【专利技术属性】
技术研发人员：张瀚允，李学文，房小涵，魏玉聪，李欣谚，宋健，
申请(专利权)人：北京智谱华章科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人