一种面向英文文献中中国作者的姓名消歧方法技术

技术编号：14393090 阅读：62 留言：0更新日期：2017-01-10 21:32

一种面向英文文献中中国作者的姓名消歧方法。主要步骤：(1)从英文文献题录信息中抽取作者个人信息、构建作者之间的合著关系与引用关系等；(2)比对重名作者的邮箱；(3)计算重名作者所属机构与学科的相似度；(4)计算重名作者合著关系的相似度；(5)计算重名作者引用关系的相似度；(6)基于步骤3‑5计算出的三类相似度聚类，即可对姓名消歧。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种英文文献中的中国作者姓名的消歧方法。技术背景作者重名问题由来已久，一直是信息科学、计算机科学等领域的热门议题。近年来，随着中国发表国际论文的数量大幅攀升，中国作者在国际学术界的受关注程度持续走高。同时，英文学术文献数据库中，中国作者重名问题日益突显。中文姓名转化为拼音(或英文名)之后，丢失了汉字特征，重名几率大幅度提升，这使得英文文献中中国作者重名问题更复杂、更难以解决。作者重名的问题就成了干扰检索精确度的一个重要因素，判断两篇论文的同名作者是否为同一人，往往会耗费大量的时间。
技术实现思路
本专利技术要克服现有技术的上述缺点，提供一种英文文献中的中国作者姓名的消歧方法。一种面向英文文献中中国作者的姓名消歧方法，操作步骤如下：1.预处理数据；从英文文献题录信息中抽取作者个人信息、构建作者之间的合著关系与引用关系等。作者的个人信息包括：姓名、邮箱、所属机构、院/系/所/中心、学科属性等；作者之间的合著关系来源于同一篇论文的作者两两之间的关系；作者之间的引用关系来源于文献与其参考文献之间的引用关系；2.比对重名作者的邮箱；邮箱具有唯一性。因此，使用同一邮箱的作者必然为同一人，但使用不同邮箱的作者并不必然不是同一人；3.计算重名作者所属机构与学科的相似度；作者所属机构与学科的特征信息包括：工作单位、院/系/所/中心系所、所属学科等，每个特征值的表达形式都是字符型；分别提取两位重名作者的特征值，计算特征值的余弦相似度；4.计算重名作者合著关系的相似度；作者的合著关系，是解决作者重名问题的一个重要参考因素；若两位重名作者的合著网络高度相似，那么，...
一种面向英文文献中中国作者的姓名消歧方法

【技术保护点】
一种面向英文文献中中国作者的姓名消歧方法，操作步骤如下：1)、预处理数据；1.1抽取作者个人信息；从英文文献数据库中可以获取以下题录字段，以作为解决人名消歧的辅助信息：(a1)作者姓名AF，拼音或英文名写法；(a2)工作单位C1，作者同一时间段对应的多个工作单位；(a3)院/系/所/中心C2，工作单位里对应的具体工作部门；(a4)学科WC，文献类别分类中对应的第一学科；(a5)作者邮箱EM；(a6)引用关系CR，一篇文献的作者与该文献的参考文献的作者之间存在引用关系；1.2构建作者之间的合著关系与引用关系；作者之间的合作关系即一篇论文的N(≥2)个作者中两两之间的关系；在作者姓名字段分割之后，即可构建作者之间的合作关系；作者之间的引用关系有赖于论文之间的引用关系；不同期刊论文的参考文献的著录格式并不统一，但可基于论文的DOI，提出作者姓名、发表年份、发表期刊的信息；然后，从引用作者群体中提取作者的自引与作者频繁引用的作者信息；2)、比对重名作者的邮箱；对于两位重名的作者，在邮箱信息无缺失的情况下，比对邮箱的结果为0或1，0表示不相同，1表示相同；邮箱地址具有唯一性，若结果为1，则可断定...

【技术特征摘要】
1.一种面向英文文献中中国作者的姓名消歧方法，操作步骤如下：1)、预处理数据；1.1抽取作者个人信息；从英文文献数据库中可以获取以下题录字段，以作为解决人名消歧的辅助信息：(a1)作者姓名AF，拼音或英文名写法；(a2)工作单位C1，作者同一时间段对应的多个工作单位；(a3)院/系/所/中心C2，工作单位里对应的具体工作部门；(a4)学科WC，文献类别分类中对应的第一学科；(a5)作者邮箱EM；(a6)引用关系CR，一篇文献的作者与该文献的参考文献的作者之间存在引用关系；1.2构建作者之间的合著关系与引用关系；作者之间的合作关系即一篇论文的N(≥2)个作者中两两之间的关系；在作者姓名字段分割之后，即可构建作者之间的合作关系；作者之间的引用关系有赖于论文之间的引用关系；不同期刊论文的参考文献的著录格式并不统一，但可基于论文的DOI，提出作者姓名、发表年份、发表期刊的信息；然后，从引用作者群体中提取作者的自引与作者频繁引用的作者信息；2)、比对重名作者的邮箱；对于两位重名的作者，在邮箱信息无缺失的情况下，比对邮箱的结果为0或1，0表示不相同，1表示相同；邮箱地址具有唯一性，若结果为1，则可断定两位重名的作者为同一人；若结果为0，则待定；3)、计算重名作者所属机构与学科的相似度；作者所属机构与学科的特征信息包括：工作单位、院/系/所/中心系所、所属学科等，每个特征值的表达形式都是字符型；分别提取两位重名作者的特征值，计算特征值的余弦相似度；余弦相似度计算方法：(b1)列出两个待计算特征值的所有词，计算词频；(b2)计算余弦相似度，计算公式：cosθ=a·b||a||·||b||=Σi=1n(Ai*Bi)Σi=1n(Ai)2*Σi=1n(Bi)2---(1)]]>计算出cosθ的值，这个值即为两个特征值的相似度；4)、计算重名作者合著关系的相似度；作者的合著关系，是解决作者重名问题的一个重要参考因素；若两位重名作者的合著网络高度相似，那么，这两位作者可视为同一人；假设ci和cj是两位重名的作者，他们各自的...

【专利技术属性】
技术研发人员：李江，杨斯杰，
申请(专利权)人：浙江大学，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人