当前位置: 首页 > 专利查询>浙江大学专利>正文

一种面向英文文献中中国作者的姓名消歧方法技术

技术编号:14393090 阅读:53 留言:0更新日期:2017-01-10 21:32
一种面向英文文献中中国作者的姓名消歧方法。主要步骤:(1)从英文文献题录信息中抽取作者个人信息、构建作者之间的合著关系与引用关系等;(2)比对重名作者的邮箱;(3)计算重名作者所属机构与学科的相似度;(4)计算重名作者合著关系的相似度;(5)计算重名作者引用关系的相似度;(6)基于步骤3‑5计算出的三类相似度聚类,即可对姓名消歧。

【技术实现步骤摘要】

本专利技术涉及一种英文文献中的中国作者姓名的消歧方法。技术背景作者重名问题由来已久,一直是信息科学、计算机科学等领域的热门议题。近年来,随着中国发表国际论文的数量大幅攀升,中国作者在国际学术界的受关注程度持续走高。同时,英文学术文献数据库中,中国作者重名问题日益突显。中文姓名转化为拼音(或英文名)之后,丢失了汉字特征,重名几率大幅度提升,这使得英文文献中中国作者重名问题更复杂、更难以解决。作者重名的问题就成了干扰检索精确度的一个重要因素,判断两篇论文的同名作者是否为同一人,往往会耗费大量的时间。
技术实现思路
本专利技术要克服现有技术的上述缺点,提供一种英文文献中的中国作者姓名的消歧方法。一种面向英文文献中中国作者的姓名消歧方法,操作步骤如下:1.预处理数据;从英文文献题录信息中抽取作者个人信息、构建作者之间的合著关系与引用关系等。作者的个人信息包括:姓名、邮箱、所属机构、院/系/所/中心、学科属性等;作者之间的合著关系来源于同一篇论文的作者两两之间的关系;作者之间的引用关系来源于文献与其参考文献之间的引用关系;2.比对重名作者的邮箱;邮箱具有唯一性。因此,使用同一邮箱的作者必然为同一人,但使用不同邮箱的作者并不必然不是同一人;3.计算重名作者所属机构与学科的相似度;作者所属机构与学科的特征信息包括:工作单位、院/系/所/中心系所、所属学科等,每个特征值的表达形式都是字符型;分别提取两位重名作者的特征值,计算特征值的余弦相似度;4.计算重名作者合著关系的相似度;作者的合著关系,是解决作者重名问题的一个重要参考因素;若两位重名作者的合著网络高度相似,那么,这两位作者可能为同一人;5.计算重名作者引用关系的相似度;作者在发表新的论文时,会更倾向于引用自己之前发表的文献(“自引”)。因此,一篇文献的作者与其参考文献的作者中存在重名,那么,这种重名可能为同一人。作者有相对固定的引用偏好(“引用认同”)。因此,两位重名作者的引用偏好相近(计算余弦相似度),那么,两位作者可能为同一人;6.基于三类相似度聚类;当上述三种相似度全部计算完成后,可根据当前的结果进行聚类。具有较高相似度的重名作者可被聚为同一类。层次聚类可以避免相似度判断过程中阈值的主观设定。本专利技术的优点是:本专利技术综合考虑了英文学术文献中作者的邮箱、作者所属的机构、院/系/所/中心、文献所属的学科、作者之间的合著关系、作者之间的引用关系等特征,从多个维度消歧,比单一维度更有效;本专利技术在机构相似度、合著关系相似度、引用关系相似度的基础上,借助层次聚类算法消歧,比设定阈值的方式更客观。附图说明图1是本专利技术的方法流程图。具体实施方式下面参照附图进一步说明本专利技术的技术方案。两篇英文文献中,两位中国作者姓名重名(实际可能并非同一人)主要包括以下几种情况:(1)两位作者全名的拼音拼写方式相同,“LI,JIANG”与“LI,JIANG”;(2)两位作者中,有一位作者的名仅有首字母缩写,例如,“LI,J.”与“LI,JIANG”。(3)两位作者的名均只有首字母缩写,例如,“LI,J.”与“LI,J.”。为了解决“一(拼)音多(汉)字”导致的英文文献中大量中国作者重名的问题,本专利技术提供一种综合考虑作者的机构与学科特征、合著关系、引用关系的相似度的人名消歧算法,该算法的逻辑如下:本专利技术所述的一种面向英文文献中中国作者的姓名消歧方法,操作步骤如下:1.预处理数据;1.1获取数据;WebofScience是最为常用的英文学术文献数据库,其中SCI、SSCI、A&HCI三个子库被称为三大引文索引。从WebofScience数据库中可以获取以下字段,以作为解决人名消歧的辅助信息:(1)作者姓名AF,拼音或英文名写法;(2)工作单位C1,作者同一时间段对应的多个工作单位;(3)院/系/所/中心C2,工作单位里对应的具体工作部门;(4)学科WC,文献类别分类中对应的第一学科;(5)作者邮箱EM;(6)引用关系CR,一篇文献的作者与该文献的参考文献的作者之间存在引用关系;1.2清理数据;1.2.1分割字段;从WebofScience数据库导出的数据中,每篇文献的所有作者合在一起,以“;”分隔,如“yangliu;yangli;yangLUO”。每位作者对应的邮箱等信息也合在一起,以“;”分隔。这种格式无法满足算法批量处理的基本要求,因此,需要将其分割为独立的姓名、邮箱(该步骤可在Excel中用“分列”功能完成)。1.2.2匹配姓名与邮箱;由于数据缺失等原因,每位作者的姓名与邮箱等信息并非一一对应。因此,需要借助程序将作者与邮箱等信息一一匹配。电子邮箱地址的命名规则为:用户名+@+域名。其中用户名是由用户自定义的;域名是电子邮箱服务提供商的识别码,由提供商定义。“用户名”的命名规划大致包含如下几类:①作者姓名字母组合,包括全拼、首字母缩写等写法;②作者姓名字母加其他字符组合,其他字符包括数字或字母等,主要是为了增加作者的辨识度,例如,作者的生日、工作单位等信息;③与作者姓名无关的字符组合,例如,手机号、QQ号、虚拟ID等。“域名”包含以下两类:①工作单位的域名,例如,中国各个高校或研究机构提供的xxx.edu.cn域名;②商业公司提供的域名,例如,gmail.com、163.com等。在匹配姓名与邮箱时,提取用户名部分和域名部分,用户名作为主要的参考因素,域名作为次要的参考因素。作者姓名的一般格式是:姓(全拼)+名(全拼)。少数作者在中间或者结尾增加英文名的信息。将作者的姓名提取出来分为三部分:A(姓全拼)、B(名全拼)、C(其余部分全拼),记A、B、C三部分的首字母分别为A1、B1、C1。生成集合E=(A,A1)×(B,B1)×(C,C1)取元素a∈E,利用KMP算法(一种改进的字符串匹配算法),匹配邮箱中用户名和元素a的相同部分,取匹配的最大值,计算出匹配用户名的匹配率。当匹配率较高时,则匹配作者和该邮箱。若邮箱的域名是工作单位域名,且和作者的工作单位是相同的,则将其作为参考指标。1.2.3构建作者之间的合作关系与引用关系;作者之间的合作关系即一篇论文的N(≥2)个作者中两两之间的关系。在作者姓名字段分割之后,即可构建作者之间的合作关系。作者之间的引用关系有赖于论文之间的引用关系。不同期刊论文的参考文献的著录格式并不统一,但可基于论文的DOI,提出作者姓名、发表年份、发表期刊(若参考文献是期刊论文)等信息。然后,从引用作者群体中提取作者的自引与作者频繁引用的作者信息。1.2.4统一格式;关于数据的格式统一,作者姓名(全拼或简拼)全部处理成姓在前名在后的格式,且所有字母大写,姓与名中间用一个空格字符隔断。例如,姓名为“yangliu”或者“yangliu”或者“YangLiu”的作者,格式统一后均为“LIUYANG”。对于工作单位、院/系/所/中心,预处理时需要将名称统一,字符表现形式以统一后的形式呈现。例如,“ZhejiangUniv”和“ZhejiangUniversity”统一为“ZhejiangUniversity”;“DepartmentofInformationResourceManagement”和“DepartmentofIn本文档来自技高网...
一种面向英文文献中中国作者的姓名消歧方法

【技术保护点】
一种面向英文文献中中国作者的姓名消歧方法,操作步骤如下:1)、预处理数据;1.1抽取作者个人信息;从英文文献数据库中可以获取以下题录字段,以作为解决人名消歧的辅助信息:(a1)作者姓名AF,拼音或英文名写法;(a2)工作单位C1,作者同一时间段对应的多个工作单位;(a3)院/系/所/中心C2,工作单位里对应的具体工作部门;(a4)学科WC,文献类别分类中对应的第一学科;(a5)作者邮箱EM;(a6)引用关系CR,一篇文献的作者与该文献的参考文献的作者之间存在引用关系;1.2构建作者之间的合著关系与引用关系;作者之间的合作关系即一篇论文的N(≥2)个作者中两两之间的关系;在作者姓名字段分割之后,即可构建作者之间的合作关系;作者之间的引用关系有赖于论文之间的引用关系;不同期刊论文的参考文献的著录格式并不统一,但可基于论文的DOI,提出作者姓名、发表年份、发表期刊的信息;然后,从引用作者群体中提取作者的自引与作者频繁引用的作者信息;2)、比对重名作者的邮箱;对于两位重名的作者,在邮箱信息无缺失的情况下,比对邮箱的结果为0或1,0表示不相同,1表示相同;邮箱地址具有唯一性,若结果为1,则可断定两位重名的作者为同一人;若结果为0,则待定;3)、计算重名作者所属机构与学科的相似度;作者所属机构与学科的特征信息包括:工作单位、院/系/所/中心系所、所属学科等,每个特征值的表达形式都是字符型;分别提取两位重名作者的特征值,计算特征值的余弦相似度;余弦相似度计算方法:(b1)列出两个待计算特征值的所有词,计算词频;(b2)计算余弦相似度,计算公式:cosθ=a·b||a||·||b||=Σi=1n(Ai*Bi)Σi=1n(Ai)2*Σi=1n(Bi)2---(1)]]>计算出cosθ的值,这个值即为两个特征值的相似度;4)、计算重名作者合著关系的相似度;作者的合著关系,是解决作者重名问题的一个重要参考因素;若两位重名作者的合著网络高度相似,那么,这两位作者可视为同一人;假设ci和cj是两位重名的作者,他们各自的合著者集合分别为N1和N2,那么,这两位重名作者的合著关系的相似度算法如下:实质上,该相似度算法是一个均值型算法,其中,η是合著者集合中两两匹配相似度时匹配上的作者的总数量;合著者集合中作者两两匹配的相似度算法如下:其中,α、β和γ分别是三种不同匹配类型的权重,这三种匹配类型分别是:e(全名匹配),b(简写匹配)和q(首字母缩写匹配),中国作者的合著者集合中可能存在外国作者姓名,因此,这三种匹配方式也适用于外国作者姓名;与h分别指匹配两个人名时相同字符与不同字符的数量;h*100的目的是为了让姓名中有不同字符的两个作者的相似度趋近于0。5)、计算重名作者引用关系的相似度;计算重名作者引用关系的相似度的步骤如下:(c1)列出两个作者发表的文献和这些文献的参考文献;(c2)提取参考文献中的作者姓名,计算作者的自引比例;(c3)计算两位重名作者的施引作者集合中各作者的被引频次,生成两个频次向量,再利用作者集合相似度算法(如式2所示),计算两位作者的施引相似度;(c4)综合自引比例与施引作者集合相似度,加权平均,得出两位作者引用关系的相似度;6)、基于三类相似度聚类;当三种相似度全部计算完成后,可根据当前的结果进行聚类;凝聚型层次聚类算法的基本思路是:将每个对象作为一个聚类簇,计算两两簇之间的相似度,若相似度达到一定数值,则合并两个簇为一个簇,直到簇群无法合并为止;在算法中维护一个相似度排序表,该表是当前所有簇两两根据三种相似度计算出的相似度,降序排列后,得出的表,即将最相近的簇依次排列出来,表首是所有簇中最接近的两个簇,接下来是所有簇中第二接近的两个簇;维护这个表可有效地降低算法的时间复杂度,当计算到某个位置时发现它们的相似度达不到标准,不用再计算后续的簇群;算法的基本步骤如下:(e1)从相似度排序表中提出表首的两个簇;进入步骤(e2);(e2)判断这两个簇的相似度是否达到聚类标准,即可以判定这两个同名的作者是同一个人;若达到则进入步骤(e3);若否,根据新的簇群重新计算三种相似度,回到步骤(e1);如果表首的两个簇无法合并,则退出算法;(e3)将两个簇群合并在一起,更新相关数据集合;返回步骤(e1)。...

【技术特征摘要】
1.一种面向英文文献中中国作者的姓名消歧方法,操作步骤如下:1)、预处理数据;1.1抽取作者个人信息;从英文文献数据库中可以获取以下题录字段,以作为解决人名消歧的辅助信息:(a1)作者姓名AF,拼音或英文名写法;(a2)工作单位C1,作者同一时间段对应的多个工作单位;(a3)院/系/所/中心C2,工作单位里对应的具体工作部门;(a4)学科WC,文献类别分类中对应的第一学科;(a5)作者邮箱EM;(a6)引用关系CR,一篇文献的作者与该文献的参考文献的作者之间存在引用关系;1.2构建作者之间的合著关系与引用关系;作者之间的合作关系即一篇论文的N(≥2)个作者中两两之间的关系;在作者姓名字段分割之后,即可构建作者之间的合作关系;作者之间的引用关系有赖于论文之间的引用关系;不同期刊论文的参考文献的著录格式并不统一,但可基于论文的DOI,提出作者姓名、发表年份、发表期刊的信息;然后,从引用作者群体中提取作者的自引与作者频繁引用的作者信息;2)、比对重名作者的邮箱;对于两位重名的作者,在邮箱信息无缺失的情况下,比对邮箱的结果为0或1,0表示不相同,1表示相同;邮箱地址具有唯一性,若结果为1,则可断定两位重名的作者为同一人;若结果为0,则待定;3)、计算重名作者所属机构与学科的相似度;作者所属机构与学科的特征信息包括:工作单位、院/系/所/中心系所、所属学科等,每个特征值的表达形式都是字符型;分别提取两位重名作者的特征值,计算特征值的余弦相似度;余弦相似度计算方法:(b1)列出两个待计算特征值的所有词,计算词频;(b2)计算余弦相似度,计算公式:cosθ=a·b||a||·||b||=Σi=1n(Ai*Bi)Σi=1n(Ai)2*Σi=1n(Bi)2---(1)]]>计算出cosθ的值,这个值即为两个特征值的相似度;4)、计算重名作者合著关系的相似度;作者的合著关系,是解决作者重名问题的一个重要参考因素;若两位重名作者的合著网络高度相似,那么,这两位作者可视为同一人;假设ci和cj是两位重名的作者,他们各自的...

【专利技术属性】
技术研发人员:李江杨斯杰
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1