本发明专利技术提供一种应用于文献共享平台中的文献质量评估算法,该算法包括以下步骤:利用文献-文献,文献-期刊会议和作者的关系构建学术网络图;将这些关系定量成图上顶点之间的转移关系,建模得到转移概率矩阵;利用用户对文献的收藏行为建立模型,计算得到基于用户分析的文献质量值;对该图进行带重启动的随机游走迭代算法,得到文献质量、期刊会议质量和作者学术声望的信息。本发明专利技术第一次将用户行为信息与文献质量评价结合起来,能够在给出文献质量分析结果时还能够给出作者学术声望和期刊会议学术质量的分析结果,本方法的排序效果相比其他方法有明显提高。
【技术实现步骤摘要】
本专利技术涉及一种文献的质量评估方法,具体涉及一种在文献共享平台上的文献质 量评估方法,属于知识挖掘
技术介绍
近年以来,随着科学研究的飞速发展,科技文献的出版速度逐年增加,其数量已经 非常庞大,例如仅针对计算机和信息科学领域的数字图书馆CiteSeerX上就存有150多万 篇科技文献。科研人员在进行研究工作的过程中需要阅读和参考大量的科技文献资料,高 质量的文献和低质量的文献对于科研工作者的价值是迥然不同的,从这些良莠不齐而数量 十分庞大的文献资料中获取具有较高价值的科技文献成为了一项非常困难的工作。因此, 如何对科技文献的质量进行有效的自动评估这一研究课题也吸引了越来越多的研究人员。在学术研究领域的社会化文献共享交流网站上,用户可以收藏自己认为比较有价 值的科技文献,标注标签,进行评论,并将这些文献分享给其他的用户。用户的收藏行为应 当在对科技文献的质量进行分析的时候成为一个重要的参考,而目前利用了用户的行为来 对科技文献质量进行分析的研究还非常少。因此,在Web 2.0环境下,如何将用户行为有效 应用到科技文献质量评价系统中,值得进一步研究。对学术论文进行质量评估,学术界现有的评价方法主要包括同行评议、引文分析 和基于链接分析的方法。同行评议通常用于论文的前期评价,如会议或期刊评审投稿论文; 引文评价用于后期评价,例如评价研究人员已发表论文的学术水平。同行评议,即由相同研究领域的自身专家学者从所选课题的意义以及创新性、研 究方法、研究完成的质量、论文写作水平等各个方面进行综合性的评价。同行评议的优点在 于专家对研究质量的评价是细致而准确的,专家凭借相关领域深厚的学术造诣能够看清学 术研究的水平高下;而缺点则在于当前评价制度尚不完善、“同行”自律不严容易引发一些 “流弊”,并且对大量的学术论文进行同行评价费时费力,是不太现实的。引文分析,即利用学术论文间的引用和被引用关系采用某种具体方法和评价标准 对论文进行质量评价。引文分析法的研究人员提出了一系列量化的质量评价指标,例如被 引频次、影响因子等。相对于同行评议,引文分析的评价方法更加简单,易于利用计算机自 动完成;与此同时,引文分析的结果更粗糙,而且必须利用论文间的引用与被引用关系,对 新发表的文献,因为被引用较少,往往给出的评价偏低,局限性较强。Brin和Page在1998年基于网页之间的链接关系提出了 PageRank算法来对网页 按照其重要度排序,并以此为基础创立了 Google搜索引擎。Kleinberg提出了另外一种链 接分析算法HITS算法。之后,考虑到科技文献之间通过引用关系天然形成的链接结构,很 多研究人员基于这些方法的思想来解决文献质量评价方面的问题。
技术实现思路
本专利技术的目的是通过对文献、作者和期刊会议之间的关系建模并进行分析,利用Web 2.0环境下用户行为和文献质量之间的关系协助分析文献质量。本专利技术将同行评议和 引文分析这两种分析方法统一在带重启动的随机游走算法框架下,给出最终的分析结果。本专利技术解决其技术问题所采用的方案是(流程如图1所示)本专利技术提出一种评估文献质量的方法,该方法应用于科技文献共享平台,在该平 台上,用户可以对文献进行收藏、添加标签、评论、分享给其他用户,其特征在于,所述方法 包括以下步骤A.利用文献的引用关系、文献与期刊会议和作者的关系以及文献的发表时间,构 建带权的有向图,称为学术网络图;B.将文献的引用关系、文献与期刊会议和作者的关系定量成图上顶点之间的转移 关系,建模得到学术网络图上的转移概率矩阵;C.利用用户对文献的收藏行为建立模型,考虑收藏时间,利用HITS算法计算得到 一个基于用户分析的文献质量值;D.根据步骤B和步骤C建立的模型,进行带重启动的随机游走迭代,直到结果收 敛,得到学术网络图上每个顶点的概率值,这个概率值即为文献质量、期刊会议质量和作者 学术声望的信息。本专利技术提供的方法不仅可用于科技文献共享平台,同样也适用于论文共享平台或 网站(其中的文献指的是论文),以及图片共享平台或网站(其中的文献指的是图片)等。本专利技术的有益效果本专利技术提出的应用于科技文献的基于图的质量评估方法,第一次将用户行为信息 与文献质量评价结合起来,能够在给出文献质量分析结果时还能够给出作者学术声望和期 刊会议学术质量的分析结果。如将本专利技术应用于科技文献检索网站,对用户按照关键字检 索到的结果进行质量值排序,能够帮助用户更快找到高质量的科技文献,更快了解到高质 量的期刊和会议,以及学术声望高的作者。实验证明,本方法的排序效果相比其他方法有明 显提尚ο附图说明图1为根据本专利技术的基于图的科技文献质量评估方法的总流程图;图2为根据本专利技术构建的学术网络图;图3为根据本专利技术构建的学术网络图上顶点间转移关系图;图4为根据本专利技术构建的用户_文献收藏关系图。具体实施例方式下面结合附图和具体实施方式对本专利技术作进一步详细描述步骤1,利用文献的引用关系、文献与期刊会议和作者的关系以及文献的发表时 间,构建带权的有向图,称为学术网络图。本专利技术设计构建的学术网络图由三个部分组成,对文献、作者、期刊会议三种实体 之间的关系进行建模。三个部分分别为 文献引文互联子图Gdd = (Vd, Edd),Gdd是有向图,表示文献之间的引用关系,其中Vd是文献顶点集,Edd是边集,有向边以下分别给出这些子矩阵的初始定义 从文献顶点到文献顶点的带权邻接矩阵W{G) = {w{I,J))ijbV = ι<di; dj> e Edd表示文献Cli引用了文献Clj ; 作者-文献子图 Gad = (Va U Vd, Ead),Gad是一个二部图,表示作者和文献之间的著作关系,其中Va是作者顶点集,Ead是 边集,无向边(ai; dj) e Ead表示作者屮写作了文献dj ; 期刊会议-文献子图Gcd = (Vc U Vd, Ecd),G。d是一个二部图,表示期刊会议和文献之间的发表关系,其中V。是期刊、会议顶 点集,E。d是边集,无向边(Ci,dj) e Ecd表示文献dj发表在期刊或会议Ci上; 这三个子图的组合即为学术网络图,如图2所示。定义学术网络图为有向图G= (V, E)。其中V为顶点集,V = Va U Vd U V。,E为 边集,E = Edd U Ead U Ecdo考虑到随机游走需要在有向图上进行,因此这里将作者-文献 子图和期刊会议-文献子图中的每一条无向边都表示成连接这两个顶点的两条有向边,例 如(Ci,dj) — <ci; dj> U <dj, Ci>。步骤2,将文献的引用关系、文献与期刊会议和作者的关系定量成图上顶点之间的 转移关系,建模得到学术网络图上的转移概率矩阵。学术网络图G中每个顶点代表一个作者、一篇文献或者一个期刊/会议,因此图G 是一个包含三种不同类型实体的异构图。本专利技术对不同类型的顶点(实体)之间的转移定 义不同的转移概率α,如图3中所示。对于这些转移概率参数,定义Qad= Qcd= 1α da+ α dc+ α dd = 1其中α ad为从作者顶点到文献顶点的转移概率,α。d为从发表地点顶点到文献顶 点的转移概率,α da为从文献顶点到作者顶点的转移概率,α d。为从本文档来自技高网...
【技术保护点】
一种评估文献质量的方法,该方法应用于科技文献共享平台,在该平台上,用户可以对文献进行收藏、添加标签、评论、分享给其他用户,其特征在于,所述方法包括以下步骤:A.利用文献的引用关系、文献与期刊会议和作者的关系以及文献的发表时间,构建带权的有向图,称为学术网络图;B.将文献的引用关系、文献与期刊会议和作者的关系定量成图上顶点之间的转移关系,建模得到学术网络图上的转移概率矩阵;C.利用用户对文献的收藏行为建立模型,考虑收藏时间,利用HITS算法计算得到一个基于用户分析的文献质量值;D.根据步骤B和步骤C建立的模型,进行带重启动的随机游走迭代,直到结果收敛,得到学术网络图上每个顶点的概率值,这个概率值即为文献质量、期刊会议质量和作者学术声望的信息。
【技术特征摘要】
【专利技术属性】
技术研发人员:张铭,封盛,
申请(专利权)人:北京大学,
类型:发明
国别省市:11[中国|北京]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。