学术影响力确定方法、介质和电子设备技术

技术编号:36963004 阅读:67 留言:0更新日期:2023-03-22 19:23
本公开涉及一种学术影响力确定方法、介质和电子设备,属于电子技术领域,能够有效地评估学者和出版物的真正的学术影响力。一种学术影响力确定方法,包括:对引用论文进行数据预处理,得到预处理后的数据;根据所述预处理后的数据,确定各个所述参考文献论文对所述引用论文的影响类别和各个所述参考文献论文对所述引用论文的贡献排序;根据各个所述参考文献论文的影响类别和贡献排序,确定各个所述参考文献论文对所述引用论文的局部影响因子;以及根据所述局部影响因子和所述引用论文的全局影响因子,确定各个所述参考文献论文的全局影响因子。响因子。响因子。

【技术实现步骤摘要】
学术影响力确定方法、介质和电子设备


[0001]本公开涉及电子
,具体地,涉及一种学术影响力确定方法、介质和电子设备。

技术介绍

[0002]如今,每年发表的论文数量有了很大的增长。然而,目前的学术影响力评价指标大多只注重论文数量,导致不能有效地评估学者和出版物的真正的学术影响力。

技术实现思路

[0003]本公开的目的是提供一种学术影响力确定方法、介质和电子设备,能够有效地评估学者和出版物的真正的学术影响力。
[0004]为了实现上述目的,本公开提供一种学术影响力确定方法,包括:对引用论文进行数据预处理,得到预处理后的数据,其中,所述引用论文指的是引用了参考文献的论文,所述预处理后的数据包括所述引用论文中参考文献列表中的参考文献论文的参考文献编号、所述参考文献论文的标题、所述参考文献论文的作者、所述参考文献论文的出版年份、所述参考文献论文与所述引用论文的作者之间的重叠、所述引用论文中的句子标识、所述引用论文中的章节类别、所述参考文献论文在所述引用论文中的引用次数、所述引用论文中包含所述参考文献编号的句子的文本、位于包含所述参考文献编号的句子前面的相关句子、位于包含所述参考文献编号的句子后面的相关句子、所述引用论文对所述参考文献论文的情感;根据所述预处理后的数据,确定各个所述参考文献论文对所述引用论文的影响类别和各个所述参考文献论文对所述引用论文的贡献排序;根据各个所述参考文献论文的影响类别和贡献排序,确定各个所述参考文献论文对所述引用论文的局部影响因子;以及根据所述局部影响因子和所述引用论文的全局影响因子,确定各个所述参考文献论文的全局影响因子。
[0005]可选地,所述对引用论文进行数据预处理,得到预处理后的数据,包括:对所述引用论文进行解析,确定所述引用论文的标题、所述引用论文的作者、所述引用论文的出版年份、所述引用论文中所述参考文献列表中的所述参考文献论文的参考文献编号、所述参考文献论文的标题、所述参考文献论文的作者、所述参考文献论文的出版年份、以及所述引用论文中的引文标记;对所述引用论文中的句子和章节分别进行分割,并确定分割得到的句子的标识和分割得到的章节的类别;在每个所确定的句子中对所述引文标记进行定位,以确定所述引用论文中包含所述参考文献编号的句子的文本;将所定位的所述引文标记与所述参考文献编号进行匹配,以确定每个所述参考文献论文在所述引用论文中的引用次数;根据所述引用论文的作者的集合和每个所述参考文献论文的作者的集合,确定每个所述参考文献论文与所述引用论文的作者之间的重叠。
[0006]可选地,所述对所述引用论文中的句子进行分割,并确定分割得到的句子的标识,包括:使用正则表达式匹配对所述引用论文中的句子进行分割;根据分割得到的句子的出
现顺序,确定分割得到的句子的标识。
[0007]可选地,所述对所述引用论文中的章节进行分割,并确定分割得到的章节的类别,包括:基于关键词的匹配,对所述引用论文中的章节进行分割并确定分割得到的章节的类别。
[0008]可选地,所述对引用论文进行数据预处理,得到预处理后的数据,还包括:利用BERT分类器,迭代地确定所述引用论文中包含所述参考文献编号的句子的前后句子中、与包含所述参考文献编号的句子存在相关性的句子;将位于包含所述参考文献编号的句子前面的、与包含所述参考文献编号的句子存在相关性的句子确定为位于包含所述参考文献编号的句子前面的相关句子;将位于包含所述参考文献编号的句子后面的、与包含所述参考文献编号的句子存在相关性的句子确定为位于包含所述参考文献编号的句子后面的相关句子;
[0009]其中,所述BERT分类器是利用人工注释的数据集进行训练的分类器,所述人工注释的数据集中包含被标记为“相关”或“不相关”的句子对,而且每个所述句子对都是从单篇学术论文中产生的。
[0010]可选地,所述方法还包括:在以下任一迭代中止条件满足的情况下,所述BERT分类器的迭代中止:所述BERT分类器确定存在与包含所述参考文献编号的句子不相关的句子;正在被确定是否与包含所述参考文献编号的句子存在相关性的句子、与包含所述参考文献编号的句子不处于同一段落中。
[0011]可选地,所述根据所述预处理后的数据,确定各个所述参考文献论文对所述引用论文的影响类别,包括:由预训练的分类器根据所述预处理后的数据确定各个所述参考文献论文对所述引用论文的影响类别,其中,所述影响类别包括所述引用论文受到所述参考文献论文的高度影响、所述引用论文使用了所述参考文献论文中的研究、所述引用论文与所述参考文献论文是相关的研究、以及所述引用论文对所述参考文献论文是负面情感。
[0012]可选地,所述根据各个所述参考文献论文的影响类别和贡献排序,确定各个所述参考文献论文对所述引用论文的局部影响因子,包括:根据各个所述参考文献论文的影响类别和贡献排序,计算各个参考文献论文的贡献值,将所述贡献值归一化到[0,1]中,得到每个所述参考文献论文的局部影响因子。
[0013]可选地,所述方法还包括:确定待分析学术影响力的学者对所述学者发表的每篇论文的贡献;基于所述学者对所述学者发表的每篇论文的贡献以及每篇论文的全局影响因子,确定所述学者的学术影响因子。
[0014]本公开还提供一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本公开任一项所述方法的步骤。
[0015]本公开还提供一种电子设备,包括:存储器,其上存储有计算机程序;处理器,用于执行所述存储器中的所述计算机程序,以实现本公开任一项所述方法的步骤。
[0016]通过上述技术方案,由于在确定全局影响因子时考虑了引用论文对参考文献论文的情感极性,因此能够有效地评估参考文献论文的真正学术价值。
[0017]本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
[0018]附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
[0019]图1是根据本公开一种实施例的学术影响力确定方法的流程图。
[0020]图2示出了根据本公开实施例的对引用论文进行数据预处理的流程示意图。
[0021]图3示例性地示出了根据本公开实施例的全局影响因子传播方式示意图。
[0022]图4示例性地示出了初级引文和次级引文。
[0023]图5是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
[0024]以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
[0025]需要说明的是,本公开中所有获取信号、信息或数据的动作都是在遵照所在地国家相应的数据保护法规政策的前提下,并获得由相应装置所有者给予授权的情况下进行的。
[0026]图1是根据本公开一种实施例的学术影响力确定方法的流程图。如图1所示,该方本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种学术影响力确定方法,其特征在于,包括:对引用论文进行数据预处理,得到预处理后的数据,其中,所述引用论文指的是引用了参考文献的论文,所述预处理后的数据包括所述引用论文中参考文献列表中的参考文献论文的参考文献编号、所述参考文献论文的标题、所述参考文献论文的作者、所述参考文献论文的出版年份、所述参考文献论文与所述引用论文的作者之间的重叠、所述引用论文中的句子标识、所述引用论文中的章节类别、所述参考文献论文在所述引用论文中的引用次数、所述引用论文中包含所述参考文献编号的句子的文本、位于包含所述参考文献编号的句子前面的相关句子、位于包含所述参考文献编号的句子后面的相关句子、所述引用论文对所述参考文献论文的情感;根据所述预处理后的数据,确定各个所述参考文献论文对所述引用论文的影响类别和各个所述参考文献论文对所述引用论文的贡献排序;根据各个所述参考文献论文的影响类别和贡献排序,确定各个所述参考文献论文对所述引用论文的局部影响因子;以及根据所述局部影响因子和所述引用论文的全局影响因子,确定各个所述参考文献论文的全局影响因子。2.根据权利要求1所述的方法,其特征在于,所述对引用论文进行数据预处理,得到预处理后的数据,包括:对所述引用论文进行解析,确定所述引用论文的标题、所述引用论文的作者、所述引用论文的出版年份、所述引用论文中所述参考文献列表中的所述参考文献论文的参考文献编号、所述参考文献论文的标题、所述参考文献论文的作者、所述参考文献论文的出版年份、以及所述引用论文中的引文标记;对所述引用论文中的句子和章节分别进行分割,并确定分割得到的句子的标识和分割得到的章节的类别;在每个所确定的句子中对所述引文标记进行定位,以确定所述引用论文中包含所述参考文献编号的句子的文本;将所定位的所述引文标记与所述参考文献编号进行匹配,以确定每个所述参考文献论文在所述引用论文中的引用次数;根据所述引用论文的作者的集合和每个所述参考文献论文的作者的集合,确定每个所述参考文献论文与所述引用论文的作者之间的重叠。3.根据权利要求2所述的方法,其特征在于,所述对所述引用论文中的句子进行分割,并确定分割得到的句子的标识,包括:使用正则表达式匹配对所述引用论文中的句子进行分割;根据分割得到的句子的出现顺序,确定分割得到的句子的标识。4.根据权利要求2所述的方法,其特征在于,所述对所述引用论文中的章节进行分割,并确定分割得到的章节的类别,包括:基于关键词的匹配,对所述引用论文中的章节进行分割并确定分割得到的章节的类别。5.根据权利要求2所述的方法,其特征在于,所述对引用论文进行数据预处理,得到预处理后的数据...

【专利技术属性】
技术研发人员:温江涛韩宇星张新荣嵇文麒任自厚李希刘蜀琪邓云泷肖雅迪
申请(专利权)人:深圳清华大学研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1