本发明专利技术公开了一种基于科技文献图网络的关键词自动抽取方法,所述方法包括:根据文献引用关系和共同作者信息,为一个设定的科技文献集合建立科技文献图网络;基于科技文献图网络建立数据组织模型;对待测科技文献提取自身信息,并与基于数据组织模型获取的科技文献图网络信息结合,完成关键词抽取;所述自身信息包括发表时间、题目、摘要、正文、参考文献和作者。本发明专利技术基于共同作者和引用关系构建一个科技文献图网络,提出了一种基于科技文献图网络的自动抽取方法,进一步提高科技文献关键词自动抽取效果;还提出了一种科技文献图网络构建方法和科技文献图网络数据组织模型,能够充分利用科技文献图网络信息,解决图网络数据如何利用的问题。利用的问题。利用的问题。
【技术实现步骤摘要】
一种基于科技文献图网络的关键词自动抽取方法
[0001]本专利技术涉及计算机应用、自然语言处理、关键词自动抽取
,特别涉及一种基于科技文献图网络的关键词自动抽取方法。
技术介绍
[0002]传统的科技文献关键词抽取方法借助文献本身的信息进行抽取,忽视了科技文献间的网络关系,未能把科技文献图网络的语义信息应用到关键抽取领域。通常情况下,一篇科技文献有多个作者,多个作者又发表其他的科技文献。一篇科技文献通过引用关系可以关联到引用的科技文献,同时一篇科技文献又会被其他科技文献引用。科技文献通过共同作者和引用关系形成了一个复杂的图网络。
技术实现思路
[0003]本专利技术的目的在于克服现有技术的缺陷,提出了一种基于科技文献图网络的关键词自动抽取方法。
[0004]为了实现上述目的,本专利技术提出了一种基于科技文献图网络的关键词自动抽取方法,所述方法包括:
[0005]步骤1)根据文献引用关系和共同作者信息,为一个设定的科技文献集合建立科技文献图网络;
[0006]步骤2)基于科技文献图网络建立数据组织模型;
[0007]步骤3)对待测科技文献提取自身信息,并与基于数据组织模型获取的科技文献图网络信息结合,完成关键词抽取;所述自身信息包括发表时间、题目、摘要、正文、参考文献和作者。
[0008]作为上述方法的一种改进,所述步骤1)具体包括:
[0009]步骤1
‑
1)将设定的科技文献集合中的每篇文献设置为一个节点;
[0010]步骤1
‑
2)遍历每个节点,重复步骤1
‑
3)和步骤1
‑
4),当遍历完每个节点,转至步骤1
‑
5);
[0011]步骤1
‑
3)根据文献引用关系,建立引用文献对应节点指向被引用文献对应节点的一条边;引用文献对应节点的类别设置为引用节点,被引用文献对应节点的类别设置为被引用节点;
[0012]步骤1
‑
4)根据共同作者信息,建立具有共同作者的论文对应节点之间的一条边,并设置节点的类别为共同作者节点;
[0013]步骤1
‑
5)得到科技文献图网络。
[0014]作为上述方法的一种改进,所述步骤2)具体包括:
[0015]步骤2
‑
1)根据每个节点的类别,设置节点关键信息;
[0016]步骤2
‑
2)根据节点的类别和节点关键信息,计算节点关键信息的权重。
[0017]作为上述方法的一种改进,所述步骤2
‑
1)具体包括:
[0018]对于节点类别为引用节点,设置节点关键信息包括:题目、摘要、时间、关键词、引用层级和引用片段;其中,所述时间表示文献发表时间,所述引用层级表示科技文献间引用的距离;
[0019]对于节点类别为被引用节点,设置节点关键信息包括:题目、摘要、时间、关键词、被引用层级和被引用片段;所述被引层级表示科技文献被引的距离;
[0020]对于节点类别为共同作者节点,设置节点关键信息包括:题目、摘要、时间、关键词和共同作者层级,所述共同作者层级表示文献共同作者关联距离。
[0021]作为上述方法的一种改进,所述步骤2
‑
2)具体包括:
[0022]对于节点类别为引用节点,题目的信息权重为1.5Q1,摘要的信息权重为Q1,关键词的信息权重为2Q1,引用片段的信息权重为1.2Q1;其中,Q1为引用科技文献的基准权重,满足下式:
[0023]Q1=A
×
(1
‑
时间差/10)
×
(1
‑
引用层级/5)
[0024]其中,A表示引用科技文献的权重基数,时间差表示引用科技文献与被引用科技文献发表时间的差值;
[0025]对于节点类别为被引用节点,题目的信息权重为1.5Q2,摘要的信息权重为Q2,关键词的信息权重为2Q2,被引用片段的信息权重为1.2Q2;其中,Q2为被引用科技文献的基准权重,满足下式:
[0026]Q2=B
×
(1
‑
时间差/10)
×
(1
‑
被引用层级/5)
[0027]其中,B表示被引用科技文献的权重基数,时间差表示引用科技文献与被引用科技文献发表时间的差值;
[0028]对于节点类别为共同作者节点,题目的信息权重为1.5Q3,摘要的信息权重为Q3,关键词的信息权重为2Q3,其中,Q3为共同作者科技文献的基准权重Q3,满足下式:
[0029]Q3=C
×
(1
‑
时间差/10)
×
(1
‑
共同作者层级/5)
[0030]其中,C表示共同作者科技文献的权重基数,时间差表示共同作者科技文献发表时间的差值。
[0031]作为上述方法的一种改进,所述步骤3)具体包括:
[0032]对待测科技文献提取自身信息,获得时间、题目、摘要、正文、参考文献和作者;
[0033]根据共同作者和引用关系,构建科技文献图网络;
[0034]基于科技文献引文网络数据组织模型对科技文献图网络数据进行组织;
[0035]融合待测科技文献信息与科技文献图网络信息,进行关键词抽取
[0036]与现有技术相比,本专利技术的优势在于:
[0037]1、本专利技术基于共同作者和引用关系构建一个复杂的科技文献图网络,提出了一种基于科技文献图网络的自动抽取方法,进一步提高科技文献关键词自动抽取效果;
[0038]2、本专利技术提出了一种科技文献图网络构建方法和一个科技文献图网络数据组织模型,能够充分利用科技文献图网络信息,解决图网络数据如何利用的问题。
附图说明
[0039]图1是本专利技术的基于科技文献图网络的关键词自动抽取方法流程图;
[0040]图2是本专利技术的科技文献节点类别及相关节点关键信息;
[0041]图3是本专利技术的科技文献节点类别及权重设置;
[0042]图4是采用本专利技术的方法进行关键词抽取示例。
具体实施方式
[0043]下面结合附图和实施例对本专利技术的技术方案进行详细的说明。
[0044]实施例1
[0045]如图1所示,本专利技术的实施例1提出了一种基于科技文献图网络的关键词自动抽取方法,具体包括如下步骤:
[0046](1)科技文献图网络构建方法
[0047]对于一个论文集合,我们把每一篇论文都当作一个节点。不同节点间的联系通过引用关系和共同作者信息构建。例如文献A引用了文献B,那么节点A会生成一条指向节点B的边。借助科技文献A的作者信息,我们可关联到共同作者发布的科技文献C,那么就可以生成一条节点C到节点A的边。通过文献引用关系和共同作者信息,我们可以方便的构建一个科本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于科技文献图网络的关键词自动抽取方法,所述方法包括:步骤1)根据文献引用关系和共同作者信息,为一个设定的科技文献集合建立科技文献图网络;步骤2)基于科技文献图网络建立数据组织模型;步骤3)对待测科技文献提取自身信息,并与基于数据组织模型获取的科技文献图网络信息结合,完成关键词抽取;所述自身信息包括发表时间、题目、摘要、正文、参考文献和作者。2.根据权利要求1所述的基于科技文献图网络的关键词自动抽取方法,其特征在于,所述步骤1)具体包括:步骤1
‑
1)将设定的科技文献集合中的每篇文献设置为一个节点;步骤1
‑
2)遍历每个节点,重复步骤1
‑
3)和步骤1
‑
4),当遍历完每个节点,转至步骤1
‑
5);步骤1
‑
3)根据文献引用关系,建立引用文献对应节点指向被引用文献对应节点的一条边;引用文献对应节点的类别设置为引用节点,被引用文献对应节点的类别设置为被引用节点;步骤1
‑
4)根据共同作者信息,建立具有共同作者的论文对应节点之间的一条边,并设置节点的类别为共同作者节点;步骤1
‑
5)得到科技文献图网络。3.根据权利要求2所述的基于科技文献图网络的关键词自动抽取方法,其特征在于,所述步骤2)具体包括:步骤2
‑
1)根据每个节点的类别,设置节点关键信息;步骤2
‑
2)根据节点的类别和节点关键信息,计算节点关键信息的权重。4.根据权利要求3所述的基于科技文献图网络的关键词自动抽取方法,其特征在于,所述步骤2
‑
1)具体包括:对于节点类别为引用节点,设置节点关键信息包括:题目、摘要、时间、关键词、引用层级和引用片段;其中,所述时间表示文献发表时间,所述引用层级表示科技文献间引用的距离;对于节点类别为被引用节点,设置节点关键信息包括:题目、摘要、时间、关键词、被引用层级和被引用片段;所述被引层级表示科技文献被引的距离;对于节点类别为共同作者节点,设置节点关键...
【专利技术属性】
技术研发人员:宋宇,罗准辰,武帅,罗威,谭玉珊,胡明昊,田昌海,毛彬,叶宇铭,赵晋巍,
申请(专利权)人:中国人民解放军军事科学院军事科学信息研究中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。