关键词提取方法及装置制造方法及图纸

技术编号:37349728 阅读:8 留言:0更新日期:2023-04-22 21:47
本申请提供一种关键词提取方法及装置。所述方法包括:从目标文档的文档正文和文档标题中,根据词频提取多个候选词;根据所述候选词的词向量,以及所述文档正文中各分句的句向量,获取所述候选词与各所述分句对应的各第一相关度;将各所述第一相关度根据各所述第一相关度的预设权重进行加权,确定所述候选词的关键值;根据各所述候选词的关键值,从各所述候选词中提取至少一个关键词。本申请实施例提供的关键词提取方法及装置能够从文本中快捷地提取关键词的同时,提高关键词提取结果的准确度。度。度。

【技术实现步骤摘要】
关键词提取方法及装置


[0001]本申请涉及自然语言处理
,具体涉及一种关键词提取方法及装置。

技术介绍

[0002]关键词提取是NLP(自然语言处理)领域常见的任务,它可以提取与文档内容最相关的若干词汇。
[0003]在提取关键词时,为确保关键词提取地准确度,可采用有监督的关键词提取方法,具体为将关键词提取任务视为分类任务。在分类任务中,先提取出候选词,然后对每个候选词进行二分类,判断其是否为关键词。而这种关键词提取方法需要人工标注训练集合,导致人工成本较高且耗时久,无法快捷地提取关键词,故而难以展开大规模的应用。为此,在需要从大量文本中提取关键词时,相关技术中,通常采用无监督的关键词提取方法进行关键词提取,具体为先从文档正文中抽取出候选词,然后对各个候选词进行打分,然后输出top K个分值最高的候选词作为关键词。
[0004]然而,相关技术中的无监督的关键词提取方法由于无法有效综合利用多种信息筛选关键词,因此容易导致关键词提取结果不够准确。

技术实现思路

[0005]本申请实施例提供一种关键词提取方法及装置,能够从文本中快捷地提取关键词的同时,提高关键词提取结果的准确度。
[0006]第一方面,本申请实施例提供一种关键词提取方法,包括:
[0007]从目标文档的文档正文和文档标题中,根据词频提取多个候选词;
[0008]根据所述候选词的词向量,以及所述文档正文中各分句的句向量,获取所述候选词与各所述分句对应的各第一相关度;
[0009]将各所述第一相关度根据各所述第一相关度的预设权重进行加权,确定所述候选词的关键值;
[0010]根据各所述候选词的关键值,从各所述候选词中提取至少一个关键词。
[0011]在一个实施例中,根据词频提取多个候选词,包括:
[0012]根据词频提取词性为预设词性的多个候选词。
[0013]在一个实施例中,还包括:
[0014]从所述文档正文中获取各所述分句;
[0015]对所述分句进行第一分词处理,获取多个第一分词;
[0016]将各所述第一分词的词向量进行加权,确定所述分句的句向量。
[0017]在一个实施例中,从所述文档正文中获取各所述分句,包括:
[0018]根据预设的断句标识,从所述文档正文中获取各所述分句。
[0019]在一个实施例中,还包括:
[0020]根据各所述分句的句向量以及所述文档标题的标题向量,获取与各所述分句一一
对应的各第二相关度;
[0021]将与所述分句对应的第二相关度,确定为与所述分句对应的第一相关度的预设权重。
[0022]在一个实施例中,所述标题向量由各第二分词的词向量加权后确定;所述各第二分词通过对所述文档标题进行分词处理后得到。
[0023]在一个实施例中,所述根据各所述分句的句向量以及所述文档标题的标题向量,获取与各所述分句一一对应的各第二相关度,包括:
[0024]根据各所述分句的句向量以及所述文档标题的标题向量,获取与各所述分句一一对应的各初始相关度;
[0025]对各初始相关度进行归一化处理,获取与各所述分句一一对应的各第二相关度。
[0026]第二方面,本申请实施例提供一种关键词提取装置,包括:
[0027]候选词提取模块,用于从目标文档的文档正文和文档标题中,根据词频提取多个候选词;
[0028]相关度获取模块,用于根据所述候选词的词向量,以及所述文档正文中各分句的句向量,获取所述候选词与各所述分句对应的各第一相关度;
[0029]关键值确定模块,用于将各所述第一相关度根据各所述第一相关度的预设权重进行加权,确定所述候选词的关键值;
[0030]关键词提取模块,用于根据各所述候选词的关键值,从各所述候选词中提取至少一个关键词。
[0031]第三方面,本申请实施例提供一种电子设备,包括处理器和存储有计算机程序的存储器,所述处理器执行所述程序时实现第一方面所述的关键词提取方法的步骤。
[0032]第四方面,本申请实施例提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现第一方面所述的关键词提取方法的步骤。
[0033]本申请实施例提供的关键词提取方法及装置,根据词频从目标文档的文档正文和文档标题中提取多个候选词,并根据候选词的词向量,以及所述文档正文中各分句的句向量,获取所述候选词与各所述分句对应的各第一相关度后,将各所述第一相关度根据各所述第一相关度的预设权重进行加权,确定所述候选词的关键值,以根据各所述候选词的关键值,从各所述候选词中提取至少一个关键词。通过词频从目标文档的文档正文和文档标题中确定多个候选词后,计算每个候选词与各个分句之间的相关度,并通过候选词与各个分句之间的相关度进行加权,确定每个候选词的关键值,以基于每个候选词的关键值大小来从各候选词中提取关键词,从而在常规无监督的关键词提取方法上,综合考虑了词频,以及候选词与分句的语义特征,进而在无需人工标注即可从文本中提取关键词,减少进行关键词提取的时间成本和人工成本,使关键词提取的更快捷的同时,提高关键词提取结果的准确度。
附图说明
[0034]为了更清楚地说明本申请或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些
附图获得其他的附图。
[0035]图1是本申请实施例提供的关键词提取方法的流程示意图之一;
[0036]图2是本申请实施例提供的关键词提取装置的结构示意图之一;
[0037]图3是本申请实施例提供的电子设备的结构示意图。
具体实施方式
[0038]为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0039]下面结合附图对本申请实施例进行详细的阐述。
[0040]图1是本申请实施例提供的关键词提取方法的流程示意图之一。参照图1,本申请实施例提供一种关键词提取方法,本实施例主要以该方法应用于计算机设备来举例说明。该计算机设备具体可以是服务器或终端设备。
[0041]参照图1,本实施例提供的一种关键词提取方法包括:可以包括:
[0042]步骤101,从目标文档的文档正文和文档标题中,根据词频提取多个候选词。
[0043]步骤102,根据所述候选词的词向量,以及所述文档正文中各分句的句向量,获取所述候选词与各所述分句对应的各第一相关度。
[0044]步骤103,将各所述第一相关度根据各所述第一相关度的预设权重进行本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种关键词提取方法,其特征在于,包括:从目标文档的文档正文和文档标题中,根据词频提取多个候选词;根据所述候选词的词向量,以及所述文档正文中各分句的句向量,获取所述候选词与各所述分句对应的各第一相关度;将各所述第一相关度根据各所述第一相关度的预设权重进行加权,确定所述候选词的关键值;根据各所述候选词的关键值,从各所述候选词中提取至少一个关键词。2.根据权利要求1所述的关键词提取方法,其特征在于,根据词频提取多个候选词,包括:根据词频提取词性为预设词性的多个候选词。3.根据权利要求1所述的关键词提取方法,其特征在于,还包括:从所述文档正文中获取各所述分句;对所述分句进行第一分词处理,获取多个第一分词;将各所述第一分词的词向量进行加权,确定所述分句的句向量。4.根据权利要求3所述的关键词提取方法,其特征在于,所述从所述文档正文中获取各所述分句,包括:根据预设的断句标识,从所述文档正文中获取各所述分句。5.根据权利要求1至4任一项所述的关键词提取方法,其特征在于,还包括:根据各所述分句的句向量以及所述文档标题的标题向量,获取与各所述分句一一对应的各第二相关度;将与所述分句对应的第二相关度,确定为与所述分句对应的第一相关度的预设权重。6.根据权利要求5所述的关键词提取方法,其特征在于,所述标题向量由各第二分词的...

【专利技术属性】
技术研发人员:张淼白波石正贵
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1