一种关键词提取方法、装置及设备制造方法及图纸

技术编号:25309364 阅读:15 留言:0更新日期:2020-08-18 22:28
本申请的一个或多个实施例提出关键词提取方法、装置及设备。该方法可以包括,基于TextRank算法从与预设的多个目标分类分别对应的语料文档中确定候选关键词。基于确定的上述候选关键词,构建与上述多个目标分类分别对应的多个候选关键词集合。针对与任一目标分类对应的目标候选关键词集合中的任一目标候选关键词,统计上述多个候选关键词集合中,包含该目标候选关键词的候选关键词集合的数量。确定上述目标候选关键词集合中,是否可以包括上述数量达到阈值的候选关键词;如果是,将该候选关键词从上述目标候选关键词集合中删除,以得到与上述目标分类对应的关键词集合。从而在关键词提取过程中降低了提取关键词门槛,提升了提取效率与准确率。

【技术实现步骤摘要】
一种关键词提取方法、装置及设备
本申请涉及计算机技术,具体涉及一种关键词提取方法、装置及设备。
技术介绍
在对文本进行分析时,通常需要针对待分析文本进行分类。当完成分类后,再提取该文本中与其所属分类相关的关键信息,并针对该关键信息完成分析。目前,不论对待分析文本进行分类,还是针对该文本提取与其所属分类相关的关键信息,都需要依据与各分类分别对应的关键词来完成。可见,目前亟需提取与各分类分别对应的关键词的方法。
技术实现思路
有鉴于此,本申请至少公开一种关键词提取方法、装置、设备及存储介质。在本申请示出的第一方面,本申请提出一种关键词提取方法,可以包括:基于TextRank算法从与预设的多个目标分类分别对应的语料文档中确定候选关键词;基于确定的上述候选关键词,构建与上述多个目标分类分别对应的多个候选关键词集合;针对与任一目标分类对应的目标候选关键词集合中的任一目标候选关键词,统计上述多个候选关键词集合中,包含该目标候选关键词的候选关键词集合的数量;确定上述目标候选关键词集合中,是否可以包括上述数量达到阈值的候选关键词;如果是,将该候选关键词从上述目标候选关键词集合中删除,以得到与上述目标分类对应的关键词集合。在示出的一实施例中,上述多个目标分类分别对应多篇语料文档;上述基于TextRank算法从与预设的多个目标分类分别对应的语料文档中确定候选关键词,可以包括:将上述多篇语料文档中的若干篇语料文档汇总为一篇语料文档,基于TextRank算法计算汇总后的语料文档可以包括的各单词的权重值;按照上述权重值大小,对上述汇总后的语料文档中的单词排序,并将权重值最大的单词开始的M个单词,确定为候选关键词。在示出的一实施例中,上述多个目标分类分别对应多篇语料文档;上述基于TextRank算法从与预设的多个目标分类分别对应的语料文档中确定候选关键词,可以包括:基于TextRank算法计算语料文档可以包括的各单词的权重值;按照上述权重值大小,对语料文档中的单词排序,并将权重值最大的单词开始的M个单词,确定为与语料文档对应的关键词;针对上述多篇语料文档中的若干篇语料文档分别执行以上步骤;当确定上述多篇语料文档分别对应的关键词后,针对每一上述关键词,将该关键词在各篇语料文档中的权重值进行加权求和;按照上述加权求和结果,对上述关键词进行排序,并将上述加权求和结果最大的关键词开始的N个关键词,确定为候选关键词。在示出的一实施例中,上述基于TextRank算法计算语料文档可以包括的各单词的权重值,可以包括:对语料文档进行分句处理,得到若干分句;针对每一分句,进行分词处理;将预设单词滑动窗口对分词处理后的每一分句进行滑动,并在每次滑动后,将上述预设单词滑动窗口内出现的具有相邻关系两个单词组成单词对,并统计上述单词对的共现次数;基于统计的上述单词对的共现次数,以及TextRank算法公式迭代计算语料文档可以包括的各单词的权重值。在示出的一实施例中,上述针对每一分句,进行分词处理,可以包括:通过预设分词模型对每一分句进行分词处理,得到与每一分句分别对应的单词集合;其中,上述单词集合可以包括,每一分句可以包括的单词,以及各单词的词性;基于上述各单词的词性,对上述单词集合中的单词进行过滤。在示出的一实施例中,上述方法还可以包括以下操作中的任一或几项的组合:过滤上述单词集合中可以包括的无意义字符;过滤上述单词集合中可以包括的特殊字符;对上述单词集合中的单词进行简繁转换;将上述单词集合中具有相同含义的不同单词用同一单词表示。在本申请示出的第二方面,本申请提出一种关键词提取装置,可以包括:确定模块,基于TextRank算法从与预设的多个目标分类分别对应的语料文档中确定候选关键词;构建模块,基于确定的上述候选关键词,构建与上述多个目标分类分别对应的多个候选关键词集合;统计模块,针对与任一目标分类对应的目标候选关键词集合中的任一目标候选关键词,统计上述多个候选关键词集合中,包含该目标候选关键词的候选关键词集合的数量;删除模块,确定上述目标候选关键词集合中,是否可以包括上述数量达到阈值的候选关键词;如果是,将该候选关键词从上述目标候选关键词集合中删除,以得到与上述目标分类对应的关键词集合。在示出的一实施例中,上述多个目标分类分别对应多篇语料文档;上述确定模块,可以包括:汇总模块,将上述多篇语料文档中的若干篇语料文档汇总为一篇语料文档,基于TextRank算法计算汇总后的语料文档可以包括的各单词的权重值;第一确定子模块,按照上述权重值大小,对上述汇总后的语料文档中的单词排序,并将权重值最大的单词开始的M个单词,确定为候选关键词。在示出的一实施例中,上述多个目标分类分别对应多篇语料文档;上述确定模块,可以包括:计算模块,基于TextRank算法计算语料文档可以包括的各单词的权重值;第二确定子模块,按照上述权重值大小,对语料文档中的单词排序,并将权重值最大的单词开始的M个单词,确定为与语料文档对应的关键词;针对上述多篇语料文档中的若干篇语料文档分别执行以上步骤;求和模块,当确定上述多篇语料文档分别对应的关键词后,针对每一上述关键词,将该关键词在各篇语料文档中的权重值进行加权求和;第三确定子模块,按照上述加权求和结果,对上述关键词进行排序,并将上述加权求和结果最大的关键词开始的N个关键词,确定为候选关键词。在示出的一实施例中,上述计算模块,可以包括:分句模块,对语料文档进行分句处理,得到若干分句;分词模块,针对每一分句,进行分词处理;统计共现次数模块,将预设单词滑动窗口对分词处理后的每一分句进行滑动,并在每次滑动后,将上述预设单词滑动窗口内出现的具有相邻关系两个单词组成单词对,并统计上述单词对的共现次数;计算子模块,基于统计的上述单词对的共现次数,以及TextRank算法公式迭代计算语料文档可以包括的各单词的权重值。在示出的一实施例中,上述分词模块,可以包括:通过预设分词模型对每一分句进行分词处理,得到与每一分句分别对应的单词集合;其中,上述单词集合可以包括,每一分句可以包括的单词,以及各单词的词性;基于上述各单词的词性,对上述单词集合中的单词进行过滤。在示出的一实施例中,上述分词模块,还博还可以包括以下操作中的任一或几项的组合:过滤上述单词集合中可以包括的无意义字符;过滤上述单词集合中可以包括的特殊字符;对上述单词集合中的单词进行简繁转换;将上述单词集合中具有相同含义的不同单词用同一单词表示。由上述技术方案可知,通过TextRank算法从与多个目标分类分别对应的语料文档中确定与上述多个目标分类分别对应的候选关键词集合,然后针对与任一目标分类对应的目标候选关键词集合中本文档来自技高网...

【技术保护点】
1.一种关键词提取方法,包括:/n基于TextRank算法从与预设的多个目标分类分别对应的语料文档中确定候选关键词;/n基于确定的所述候选关键词,构建与所述多个目标分类分别对应的多个候选关键词集合;/n针对与任一目标分类对应的目标候选关键词集合中的任一目标候选关键词,统计所述多个候选关键词集合中,包含该目标候选关键词的候选关键词集合的数量;/n确定所述目标候选关键词集合中,是否包括所述数量达到阈值的候选关键词;如果是,将该候选关键词从所述目标候选关键词集合中删除,以得到与所述目标分类对应的关键词集合。/n

【技术特征摘要】
1.一种关键词提取方法,包括:
基于TextRank算法从与预设的多个目标分类分别对应的语料文档中确定候选关键词;
基于确定的所述候选关键词,构建与所述多个目标分类分别对应的多个候选关键词集合;
针对与任一目标分类对应的目标候选关键词集合中的任一目标候选关键词,统计所述多个候选关键词集合中,包含该目标候选关键词的候选关键词集合的数量;
确定所述目标候选关键词集合中,是否包括所述数量达到阈值的候选关键词;如果是,将该候选关键词从所述目标候选关键词集合中删除,以得到与所述目标分类对应的关键词集合。


2.根据权利要求1所述的方法,所述多个目标分类分别对应多篇语料文档;
所述基于TextRank算法从与预设的多个目标分类分别对应的语料文档中确定候选关键词,包括:
将所述多篇语料文档中的若干篇语料文档汇总为一篇语料文档,基于TextRank算法计算汇总后的语料文档包括的各单词的权重值;
按照所述权重值大小,对所述汇总后的语料文档中的单词排序,并将权重值最大的单词开始的M个单词,确定为候选关键词。


3.根据权利要求1所述的方法,所述多个目标分类分别对应多篇语料文档;
所述基于TextRank算法从与预设的多个目标分类分别对应的语料文档中确定候选关键词,包括:
基于TextRank算法计算语料文档包括的各单词的权重值;
按照所述权重值大小,对语料文档中的单词排序,并将权重值最大的单词开始的M个单词,确定为与语料文档对应的关键词;
针对所述多篇语料文档中的若干篇语料文档分别执行以上步骤;
当确定所述多篇语料文档分别对应的关键词后,针对每一所述关键词,将该关键词在各篇语料文档中的权重值进行加权求和;
按照所述加权求和结果,对所述关键词进行排序,并将所述加权求和结果最大的关键词开始的N个关键词,确定为候选关键词。


4.根据权利要求3所述的方法,所述基于TextRank算法计算语料文档包括的各单词的权重值,包括:
对语料文档进行分句处理,得到若干分句;
针对每一分句,进行分词处理;
将预设单词滑动窗口对分词处理后的每一分句进行滑动,并在每次滑动后,将所述预设单词滑动窗口内出现的具有相邻关系两个单词组成单词对,并统计所述单词对的共现次数;
基于统计的所述单词对的共现次数,以及TextRank算法公式迭代计算语料文档包括的各单词的权重值。


5.根据权利要求4所述的方法,所述针对每一分句,进行分词处理,包括:
通过预设分词模型对每一分句进行分词处理,得到与每一分句分别对应的单词集合;其中,所述单词集合包括,每一分句包括的单词,以及各单词的词性;
基于所述各单词的词性,对所述单词集合中的单词进行过滤。


6.根据权利要求5所述的方法,所述方法还包括以下操作中的任一或几项的组合:
过滤所述单词集合中包括的无意义字符;过滤所述单词集合中包括的特殊字符;对所述单词集合中的单词进行简繁转换;将所述单词集合中具有相同含义的不同单词用同一单词表示。


7.一种关键词提取装置,包括:
确定模块,基于TextRank算法从与预设的多个目标...

【专利技术属性】
技术研发人员:张洪
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1