关键词提取方法和装置制造方法及图纸

技术编号:22944581 阅读:53 留言:0更新日期:2019-12-27 17:10
本发明专利技术提供一种关键词提取方法和装置。该方法,包括:对待处理文章集合中的每篇文章进行分词处理,获取每篇文章包含的词语;针对每个所述词语,确定包含所述词语的文章所构成的集合;根据所述集合,确定每个所述词语的价值,所述价值用于表征每个所述词语区分主题的能力;根据每个所述词语的价值,确定待处理文章集合中每篇文章的关键词。无需预先建立关键词数据库,便可获得最能代表文章主题的关键词,提高了关键词提取的可靠性。

【技术实现步骤摘要】
关键词提取方法和装置
本专利技术涉及数据处理技术,尤其涉及一种关键词提取方法和装置。
技术介绍
在资讯类的手机应用中,需要给文章分类或打标签,以方便对文章进行归类,为后续针对不同用户提供个性化推送服务提供基础的数据支撑,在给文章分类或打标签过程中最基础的一项工作就是文章关键词的提取。现有技术提供的提取关键词的方法为,从文本中提取至少一组词组,将每组词组和预设关键词数据库进行匹配,将匹配度最高的一组词组中的词语作为该文本的关键词。然而,上述方法提取的关键词不能准确代表文本的主题,可靠性不高。
技术实现思路
本专利技术提供一种关键词提取方法和装置,用以提高关键词的可靠性。本专利技术提供一种关键词提取方法,包括:对待处理文章集合中的每篇文章进行分词处理,获取每篇文章包含的词语;针对每个所述词语,确定包含所述词语的文章所构成的集合;根据所述集合,确定每个所述词语的价值,所述价值用于表征每个所述词语区分主题的能力;根据每个所述词语的价值,确定待处理文章集合中每篇文章的关键词。可选的,所述根据所述集合,确定每个所述词语的价值,包括:根据所述集合,确定每个词语和其他词语的相关系数,所述相关系数用于表征每个所述词语与其他词语共同区分主题的能力;根据所述相关系数,确定每个所述词语的价值。可选的,所述根据所述集合,确定每个词语和其他词语的相关系数,包括:采用公式:Simk,l=|Uk∩Ul|/|Uk∪Ul|计算每个词语和其他词语的相关系数,其中Simk,l为词语k和词语l的相关系数,Uk为包含词语k的文章的集合,Ul为中包含词语l的文章的集合。可选的,所述根据所述相关系数,确定每个所述词语的价值,包括:采用公式:确定每个所述词语的价值,其中,Valuek为词语k的价值,Q为所有词语构成的集合。可选的,所述根据每个所述词语的价值,确定待处理文章集合中每篇文章的关键词,包括:采用公式:Kvaluei,k=Valuek×counti,k计算每个所述词语在每篇文章中的价值,其中,Kvaluei,k为词语k在文章i中的价值,counti,k为词语k在文章i中出现的次数;针对每篇文章,将所包含的词语在所述文章中的价值从大到小排列,取排在前面的预设数量个词语作为关键词。可选的,所述方法还包括:基于每篇文章的关键词,对所述每篇文章进行分类。可选的,所述词语为名词、动词或者形容词。本专利技术提供一种关键词提取装置,包括:获取模块,用于对待处理文章集合中的每篇文章进行分词处理,获取每篇文章包含的词语;确定模块,用于针对每个所述词语,确定包含所述词语的文章所构成的集合;所述确定模块,还用于根据所述集合,确定每个所述词语的价值,所述价值用于表征每个所述词语区分主题的能力;所述确定模块,还用于根据每个所述词语的价值,确定待处理文章集合中每篇文章的关键词。可选的,所述确定模块,具体用于根据所述集合,确定每个词语和其他词语的相关系数,所述相关系数用于指示每个词语与其他词语同时出现的概率大小;还具体用于根据所述相关系数,确定每个所述词语的价值。本专利技术提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现上述关键词提取方法。本专利技术提供一种键词提取装置,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来实现上述关键词提取方法。本专利技术提供的关键词提取方法,首先通过对待处理文章集合中的每篇文章进行分词处理,获取每篇文章包含的词语;然后针对每个所述词语,确定包含所述词语的文章所构成的集合;然后根据所述集合,确定每个所述词语的价值;最后根据每个所述词语的价值,确定待处理文章集合中每篇文章的关键词。无需预先建立关键词数据库,便可获得最能代表文章主题的关键词,提高了关键词提取的可靠性。附图说明图1为本专利技术提供的关键词提取方法的实施例一的流程图;图2为本专利技术提供的关键词提取方法的实施例二的流程图;图3为本专利技术提供的关键词提取装置的实施例一的结构示意图;图4为本专利技术提供的关键词提取装置的硬件结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。对于资讯类手机应用,在给文章分类或打标签过程中最基础的一项工作就是文章关键词的提取。现有技术提供的提取关键词的方法为,从文本中提取至少一组词组,将每组词组和预设关键词数据库进行匹配,将匹配度最高的一组词组中的词语作为该文本的关键词。然而,现有技术中的这种方法一定程度上要依赖预先建立的关键词数据库,关键词数据库不能及时更新时,上述方法提取到的关键词往往不能准确代表文本所要表达的主题,进而,基于此方法提取到的关键词进行文本分类时,容易导致分类错误。本专利技术提供一种关键词提取方法,无需预先建立关键词数据库,通过直接计算文章中包含的每个词语区分主题的能力,便可获得最能代表文章主题的关键词,提高了关键词提取的可靠性。下面以具体地实施例对本专利技术的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本专利技术的实施例进行描述。图1为本专利技术提供的关键词提取方法的实施例一的流程图,如图1所示,本实施例提供的关键词提取方法,包括:S101、对待处理文章集合中的每篇文章进行分词处理,获取每篇文章包含的词语。顾名思义,分词处理指将一串汉字序列切分成单独的词语,本实施例中经过分词处理后的词语可以是名词、动词或者形容词。举例来说,一串汉字序列为“打字最精准、界面最个性化的输入法”。对该串汉字序列进行分词处理后,得到的词语为:打字,精准,界面,个性化,输入法。其中,待处理文章集合中文章的篇数为至少一篇,以待处理文章集合中文章的篇数为4篇为例进行说明,对该4篇文章进行分词处理后得到的词语可用表1示意。文章1词a词b词k词l文章2词a词k词l词c文章3词a词c词d词e文章4词a词b词c词l表1由表1所示,对文章1进行分词处本文档来自技高网...

【技术保护点】
1.一种关键词提取方法,其特征在于,包括:/n对待处理文章集合中的每篇文章进行分词处理,获取每篇文章包含的词语;/n针对每个所述词语,确定包含所述词语的文章所构成的集合;/n根据所述集合,确定每个所述词语的价值,所述价值用于表征每个所述词语区分主题的能力;/n根据每个所述词语的价值,确定待处理文章集合中每篇文章的关键词。/n

【技术特征摘要】
1.一种关键词提取方法,其特征在于,包括:
对待处理文章集合中的每篇文章进行分词处理,获取每篇文章包含的词语;
针对每个所述词语,确定包含所述词语的文章所构成的集合;
根据所述集合,确定每个所述词语的价值,所述价值用于表征每个所述词语区分主题的能力;
根据每个所述词语的价值,确定待处理文章集合中每篇文章的关键词。


2.根据权利要求1所述的方法,其特征在于,所述根据所述集合,确定每个所述词语的价值,包括:
根据所述集合,确定每个词语和其他词语的相关系数,所述相关系数用于表征每个所述词语与其他词语共同区分主题的能力;
根据所述相关系数,确定每个所述词语的价值。


3.根据权利要求2所述的方法,其特征在于,所述根据所述集合,确定每个词语和其他词语的相关系数,包括:
采用公式:
Simk,l=|Uk∩Ul|/|Uk∪Ul|
计算每个词语和其他词语的相关系数,其中Simk,l为词语k和词语l的相关系数,Uk为包含词语k的文章的集合,Ul为中包含词语l的文章的集合。


4.根据权利要求2所述的方法,其特征在于,所述根据所述相关系数,确定每个所述词语的价值,包括:
采用公式:



确定每个所述词语的价值,其中,Valuek为词语k的价值,Q为所有词语构成的集合。


5.根据权利要求2所述的方法,其特征在于,所述根据每个所述词语的价值,确定待处理文章集合中每篇文章的关键词,包括:
采用公式:
Kvaluei,k=Valuek×counti,k
计算每个所述词语在每篇文章中的价值,其中,Kvaluei,k为词语...

【专利技术属性】
技术研发人员:潘岸腾
申请(专利权)人:广州优视网络科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1