一种特征提取方法及装置制造方法及图纸

技术编号:15437223 阅读:195 留言:0更新日期:2017-05-25 19:23
本发明专利技术提供一种特征提取方法及装置,可以从待处理文本中提取各个词,并从待处理文本包含的各个主题中选取至少一个目标主题,根据各个词与各个目标主题的相关度,得到各个词与待处理文本的相关度,然后根据各个词与待处理文本的相关度,从各个词中选取至少一个词作为待处理文本的特征。例如根据各个词与待处理文本的相关度,选取与待处理文本的相关度大于其他词与待处理文本的相关度的预设个数的词作为待处理文本的特征,使得选取的特征与待处理文本的主要内容相关,也就是说在提取待处理文本的特征时,不仅考虑词自身的重要性还考虑词与待处理文本的主要内容的相关度,从而从提取的词中过滤掉与主要内容无关的词,提高特征提取的准确度。

Method and device for extracting features

The present invention provides a method and apparatus for feature extraction, can be extracted from each word to be processed in the text, and selects at least one target theme from various themes contained in the text to be processed, according to the correlation degree of each word and each target subject, each word and to text the correlation, and then according to relevant the degree of each word to be processed text, select at least one word from each word in the text to be treated as a feature. For example, according to the correlation degree of each word and text processing, selection and the number of words to be processed preset text related degree is bigger than the other words and to be treated as text related to features of the processing document, the selected features associated with the main content to text, that is to say to be treated in the text feature when extracting the relevant importance of considering not only the words of their own words and also consider the main content of the text to be processed, so as to filter out irrelevant and the main content of the words extracted from the word, to improve the accuracy of feature extraction.

【技术实现步骤摘要】
一种特征提取方法及装置
本专利技术属于文本挖掘
,更具体的说,尤其涉及一种特征提取方法及装置。
技术介绍
随着互联网的日益普及,文本信息迅速膨胀。例如,在Internet(网络)上每天有数十万的网页更新,数百万新的网页加入,使得Internet上的信息丰富而又复杂。如何有效地组织和管理这些信息,并快速、准确、全面地从众多文本信息中挖掘出用户所需要的信息是当前文本挖掘领域面临的一大挑战。在文本挖掘领域中,文本特征提取是文本挖掘领域中的关键环节,而词作为自然语言的理解单元,会作为文本特征被提取出来。目前文本特征的提取方式是基于词频的方式,即根据词在文本中出现的频率来提取,这种提取方式仅考虑文本中单个词的重要性,从而降低特征提取的准确度。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种特征提取方法及装置,用于提高特征提取的准确度。具体的,技术方案如下:本专利技术提供一种特征提取方法,所述方法:从待处理文本中提取各个词;获取所述待处理文本包含的各个主题,并从所述各个主题中选取至少一个目标主题;计算所述各个词与各个目标主题的相关度;根据所述各个词与各个目标主题的相关度,得到所述各个词与所述待处理文本的相关度;根据所述各个词与所述待处理文本的相关度,从所述各个词中选取至少一个词作为所述待处理文本的特征。优选地,所述计算所述各个词与各个目标主题的相关度,包括:计算各个目标主题中各个词的概率和所述待处理文本中各个目标主题的概率;计算所述各个目标主题在所述待处理文本中出现的频率;计算所述各个词在所述待处理文本中出现的频率;根据所述各个目标主题在所述待处理文本中出现的频率、所述各个词在所述待处理文本中出现的频率、所述各个目标主题中各个词的概率和所述待处理文本中各个目标主题的概率,计算所述各个词与各个目标主题的相关度。优选地,所述计算所述各个目标主题在所述待处理文本中出现的频率,包括:计算所述待处理文本出现的频率;根据所述待处理文本中各个目标主题的概率和所述待处理文本出现的频率,计算所述各个目标主题在所述待处理文本中出现的频率。优选地,所述计算所述各个词在所述待处理文本中出现的频率,包括:计算所述各个词的词频和从所述待处理文本中提取的词的总数;根据所述各个词的词频和从所述待处理文本中提取的词的总数,计算所述各个词在所述待处理文本中出现的频率。优选地,所述从所包含的各个主题中选取至少一个目标主题,包括:根据所述待处理文本中各个主题的概率,对各个主题按照概率由大到小的方式进行排序;选取排序在其他主题前的预设数量的主题分别作为目标主题。本专利技术还提供一种特征提取装置,所述装置:提取单元,用于从待处理文本中提取各个词;主题获取单元,用于获取所述待处理文本包含的各个主题,并从所述各个主题中选取至少一个目标主题;主题相关度计算单元,用于计算所述各个词与各个目标主题的相关度;文本相关度计算单元,用于根据所述各个词与各个目标主题的相关度,得到所述各个词与所述待处理文本的相关度;特征选取单元,用于根据所述各个词与所述待处理文本的相关度,从所述各个词中选取至少一个词作为所述待处理文本的特征。优选地,所述主题相关度计算单元,包括:第一计算子单元,用于计算各个目标主题中各个词的概率和所述待处理文本中各个目标主题的概率;第二计算子单元,用于计算所述各个目标主题在所述待处理文本中出现的频率;第三计算子单元,用于计算所述各个词在所述待处理文本中出现的频率;相关度计算子单元,用于根据所述各个目标主题在所述待处理文本中出现的频率、所述各个词在所述待处理文本中出现的频率、所述各个目标主题中各个词的概率和所述待处理文本中各个目标主题的概率,计算所述各个词与各个目标主题的相关度。优选地,所述第二计算子单元,具体用于计算所述待处理文本出现的频率,并根据所述待处理文本中各个目标主题的概率和所述待处理文本出现的频率,计算所述各个目标主题在所述待处理文本中出现的频率。优选地,所述第三计算子单元,具体用于计算所述各个词的词频和从所述待处理文本中提取的词的总数,并根据所述各个词的词频和从所述待处理文本中提取的词的总数,计算所述各个词在所述待处理文本中出现的频率。优选地,所述主题获取单元,具体用于根据所述待处理文本中各个主题的概率,对各个主题按照概率由大到小的方式进行排序,并选取排序在其他主题前的预设数量的主题分别作为目标主题。与现有技术相比,本专利技术提供的上述技术方案具有如下优点:通过上述技术方案,对于任一待处理文本,可以从待处理文本中提取各个词,并从待处理文本包含的各个主题中选取至少一个目标主题,根据各个词与各个目标主题的相关度,得到各个词与待处理文本的相关度,然后根据各个词与待处理文本的相关度,从各个词中选取至少一个词作为待处理文本的特征。例如根据各个词与待处理文本的相关度,选取与待处理文本的相关度大于其他词与待处理文本的相关度的预设个数的词作为待处理文本的特征,使得选取的特征与待处理文本的主要内容相关,也就是说在提取待处理文本的特征时,不仅考虑词自身的重要性还考虑词与待处理文本的主要内容的相关度,从而从提取的词中过滤掉与主要内容无关的词,提高特征提取的准确度。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例提供的特征提取方法的流程图;图2是本专利技术实施例提供的获取词与目标主题的相关度的流程图;图3是本专利技术实施例提供的特征提取装置的结构示意图;图4是本专利技术实施例提供的特征提取装置中主题相关度获取单元的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参阅图1,其示出了本专利技术实施例提供的特征提取方法的一种流程图,用于提取与目标主题相关的词作为待处理文本的特征,以提供特征提取的准确度。具体的,本专利技术实施例提供的特征提取方法可以包括以下步骤:101:从待处理文本中提取各个词。可以理解的是:待处理文本是当前需要进行特征提取的文本,其可以是由至少一条句子组成,而词是待处理文本中组成句子的最小单位,在获取到待处理文本后,可以从待处理文本中提取出每条句子中的每个词。在本专利技术实施例中,可以通过分词技术对每条句子进行分词处理,以从每条句子中提取到对应的词。102:获取待处理文本包含的各个主题,并从各个主题中选取至少一个目标主题。其中主题是待处理文本表现的内容,一篇待处理文本包含多个主题,但是并不是每个主题表现的内容是待处理文本的主要内容,因此在获取到各个主题后需要从中选取出表现待处理文本的主要内容的目标主题。在本专利技术实施例中,选取目标主题的一种可行方式是:根据待处理文本中各个主题的概率,对各个主题按照概率由大到小的方式进行排序,选取排序在其他主题前的预设数量的主题分别作为目标主题。其本文档来自技高网...
一种特征提取方法及装置

【技术保护点】
一种特征提取方法,其特征在于,所述方法:从待处理文本中提取各个词;获取所述待处理文本包含的各个主题,并从所述各个主题中选取至少一个目标主题;计算所述各个词与各个目标主题的相关度;根据所述各个词与各个目标主题的相关度,得到所述各个词与所述待处理文本的相关度;根据所述各个词与所述待处理文本的相关度,从所述各个词中选取至少一个词作为所述待处理文本的特征。

【技术特征摘要】
1.一种特征提取方法,其特征在于,所述方法:从待处理文本中提取各个词;获取所述待处理文本包含的各个主题,并从所述各个主题中选取至少一个目标主题;计算所述各个词与各个目标主题的相关度;根据所述各个词与各个目标主题的相关度,得到所述各个词与所述待处理文本的相关度;根据所述各个词与所述待处理文本的相关度,从所述各个词中选取至少一个词作为所述待处理文本的特征。2.根据权利要求1所述的方法,其特征在于,所述计算所述各个词与各个目标主题的相关度,包括:计算各个目标主题中各个词的概率和所述待处理文本中各个目标主题的概率;计算所述各个目标主题在所述待处理文本中出现的频率;计算所述各个词在所述待处理文本中出现的频率;计算所述各个目标主题在所述待处理文本中出现的频率、所述各个词在所述待处理文本中出现的频率、所述各个目标主题中各个词的概率和所述待处理文本中各个目标主题的概率,计算所述各个词与各个目标主题的相关度。3.根据权利要求2所述的方法,其特征在于,所述计算所述各个目标主题在所述待处理文本中出现的频率,包括:计算所述待处理文本出现的频率;根据所述待处理文本中各个目标主题的概率和所述待处理文本出现的频率,计算所述各个目标主题在所述待处理文本中出现的频率。4.根据权利要求2所述的方法,其特征在于,所述计算所述各个词在所述待处理文本中出现的频率,包括:计算所述各个词的词频和从所述待处理文本中提取的词的总数;根据所述各个词的词频和从所述待处理文本中提取的词的总数,计算所述各个词在所述待处理文本中出现的频率。5.根据权利要求1所述的方法,其特征在于,所述从所包含的各个主题中选取至少一个目标主题,包括:根据所述待处理文本中各个主题的概率,对各个主题按照概率由大到小的方式进行排序;选取排序在其他主题前的预设数量的主题分别作为目标主题。6.一种特征提取装置,其特征在于,所述装置...

【专利技术属性】
技术研发人员:董超
申请(专利权)人:东软集团股份有限公司
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1