The present invention provides a method and apparatus for feature extraction, can be extracted from each word to be processed in the text, and selects at least one target theme from various themes contained in the text to be processed, according to the correlation degree of each word and each target subject, each word and to text the correlation, and then according to relevant the degree of each word to be processed text, select at least one word from each word in the text to be treated as a feature. For example, according to the correlation degree of each word and text processing, selection and the number of words to be processed preset text related degree is bigger than the other words and to be treated as text related to features of the processing document, the selected features associated with the main content to text, that is to say to be treated in the text feature when extracting the relevant importance of considering not only the words of their own words and also consider the main content of the text to be processed, so as to filter out irrelevant and the main content of the words extracted from the word, to improve the accuracy of feature extraction.
【技术实现步骤摘要】
一种特征提取方法及装置
本专利技术属于文本挖掘
,更具体的说,尤其涉及一种特征提取方法及装置。
技术介绍
随着互联网的日益普及,文本信息迅速膨胀。例如,在Internet(网络)上每天有数十万的网页更新,数百万新的网页加入,使得Internet上的信息丰富而又复杂。如何有效地组织和管理这些信息,并快速、准确、全面地从众多文本信息中挖掘出用户所需要的信息是当前文本挖掘领域面临的一大挑战。在文本挖掘领域中,文本特征提取是文本挖掘领域中的关键环节,而词作为自然语言的理解单元,会作为文本特征被提取出来。目前文本特征的提取方式是基于词频的方式,即根据词在文本中出现的频率来提取,这种提取方式仅考虑文本中单个词的重要性,从而降低特征提取的准确度。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种特征提取方法及装置,用于提高特征提取的准确度。具体的,技术方案如下:本专利技术提供一种特征提取方法,所述方法:从待处理文本中提取各个词;获取所述待处理文本包含的各个主题,并从所述各个主题中选取至少一个目标主题;计算所述各个词与各个目标主题的相关度;根据所述各个词与各个目标主题的相关度,得到所述各个词与所述待处理文本的相关度;根据所述各个词与所述待处理文本的相关度,从所述各个词中选取至少一个词作为所述待处理文本的特征。优选地,所述计算所述各个词与各个目标主题的相关度,包括:计算各个目标主题中各个词的概率和所述待处理文本中各个目标主题的概率;计算所述各个目标主题在所述待处理文本中出现的频率;计算所述各个词在所述待处理文本中出现的频率;根据所述各个目标主题在所述待处理文本中出现的 ...
【技术保护点】
一种特征提取方法,其特征在于,所述方法:从待处理文本中提取各个词;获取所述待处理文本包含的各个主题,并从所述各个主题中选取至少一个目标主题;计算所述各个词与各个目标主题的相关度;根据所述各个词与各个目标主题的相关度,得到所述各个词与所述待处理文本的相关度;根据所述各个词与所述待处理文本的相关度,从所述各个词中选取至少一个词作为所述待处理文本的特征。
【技术特征摘要】
1.一种特征提取方法,其特征在于,所述方法:从待处理文本中提取各个词;获取所述待处理文本包含的各个主题,并从所述各个主题中选取至少一个目标主题;计算所述各个词与各个目标主题的相关度;根据所述各个词与各个目标主题的相关度,得到所述各个词与所述待处理文本的相关度;根据所述各个词与所述待处理文本的相关度,从所述各个词中选取至少一个词作为所述待处理文本的特征。2.根据权利要求1所述的方法,其特征在于,所述计算所述各个词与各个目标主题的相关度,包括:计算各个目标主题中各个词的概率和所述待处理文本中各个目标主题的概率;计算所述各个目标主题在所述待处理文本中出现的频率;计算所述各个词在所述待处理文本中出现的频率;计算所述各个目标主题在所述待处理文本中出现的频率、所述各个词在所述待处理文本中出现的频率、所述各个目标主题中各个词的概率和所述待处理文本中各个目标主题的概率,计算所述各个词与各个目标主题的相关度。3.根据权利要求2所述的方法,其特征在于,所述计算所述各个目标主题在所述待处理文本中出现的频率,包括:计算所述待处理文本出现的频率;根据所述待处理文本中各个目标主题的概率和所述待处理文本出现的频率,计算所述各个目标主题在所述待处理文本中出现的频率。4.根据权利要求2所述的方法,其特征在于,所述计算所述各个词在所述待处理文本中出现的频率,包括:计算所述各个词的词频和从所述待处理文本中提取的词的总数;根据所述各个词的词频和从所述待处理文本中提取的词的总数,计算所述各个词在所述待处理文本中出现的频率。5.根据权利要求1所述的方法,其特征在于,所述从所包含的各个主题中选取至少一个目标主题,包括:根据所述待处理文本中各个主题的概率,对各个主题按照概率由大到小的方式进行排序;选取排序在其他主题前的预设数量的主题分别作为目标主题。6.一种特征提取装置,其特征在于,所述装置...
【专利技术属性】
技术研发人员:董超,
申请(专利权)人:东软集团股份有限公司,
类型:发明
国别省市:辽宁,21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。