本发明专利技术涉及一种文本关键词的提取方法,它是改进TF-IDF方法,通过篇频修正法提取单篇文本的关键词,提高从单篇文本中提取关键词的精度;通过词频修正法或对比选择法,提取同类文本集合中共同的领域关键词。本发明专利技术的方法有效地提高单篇文本的关键词提取精度,能够提取领域关键词,从而提高文本领域知识获取的性能与领域知识本体建立的效果,提高网络资源服务的质量与效果。
【技术实现步骤摘要】
本专利技术涉及一种计算机自动提取文本关键词的方法,更具体地说,涉及对TF-IDF公式提取文本关键词的若干改进方法。
技术介绍
文本知识获取与表示的基本单元之一是文本的关键词。文本关键词自动获取的精度直接影响到文本知识获取的性能与文本本体建立的质量。属于一个领域的多个文本所共现的类关键词呈现该领域文本的最低层知识,是该领域文本知识表示与获取的基本单元之一。文本领域关键词的自动获取的精度直接影响到文本领域知识获取的性能与领域知识本体建立的效果,从而影响网络资源服务的质量与效果。单篇文本关键词与多篇文本领域关键词在文本自动分类、聚类、资源智能服务等方面有着广泛的应用,它不仅是进行这些工作不可缺少的基础和前提,也是语义网格与知识网格中语义表示、知识获取与本体建设的最基本元素之一。目前尚未见对领域关键词的研究论文,而目前主要运用于单个文本关键词提取研究的主要方法有TF-IDF方法、互信息方法、朴素贝叶斯分类法,最大熵模型法、最大似然性和前缀树等方法等。TF-IDF方法提取关键词的精度还不够高。
技术实现思路
本专利技术的目的在于针对已有技术存在的不足,提供一种改进的文本关键词提取方法,能提高从单篇文本中提取关键词的精度,并能提取同类文本集合中共同领域关键词。为了达到上述的目的,本专利技术的构思如下本专利技术就是从分析TF-IDF公式提取关键词的基础上,提出通过篇频修正法提高单篇文本关键词获取精度,通过词频修正法和对比选择法提取同类文本集中共同的领域关键词。TF-IDF公式的本质就是通过比较,在提取文本中如果一个词的词频越高,而在无关文本中的出现次数越低的话,那么它越有可能成为提取文本中的关键词。但是在TF-IDF公式中,无论一个关键词在一篇无关文本中出现几次,只要出现了,篇频就要加1,例如“grid”一词在被提取的文本中出现30次,但在10篇无关文本中,每篇只出现了一次,但是此时系统得到的篇频是10,而另一个词“service”也在被提取的文本中出现了30次,但在10篇无关文本中,每篇却出现了20次,此时的篇频也是10。我们可以直观地看到“grid”应该比“service”更像关键词,但是在系统计算的时候两者的值是一样的。为了解决以上问题,本专利技术提出在导入无关文本时,先对每篇无关文本求词频,把词频为1的词删去,即统计篇频时,只考虑关键词出现次数大于等于2的文本数。领域关键词是多篇同类单篇文本关键词的交集,传统的TF-IDF关键词提取公式虽然可以取得不错的效果,但是在求文本领域关键词时,可能把属于单篇文章的关键词错认为是领域关键词,例如“SARS”一词是某篇描述网格运用于“SARS”研究方面的文章的关键词,因此在这篇文本中“SARS”一词有很高的词频,而且在无关文本中“SARS”出现的频率很低,在进行文本领域(类)关键词提取时,利用TF-IDF公式计算相对词频时,“SARS”一词就会拥有比较高的权重,系统就会认为它是领域关键词。但是事实上“SARS”的确属于该篇文本的关键词,但是它不可能属于网格这类文本的关键词。所以本专利技术在进行TF-IDF公式提取领域关键词前,先对词频进行修正。传统的TF-IDF公式提取领域关键词时,是先把每类中的所有文章合并成一篇文章,在统一计算各词的词频,这样的话就引起了上面的错误,因为只要在一篇文本中一个词的绝对词频偏高的话,那么在这个领域中这个词的绝对词频也就偏高,可能导致最后求得的相对词频也偏高。所谓的词频修正法就是在求文本领域关键词的词频时,先在每篇文本求词频,然后再求出每个词在所有文章中的平均词频,最后把该词在每篇文本中的词频逐一与平均词频进行比较,把大于或小于平均词频一定比例的词频出去,再求该词词频的总和,获得一个最终的词频进行TF-IDF公式的计算。本专利技术提出用对比选择法提取领域关键词,所谓的对比选择法就是从文本领域关键词的定义出发,先对每篇文本求出单篇文本的关键词,再通过对比,选出共同拥有率比较高的词,作为领域关键词。共同拥有率指的是在领域关键词提取时,某一单词为单篇文本关键词的次数与所有属于该领域的文本数之比。根据上述的专利技术构思,本专利技术采用下述技术方案一种文本关键词提取方法,其特征在于改进TF-IDF方法,通过篇频修正法提取单篇文本的关键词,提高从单篇文本中提取关键词的精度;通过词频修正法或对比选择法提取同类文本集合中共同的领域关键词。上述的篇频修正法就是去除无关文本集中所有出现频率为1的词,获得一个最终的篇频进行TF-IDF公式提取单篇文本中的关键词;其具体步骤如下(1)打开训练文本集中的一篇无关文档;(2)分词、词性标注;(3)通过“废词”表,提取有意义的实词;(4)统计所有实词出现的绝对频率;(5)删除绝对词频为1的实词;(6)用TF-IDF公式计算单篇文本中的所有实词的权重,从中提取一定比例的关键词。上述的词频修正法就是在求领域关键词的词频时,先对每篇文本求词频,然后在求出每个词在所有文档中的平均词频,最后把该词在每篇文档中的词频逐一与平均词频进行比较,一定比例地除去大于或小于平均词频的词频,再求该词词频的总和,获得一个最终的词频,对同类文本集合运用TF-IDF公式提取领域关键词;其具体步骤如下(1)打开同类文本集中的所有文档;(2)分词、词性标注;(3)通过“废词”表,提取有意义的实词;(4)统计一个实词出现的平均词频;(5)删除超过平均词频一定范围的所在文本中的词频;(6)求和剩余词频;(7)用TF-IDF公式计算同类文本集中的所有实词的权重,从中提取一定比例的领域关键词。上述的对比选择法就是提取同类文本集合中共同的领域关键词的方法,先对每篇文本运用TF-IDF公式,求出单篇文本的关键词,再通过对比,选出共同拥有率比较高的词,作为领域关键词,共同拥有率是指在领域关键词提取时,某一关键词在同类文本集合中出现的文本数与该文本集合的文本数之比;其具体步骤如下(1)打开同类文本集中的所有文档;(2)预处理(分词、词性标注); (3)通过“废词”表,提取有意义的实词;(4)用TF-IDF公式计算同类文本集中的所有实词的权重,从中提取一定比例的关键词;(5)统计所有实词的共同拥有率;(6)选择共同拥有率高于设定阈值的关键词为领域关键词。本专利技术与现有技术相比较,具有如下显而易见的突出实质性特点和优点本专利技术在TF-IDF方法提取关键词的基础上,通过篇频修正法、词频修正法和对比选择法提高从单篇文本提取关键词的精度,或提取同类文本集合中共同的领域关键词。本专利技术的特征在于能有效地避免在无关文档中仅出现一次的关键词被统计到篇频中;通过以一个关键词在所有文档中的平均词频为阈值,去除出现该关键词过大或过小的文档后,得到的绝对词频之和作为修正后的词频,用于提取领域关键词,从而避免一个关键词在一篇文档中频繁出现导致绝对词频很高而被计入领域关键词;通过对每篇文本求出单篇文本的关键词,再通过对比,选出共同拥有率比较高的词,作为领域关键词,从而避免一个关键词在一篇文档中频繁出现导致绝对词频很高而被计入领域关键词。该方法可以有效地提高单篇文本的关键词提取精度,或提取领域关键词,从而提高文本领域知识获取的性能与领域知识本体建立的效果,提高网络资源服务的质量与效果。附图说明图1是篇频修正法提取关键词程序流程本文档来自技高网...
【技术保护点】
一种文本关键词的提取方法,其特征在于改进TF-IDF方法,通过篇频修正法提取单篇文本的关键词,提高从单篇文本中提取关键词的精度;通过词频修正法或对比选择法提取同类文本集合中共同的领域关键词。
【技术特征摘要】
1.一种文本关键词的提取方法,其特征在于改进TF-IDF方法,通过篇频修正法提取单篇文本的关键词,提高从单篇文本中提取关键词的精度;通过词频修正法或对比选择法提取同类文本集合中共同的领域关键词。2.按权利要求1所述的文本关键词的提取方法,其特征在于所述的篇频修正法就是去除无关文本集中所有出现频率为1的词,获得一个最终的篇频进行TF-IDF公式提取单篇文本中的关键词;其具体步骤如下(1)打开训练文本集中的一篇无关文档;(2)分词、词性标注;(3)通过“废词”表,提取有意义的实词;(4)统计所有实词出现的绝对频率;(5)删除绝对词频为1的实词;(6)用TF-IDF公式计算单篇文本中的所有实词的权重,从中提取一定比例的关键词。3.按权利要求1所述的文本关键词的提取方法,其特征在于所述的词频修正法就是在求领域关键词的词频时,先对每篇文本求词频,然后在求出每个词在所有文档中的平均词频,最后把该词在每篇文档中的词频逐一与平均词频进行比较,一定比例地除去大于或小于平均词频的词频,再求该词词频的总和,获得一个最终的词频,对同类文本集合运用TF-...
【专利技术属性】
技术研发人员:方宁,刘洁,骆祥峰,徐炜民,
申请(专利权)人:上海大学,
类型:发明
国别省市:31[中国|上海]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。