基于WordNet以及潜在语义分析的文本分类方法技术

技术编号:12304361 阅读:145 留言:0更新日期:2015-11-11 13:34
基于WordNet以及潜在语义分析的文本分类方法涉及计算机领域。本发明专利技术考虑文本中单词的同义词及上下位词,同义词及上下位词根据相似度增加各自词频,从而减少多词同义对分类的影响。不同于一般方法中对一个特征矩阵以单一方法做特征提取,我们通过对WordNet调用参数的调整获得多个特征矩阵,使用遗传算法(GA)辅助潜在语义分析(LSA)共同完成特征提取,得到更好的特征矩阵,从而提高了分类效果。

【技术实现步骤摘要】

本专利技术涉及计算机领域,更具体地涉及基于WordNet及潜在语义分析的文本分类方法。
技术介绍
文本分类(Text categorizat1n)是指在给定分类体系下,根据文本内容自动确定文本类别的过程,按预先指定的标准对文档进行归类这样用户不仅可以方便地浏览文档而且可以通过类别来查询所需的文档,20世纪90年代以前,占主导地位的文本分类方法一直是基于知识工程的分类方法,即由专业人员手工进行分类。人工分类非常费时,效率非常低。90年代以来,众多的统计方法和机器学习方法应用于自动文本分类,文本分类技术的研究引起了研究人员的极大兴趣。目前在国内也已经开始对中文文本分类进行研究,并在信息检索、Web文档自动分类、数字图书馆、自动文摘、分类新闻组、文本过滤、单词语义辨析以及文档的组织和管理等多个领域得到了初步的应用。文本分类的研究可以追溯到上世纪六十年代,早期的文本分类主要是基于知识工程(Knowledge Engineering),通过手工定义一些规则来对文本进行分类,这种方法费时费力,且必须对某一领域有足够的了解,才能写出合适的规则。到上世纪九十年代,随着网上在线文本的大量涌现和机器学习的兴起,大规模的文本(包括网页)分类和检索重新引起研究者的兴趣。文本分类系统首先通过在预先分类好的文本集上训练,建立一个判别规则或分类器,从而对未知类别的新样本进行自动归类。大量的结果表明它的分类精度比得上专家手工分类的结果,并且它的学习不需要专家干预,能适用于任何领域的学习,使得它成为目前文本分类的主流方法。在文本分类的实验研究中,多词同义和一词多义问题的存在导致许多类别不能完全划分出来,现有的研究更多的集中于在特征提取阶段对特征词之间做相似度的计算来降低多词同义问题对分类效果的影响。而在特征提取阶段,普遍采用一种方法处理,更多的研究集中在对分类器的优化上。在《KnowledgeBased Systems)) 2008 年版上一篇由 Bo Yu, Zong-benXu, Cheng-hua Li 所著的论文 “Latent semantic analysis for text categorizat1nusing neural network ; ”中提出了以LSA进行特征提取,通过调整维度K来寻找分类效果最佳的特征矩阵。文章先将1000个文本集分成2部分,600个为训练集,400个为测试集,预处理后以TF-1DF值为每个单词分配权重,将特征矩阵降维至1200,而后使用LSA方法将特征矩阵降维至K (K为实验所需值,K〈400),之后选择神经网络方法训练分类器。文中的实验是在传统的文本分类流程中(图1),试图寻找效果更好的特征矩阵。具体地,他在训练分类器阶段增加了一个循环,通过改变特征矩阵的维度来寻找分类效果最佳的特征矩阵。(图2)。上述方法虽然试图寻找最佳的特征矩阵,但从一开始并没有考虑语义,以及同义词及上下位词对特征矩阵的影响,而且在特征提取上只采用LSA方法,但目前的研究表明两种方法共同进行特征提取的效果要优于一种方法。
技术实现思路
本专利技术是鉴于以上所述的一个或多个问题做出的。包括:文本预处理;特征提取;训练SVM分类器。其特征在于:在文本预处理阶段,调用WordNet对文本中单词消除歧义,并依层数参数H,如H =2,在上下距离2层以内限制WordNet取上下位词和同义词,以相似度作为权重,增加文本中单词的同义词和上下位词的词频,得到考虑同义词和上下位词的词频矩阵;在特征提取阶段,首先过滤掉词频矩阵中词频低的单词,剩下的单词组成子集,子集维度为500-1000之间,而后采用潜在语义分析对子集矩阵进行降维,得到特征矩阵,之后通过遗传算法根据分类结果Fl-measure的值对特征矩阵进行调整,得到分类效果最佳的特征矩阵。训练SVM分类器与预处理和特征提取构成一个整体循环,通过调整参数H和特征矩阵,得到分类效果最佳的分类器。Fl-measure用于评价分类器效果,是查准率和查全率的一个综合衡量,为Fl-measure = 2rp/(r+p),其中r为查全率,p为查准率;具体说明如下:类别ci的分类结果中,正确分为该类的样本数目是a,错误划归为该类的样本数目是b,将该类错误划归为它类的样本数目是C,总共包含C类。召回率r:recall = a/(a+c),衡量的是类别的查全率。准确率P -precis1n = a/ (a+b),衡量的是类别的查准率。Fl-measure:衡量的是查全率和查准率的综合,以及对它们的偏向程度。训练SVM分类器与预处理和特征提取构成一个整体循环,通过调整参数H和特征矩阵,得到分类效果最佳的分类器。以相似度作为权重,增加文本中单词的即同义词和上下位词的词频,考虑了单词的语义,降低了多词同义的影响。(例如:单词A出现在文本,通过WordNet,发现单词B是A的同义词,相似度为0.6,那么计算词频时,A的词频+1,B的词频+0.6。)以相似度作为权重,增加文本中单词的即同义词和上下位词的词频,考虑了单词的语义,降低了多词同义的影响。(例如:单词A出现在文本,通过WordNet,发现单词B是A的同义词,相似度为0.6,那么计算词频时,A的词频+1,B的词频+0.6。)根据本专利技术一个实施例的基于WordNet及潜在语义分析的文本分类方法包括:文本预处理,通过WordNet对文本中单词消歧义;取同义词及上下位词,通过WordNet选取单词的同义词和上下位次,以参数H限制选取的层数范围;以相似度为权重,调整单词的同义词和上下位词的词频,得到考虑语义的词频矩阵;训练、测试SVM分类器并以遗传算法(GA)调整特征矩阵,得到分类效果最佳的特征矩阵。本专利技术相对于现有的文本分类方法,考虑了单词在文本中的语义,通过相似度调整并得到词频矩阵,在特征选择阶段,不同于一般方法,我们采用了潜在语义分析(LSA)和遗传算法(GA)两种方法共同选择出分类效果最佳的特征矩阵。【附图说明】结合附图,从下面对本专利技术实施例的详细描述,将更好地理解本专利技术,其中:图1传统文本分类器训练方法图2本专利技术分类器训练方法示意图图3示出了根据本专利技术一个实施例的基于WordNet以及潜在语义分析(LSA)的文本分类方法的简要输入输出框图;图4示出了根据本专利技术一个实施例的基于WordNet以及潜在语义分析(LSA)的文本分类方法的简要流程图;图5 (a)示出了根据本专利技术实施例的基于WordNet以及潜在语义分析(LSA)的文本分类方法的一详细例图之一。图5 (b)示出了根据本专利技术实施例的基于WordNet以及潜在语义分析(LSA)的文本分类方法的一详细例图之二。【具体实施方式】下面将详细描述本专利技术各个方面的特征和示例性实施例。下面的描述涵盖了许多具体细节,以便提供对本专利技术的全面理解。但是,对于本领域技术人员来说显而易见的是,本专利技术可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本专利技术的示例来提供对本专利技术更清楚的理解。本专利技术绝不限于下面所提出的任何具体配置和算法,而是在不脱离本专利技术的精神的前提下覆盖了相关元素、部件和算法的任何修改、替换和改进。鉴于以上所述的传统文本分类方法对于多词同义问题不能很好的解本文档来自技高网
...

【技术保护点】
基于WordNet以及潜在语义分析的文本分类方法,包括:文本预处理;特征提取;训练SVM分类器。其特征在于:在文本预处理阶段,调用WordNet对文本中单词消除歧义,并依层数参数H在上下距离2层以内限制WordNet取上下位词和同义词,以相似度作为权重,增加文本中单词的同义词和上下位词的词频,得到考虑同义词和上下位词的词频矩阵;在特征提取阶段,首先过滤掉词频矩阵中词频低的单词,剩下的单词组成子集,子集维度为500‑1000之间,而后采用潜在语义分析对子集矩阵进行降维,得到特征矩阵,之后通过遗传算法根据分类结果F1‑measure的值对特征矩阵进行调整,得到分类效果最佳的特征矩阵;F1‑measure用于评价分类器效果,F1‑measure=2rp/(r+p),其中r为查全率,p为查准率;训练SVM分类器与预处理和特征提取构成一个整体循环,通过调整参数H和特征矩阵,得到分类效果最佳的分类器。

【技术特征摘要】

【专利技术属性】
技术研发人员:赵旭李建强刘璐许泽文莫豪文
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1