基于WordNet以及潜在语义分析的文本分类方法技术

技术编号：12304361 阅读：159 留言：0更新日期：2015-11-11 13:34

基于WordNet以及潜在语义分析的文本分类方法涉及计算机领域。本发明专利技术考虑文本中单词的同义词及上下位词，同义词及上下位词根据相似度增加各自词频，从而减少多词同义对分类的影响。不同于一般方法中对一个特征矩阵以单一方法做特征提取，我们通过对WordNet调用参数的调整获得多个特征矩阵，使用遗传算法(GA)辅助潜在语义分析(LSA)共同完成特征提取，得到更好的特征矩阵，从而提高了分类效果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机领域，更具体地涉及基于WordNet及潜在语义分析的文本分类方法。
技术介绍
文本分类(Text categorizat1n)是指在给定分类体系下，根据文本内容自动确定文本类别的过程，按预先指定的标准对文档进行归类这样用户不仅可以方便地浏览文档而且可以通过类别来查询所需的文档，20世纪90年代以前，占主导地位的文本分类方法一直是基于知识工程的分类方法，即由专业人员手工进行分类。人工分类非常费时，效率非常低。90年代以来，众多的统计方法和机器学习方法应用于自动文本分类，文本分类技术的研究引起了研究人员的极大兴趣。目前在国内也已经开始对中文文本分类进行研究，并在信息检索、Web文档自动分类、数字图书馆、自动文摘、分类新闻组、文本过滤、单词语义辨析以及文档的组织和管理等多个领域得到了初步的应用。文本分类的研究可以追溯到上世纪六十年代，早期的文本分类主要是基于知识工程(Knowledge Engineering)，通过手工定义一些规则来对文本进行分类，这种方法费时费力，且必须对某一领域有足够的了解，才能写出合适的规则。到上世纪九十年代，随着网上在线文本的大量涌现和机器学习的兴起，大规模的文本(包括网页)分类和检索重新引起研究者的兴趣。文本分类系统首先通过在预先分类好的文本集上训练，建立一个判别规则或分类器，从而对未知类别的新样本进行自动归类。大量的结果表明它的分类精度比得上专家手工分类的结果，并且它的学习不需要专家干预，能适用于任何领域的学习，使得它成为目前文本分类的主流方法。在文本分类的实验研究中，多词同义和一词多义问题的存在导致许...

【技术保护点】
基于WordNet以及潜在语义分析的文本分类方法，包括：文本预处理；特征提取；训练SVM分类器。其特征在于：在文本预处理阶段，调用WordNet对文本中单词消除歧义，并依层数参数H在上下距离2层以内限制WordNet取上下位词和同义词，以相似度作为权重，增加文本中单词的同义词和上下位词的词频，得到考虑同义词和上下位词的词频矩阵；在特征提取阶段，首先过滤掉词频矩阵中词频低的单词，剩下的单词组成子集，子集维度为500‑1000之间，而后采用潜在语义分析对子集矩阵进行降维，得到特征矩阵，之后通过遗传算法根据分类结果F1‑measure的值对特征矩阵进行调整，得到分类效果最佳的特征矩阵；F1‑measure用于评价分类器效果，F1‑measure＝2rp/(r+p)，其中r为查全率，p为查准率；训练SVM分类器与预处理和特征提取构成一个整体循环，通过调整参数H和特征矩阵，得到分类效果最佳的分类器。

【技术特征摘要】

【专利技术属性】
技术研发人员：赵旭，李建强，刘璐，许泽文，莫豪文，
申请(专利权)人：北京工业大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人