一种新的面向文本分类的特征向量权重的方法及装置制造方法及图纸

技术编号:2856567 阅读:328 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及计算机科学与技术领域,特别是一种新的面向文本分类的特征向量权重的方法。文本分类方法中,TF*IDF和TF*IWF被广泛的用来计算特征向量的权重。但是这两种方法都过分的倚重词频,同时又无法表示出向量元素在类别之间分布的不均衡性。这里,我们提出了一种新的权重方法(TF*IWF*DBV)。在TF*IWF方法中引入了DBV和TF的n次方根弥补了方法的不足。实验证明新方法的采用可以将F1测度提高11.8个百分点,充分证明了它的有效性。

【技术实现步骤摘要】

本专利技术涉及计算机科学与
,特别是一种新的面向文本分类的特征向量权重的方法及装置
技术介绍
随着科学技术尤其是信息技术的不断发展,人与人之间的交流方式已经从单纯的面对面交流发展到越来越多的采用“文本”这种语言形式作为信息载体。最为明显的例子就是数字图书馆和网页文本。毫无疑问,对这些语言资源的有效管理可以为用户获取信息提供很大的便利。但是随着网络通信的发展,网上可用文本信息的数量急剧膨胀,甚至可以说是成指数级增长,如果再像以前那样手工对这些文本进行分类不但费时费力,而且准确率也无法保证,因此自动文本分类技术应运而生。此外,自动文本分类技术在许多方面都有应用,例如文档索引的建立、不良信息的过滤、不同领域信息的分流、主题识别、自动文摘、词义消歧、智能信息检索以及其他需要对文档进行整理的地方。从60年代计算机刚刚兴起,人们就认识到了文本分类技术重要性,并进行了初步的探索和研究,一直到80年代末基本上都是基于规则的知识工程的方法。这种方法费时费力,准确率也不高,尤其对于不常出现的关键词很难建立规则,同时还需要一支由语言学家组成的智囊团的支持。所以随着90年代基于统计的自然语言技术的兴起,机器学习的方法逐渐被应用到文本分类技术中,并迅速成为主流趋势,出现了各种各样的基于统计的文本分类方法k近邻方法、贝叶斯方法、支持向量机、规则学习方法、相关反馈方法、神经网络方法、决策树等等。根据卡耐基梅隆大学Yiming Yang报道的结果,基于向量空间模型的支持向量机方法效果最好,其他几种方法的基础多数也要先建立类和文本的特征向量。特征向量的建立最常用的方法就是TF*IDF(TFTerm Frequency,IDFInverse Document Frequency)方法,以及由它派生的TF*IWF(TermFrequency,IWFInverse Word Frequency)方法。但是从已经报道的实验结果来看,使用这种方法的分类器的准确率都不高,最好的F1测度也就是85%。基于此,本文作者对TF*IWF方法进行了深入的分析,引入两个变量(DBV和TF的n次根)对其进行了改进,实验证明改进后分类准确率提高了11.8个百分点,充分证明了这种改进的有效性。
技术实现思路
本专利技术的目的在于提供一种新的面向文本分类的特征向量权重的方法和一种新的分类器的设计思路。本专利技术是以计算机作为工具,根据改进的特征权重算法,采取一定的选词策略和阀值器,建立了包含从文本预处理到自动分类,再到分类结果的后优化等一整套功能的自动分类装置。本专利技术为基于统计的文本分类方法提供了一条计算向量权重的途径。该方法是在TF*IWF方法中引入了DBV变量,并用TF的n次方根代替了TF,从而得到了改进后的方法,即TF*IWF*DBV(Term Frequency,Inverse Word Frequency,DBVDis-banlance Variable)方法。实验证明该方法可以大大提高文本分类的正确率、召回率和F1测度。面向文本分类的特征向量权重分类器的装置,由语料收集及前处理装置、特征抽取装置、分类器、阀值装置、后处理装置组成,其中,语料收集及前处理装置、特征抽取装置、分类器、阀值装置、后处理装置依次串联连接。专利技术技术方案面向文本分类的特征向量权重的方法用基于TF*IWF*DBV特征向量权重方法计算特征向量并进行文本分类的步骤a)按领域收集训练语料和测试语料;b)去除网页文本的一些“垃圾”、分词、词性标注;c)从训练语料中提取出每个领域的词表(词、词性、领域内词频),同时提取出总词表(词、词性、总词频);d)根据总词表和领域词表建立用于分类的具有不同关键词数目的信息词表(包括词、词性、词频、IWF、DBV等);e)使用信息词表和和特征权重算法(TF*IWF*DBV)对测试文本进行分类,计算F1测度,同时优化得到最优阀值;f)根据分类结果确定最优的关键词数目。步骤e中提到的建立文本和类向量空间模型时采用的TF*IWF*DBV特征向量权重方法。步骤e中提到的特征向量权重方法中表述变量在不同类之间分布差异性的数学变量DBV。步骤e中提到的特征向量权重方法中TF的n次方根的引入。步骤f中提到的根据不同数目关键词下分类准确率变化曲线图确定最佳关键词数目的方法。下面详细说明本专利技术技术方案中所涉及的各个细节问题。1、语料选择本实验采用的语料包括两部分,一部分是中科院自动化所和Nokia公司为欧盟合作项目(LC-Star)建立的3087万字的汉语语料库,分六个领域(体育、娱乐和游戏、财经、新闻、个人交流、消费信息),这一部分语料作为训练语料;第二部分语料是1119个从网上随意收集的文本(共807158个汉字),分属于这六个领域,各领域文本数分别为消费信息领域(189)、娱乐和游戏领域(320)、财经领域(52)、新闻领域(100)、个人交流领域(101)、体育领域(357),这一部分语料作为开放的测试语料。2、特征选取常见的文本分类的特征有字、词、短语、段落、句子、概念以及它们的N-Gram信息。这里我们采用最常用也是被实验证明为最有效的词作为文本分类的特征。下面需要确定两个问题第一,选取什么样的词;第二,选取多少词。具体步骤如下1)提取各类别的总词表,并去掉频率在0.0001%以下的词。这是因为对某个类别来讲,出现频率太低的词对该类别几乎没有什么重要性。2)从各个词表中选取分别按照词频选取不同数目(100、200、500、1000、1500、2000、2500、3000、3500、4000)的关键词,根据分类准确率随关键词数目变化的曲线图,找到最优的关键词数目。3、方法的改进基于TF*IDF启发式权重方法是Salton于1973提出的,其定义是特征fi在文本d中的权重w(fi,d)W(fi,d)=TF(fi,d)*IDF(fi)=N(fid)*log(N/N(fi))其中,N(fi)是出现fi的训练文本数,N是总训练文本数,N(fid)是文本d中出现fi的次数。在此基础上,Roberto Basili 1999提出了TF*IWF方法,他采用词作为文本分类的特征,与前者的不同体现在两个方面(1)后者采用关键词出现的次数代替了前者中关键词出现的文本数,训练语料中所有词出现次数之和代替了前者的总训练文本数;(2)后者采用对数平方代替了前者的对数。W(fi,d)=TF(fi,d)*IWF(fi)=N(fid)*(log(M/M(fi)))2我们提出的对TF*IWF方法的改进方法主要体现在如下两个方面一利用TF的n次方根代替TF,从而削弱词权重对词频的倚重,并通过实验比较了n取1、2、3、4的效果;二是引入了DBV表述词在不同类别中分布差异性这一属性。关键词在某类的权重受三个因素影响一是该词在当前类中的出现频率,二是该词在总语料中的出现频率,三是该词在不同类别之间出现频率的差异性。在TF*IWF方法中采用TF来表示第一个因素,原来是指词次数,这里我们用词频,但是我们知道在同一类别中如果词W1的出现频率是词W2的两倍并不能说W1对该类的重要性是W2的两倍,直觉上应当小于两倍。因此为了消弱频率对于词权重过度的影响,我们采用它的n(n≥1)次方根形式,并对n=1、n=2[本文档来自技高网
...

【技术保护点】
用基于TF*IWF*DBV特征向量权重方法计算特征向量并进行文本分类的步骤:a)按领域收集训练语料和测试语料;b)去除网页文本的一些“垃圾”、分词、词性标注;c)从训练语料中提取出每个领域的词表,同时提取出总词表;   d)根据总词表和领域词表建立用于分类的具有不同关键词数目的信息词表;e)使用信息词表和特征权重算法(TF*IWF*DBV)对测试文本进行分类,计算F1测度,同时优化得到最优阀值;f)根据分类结果确定最优的关键词数目。

【技术特征摘要】
1.用基于TF*IWF*DBV特征向量权重方法计算特征向量并进行文本分类的步骤a)按领域收集训练语料和测试语料;b)去除网页文本的一些“垃圾”、分词、词性标注;c)从训练语料中提取出每个领域的词表,同时提取出总词表;d)根据总词表和领域词表建立用于分类的具有不同关键词数目的信息词表;e)使用信息词表和特征权重算法(TF*IWF*DBV)对测试文本进行分类,计算F1测度,同时优化得到最优阀值;f)根据分类结果确定最优的关键词数目。2.根据权利要求1的方法,其特征在于,步骤e中提到的建立文本和类向量空间模型时采用的TF*IWF*DBV特征向量权重方法。3.根据权利要求1的方法,其特征在于,步骤e中提到的特征向量权重方法中表述变量在不同类之间分布差异性的数学变量DBV。4.根据权利要求1的方法,其特征在于,步骤e中提到的特征向量权重方法中TF的n次方根的引入。5.根据权利要求1的方法,其特征在于,步骤f中提到的根据不...

【专利技术属性】
技术研发人员:宗成庆陈克利
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1