一种新的面向文本分类的特征向量权重的方法及装置制造方法及图纸

技术编号：2856567 阅读：328 留言：0更新日期：2012-04-11 18:40

本发明专利技术涉及计算机科学与技术领域，特别是一种新的面向文本分类的特征向量权重的方法。文本分类方法中，ＴＦ＊ＩＤＦ和ＴＦ＊ＩＷＦ被广泛的用来计算特征向量的权重。但是这两种方法都过分的倚重词频，同时又无法表示出向量元素在类别之间分布的不均衡性。这里，我们提出了一种新的权重方法（ＴＦ＊ＩＷＦ＊ＤＢＶ）。在ＴＦ＊ＩＷＦ方法中引入了ＤＢＶ和ＴＦ的ｎ次方根弥补了方法的不足。实验证明新方法的采用可以将Ｆ１测度提高１１．８个百分点，充分证明了它的有效性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机科学与
，特别是一种新的面向文本分类的特征向量权重的方法及装置。
技术介绍
随着科学技术尤其是信息技术的不断发展，人与人之间的交流方式已经从单纯的面对面交流发展到越来越多的采用“文本”这种语言形式作为信息载体。最为明显的例子就是数字图书馆和网页文本。毫无疑问，对这些语言资源的有效管理可以为用户获取信息提供很大的便利。但是随着网络通信的发展，网上可用文本信息的数量急剧膨胀，甚至可以说是成指数级增长，如果再像以前那样手工对这些文本进行分类不但费时费力，而且准确率也无法保证，因此自动文本分类技术应运而生。此外，自动文本分类技术在许多方面都有应用，例如文档索引的建立、不良信息的过滤、不同领域信息的分流、主题识别、自动文摘、词义消歧、智能信息检索以及其他需要对文档进行整理的地方。从60年代计算机刚刚兴起，人们就认识到了文本分类技术重要性，并进行了初步的探索和研究，一直到80年代末基本上都是基于规则的知识工程的方法。这种方法费时费力，准确率也不高，尤其对于不常出现的关键词很难建立规则，同时还需要一支由语言学家组成的智囊团的支持。所以随着90年代基于统计的自然语言技术的兴起，机器学习的方法逐渐被应用到文本分类技术中，并迅速成为主流趋势，出现了各种各样的基于统计的文本分类方法k近邻方法、贝叶斯方法、支持向量机、规则学习方法、相关反馈方法、神经网络方法、决策树等等。根据卡耐基梅隆大学Yiming Yang报道的结果，基于向量空间模型的支持向量机方法效果最好，其他几种方法的基础多数也要先建立类和文本的特征向量。特征向量的建立最常用的方法就是TF*...

【技术保护点】
用基于ＴＦ＊ＩＷＦ＊ＤＢＶ特征向量权重方法计算特征向量并进行文本分类的步骤：ａ）按领域收集训练语料和测试语料；ｂ）去除网页文本的一些“垃圾”、分词、词性标注；ｃ）从训练语料中提取出每个领域的词表，同时提取出总词表；　　ｄ）根据总词表和领域词表建立用于分类的具有不同关键词数目的信息词表；ｅ）使用信息词表和特征权重算法（ＴＦ＊ＩＷＦ＊ＤＢＶ）对测试文本进行分类，计算Ｆ１测度，同时优化得到最优阀值；ｆ）根据分类结果确定最优的关键词数目。

【技术特征摘要】
1.用基于TF*IWF*DBV特征向量权重方法计算特征向量并进行文本分类的步骤a)按领域收集训练语料和测试语料；b)去除网页文本的一些“垃圾”、分词、词性标注；c)从训练语料中提取出每个领域的词表，同时提取出总词表；d)根据总词表和领域词表建立用于分类的具有不同关键词数目的信息词表；e)使用信息词表和特征权重算法(TF*IWF*DBV)对测试文本进行分类，计算F1测度，同时优化得到最优阀值；f)根据分类结果确定最优的关键词数目。2.根据权利要求1的方法，其特征在于，步骤e中提到的建立文本和类向量空间模型时采用的TF*IWF*DBV特征向量权重方法。3.根据权利要求1的方法，其特征在于，步骤e中提到的特征向量权重方法中表述变量在不同类之间分布差异性的数学变量DBV。4.根据权利要求1的方法，其特征在于，步骤e中提到的特征向量权重方法中TF的n次方根的引入。5.根据权利要求1的方法，其特征在于，步骤f中提到的根据不...

【专利技术属性】
技术研发人员：宗成庆，陈克利，
申请(专利权)人：中国科学院自动化研究所，
类型：发明
国别省市：11[中国|北京]

全部详细技术资料下载我是这个专利的主人