一种基于决策树的属性加权方法及文本分类方法技术

技术编号：11829934 阅读：144 留言：0更新日期：2015-08-05 13:58

本发明专利技术提供了一种基于决策树的属性加权方法，首先用信息增益率标准构建决策树，然后根据各属性在决策树中测试的最小深度来计算权值。本发明专利技术同时提供了依托于该基于决策树的属性加权方法的多项式朴素贝叶斯文本分类方法、依托于该基于决策树的属性加权方法的补集朴素贝叶斯文本分类方法，以及依托于该基于决策树的属性加权方法的多项式与补集相结合的朴素贝叶斯文本分类方法。本发明专利技术改善了原来的朴素贝叶斯文本分类器分类精度，同时维持了原来朴素贝叶斯算法的简洁性和时间复杂度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及，属于人工智能数据挖掘分类

技术介绍
朴素贝叶斯文本分类器因为其简单性和高效性经常被用来处理文本分类问题，但是它的属性独立假设在使它变得高效的同时在一定程度上影响了它的分类性能。给定一篇文档山该文档被表示成单词向量的形式<Wl，w2，…，w，，多项式朴素贝叶斯（MNB)，补集朴素贝叶斯（CNB)和两者的结合模型（0VA)分别用公式1，2和3来分类文档d。【主权项】1. 一种基于决策树的属性加权方法，其特征在于包括以下步骤： (1) 对于一个已知的训练文档集D，训练文档集D中的任意一篇文档d表示为单词向量形式d =〈w。w2, . . . wm>，其中Wi为文档d中的第i个单词，m为文档d中单词的数目；利用以下公式计算该训练文档集D中的各个属性的信息增益率：其中，GainRatio (D, Wi)表示单词力划分训练文档集D的信息增益率，Gain(D^i)表示单词力划分训练文档集D的信息增益，SplitInfo (D, w D表示训练文档集D关于单词力的分裂信息； Gain(Dji)通过以下公式计算：其中，|DV|是训练文档集D中单词~的取值为V的文档数目，V E {〇,〇}; Entropy (D) 是训练文档集D的熵，通过以下公式计算：其中，C是类标记的集合，c是C中的一个类标记，p(C)是训练文档集D中类别为c的概率；P (c)通过以下公式计算得到：其中，n是训练文档集D中的文档数目，s是文档的类别的数目，（^是第j篇文档的类标记，S (h c)表示一个二元函数，当它的两个参数相...

【技术保护点】
一种基于决策树的属性加权方法，其特征在于包括以下步骤：(1)对于一个已知的训练文档集D，训练文档集D中的任意一篇文档d表示为单词向量形式d＝<w1,w2,...wm>，其中wi为文档d中的第i个单词，m为文档d中单词的数目；利用以下公式计算该训练文档集D中的各个属性的信息增益率：其中，GainRatio(D,wi)表示单词wi划分训练文档集D的信息增益率，Gain(D,wi)表示单词wi划分训练文档集D的信息增益，SplitInfo(D,wi)表示训练文档集D关于单词wi的分裂信息；Gain(D,wi)通过以下公式计算：其中，|Dv|是训练文档集D中单词wi的取值为v的文档数目，Entropy(D)是训练文档集D的熵，通过以下公式计算：其中，C是类标记的集合，c是C中的一个类标记，p(c)是训练文档集D中类别为c的概率；p(c)通过以下公式计算得到：其中，n是训练文档集D中的文档数目，s是文档的类别的数目，cj是第j篇文档的类标记，δ(cj,c)表示一个二元函数，当它的两个参数相同时值为1否则为0；SplitInfo(D,wi)通过以下公式计算得到：(2)用信息增益率作为划...

【技术特征摘要】

【专利技术属性】
技术研发人员：蒋良孝，张伦干，李超群，
申请(专利权)人：中国地质大学武汉，
类型：发明
国别省市：湖北;42

全部详细技术资料下载我是这个专利的主人