一种基于决策树的属性加权方法及文本分类方法技术

技术编号:11829934 阅读:136 留言:0更新日期:2015-08-05 13:58
本发明专利技术提供了一种基于决策树的属性加权方法,首先用信息增益率标准构建决策树,然后根据各属性在决策树中测试的最小深度来计算权值。本发明专利技术同时提供了依托于该基于决策树的属性加权方法的多项式朴素贝叶斯文本分类方法、依托于该基于决策树的属性加权方法的补集朴素贝叶斯文本分类方法,以及依托于该基于决策树的属性加权方法的多项式与补集相结合的朴素贝叶斯文本分类方法。本发明专利技术改善了原来的朴素贝叶斯文本分类器分类精度,同时维持了原来朴素贝叶斯算法的简洁性和时间复杂度。

【技术实现步骤摘要】

本专利技术涉及,属于人工智能数据 挖掘分类

技术介绍
朴素贝叶斯文本分类器因为其简单性和高效性经常被用来处理文本分类问题,但 是它的属性独立假设在使它变得高效的同时在一定程度上影响了它的分类性能。给定一篇 文档山该文档被表示成单词向量的形式<Wl,w2,…,w,,多项式朴素贝叶斯(MNB),补集朴 素贝叶斯(CNB)和两者的结合模型(0VA)分别用公式1,2和3来分类文档d。【主权项】1. 一种基于决策树的属性加权方法,其特征在于包括以下步骤: (1) 对于一个已知的训练文档集D,训练文档集D中的任意一篇文档d表示为单词向量 形式d =〈w。w2, . . . wm>,其中Wi为文档d中的第i个单词,m为文档d中单词的数目; 利用以下公式计算该训练文档集D中的各个属性的信息增益率:其中,GainRatio (D, Wi)表示单词力划分训练文档集D的信息增益率,Gain(D^i)表示 单词力划分训练文档集D的信息增益,SplitInfo (D, w D表示训练文档集D关于单词力的 分裂信息; Gain(Dji)通过以下公式计算:其中,|DV|是训练文档集D中单词~的取值为V的文档数目,V E {〇,〇}; Entropy (D) 是训练文档集D的熵,通过以下公式计算:其中,C是类标记的集合,c是C中的一个类标记,p(C)是训练文档集D中类别为c的 概率;P (c)通过以下公式计算得到:其中,n是训练文档集D中的文档数目,s是文档的类别的数目,(^是第j篇文档的类 标记,S (h c)表示一个二元函数,当它的两个参数相同时值为1否则为〇 ; SplitInfo(Dji)通过以下公式计算得到:(2) 用信息增益率作为划分标准建立决策树,所述决策树为二叉树,二叉树在生长的 每一步选择具有最大信息增益率的单词作为测试属性,单词出现的频率为〇或者非〇作为 测试结果; (3) 遍历决策树,记录每个单词^在决策树中测试的的最小深度d i; (4) 对于训练文档集D中的每个单词Wi,若其在决策树中出现,则将它的权值Wi设置为2. -种依托于权利要求1所述基于决策树的属性加权方法的多项式朴素贝叶斯文本 分类方法,其特征在于:通过以下公式对文档d进行分类:其中,fi表示单词W i在文档d中出现的频率,为已知量;P (w i I C)表示条件概率,通过以 下公式计算得到:其中,G表示训练文档集D中第j篇文档中出现单词W 4勺频率,n为训练文档集D中 文档的数目,G和n均为已知量。3. -种依托于权利要求1所述基于决策树的属性加权方法的补集朴素贝叶斯文本分 类方法,其特征在于:通过以下公式对文档d进行分类:其中,fi表示单词Wi在文档d中出现的频率,为已知量;p(幻通过以下公式计算得到:其中,S(C|,幻表示一个二元函数,当它的两个参数相同时值为1否则为〇 ; P(W, I幻表示条件概率,通过以下公式计算得到:4. 一种依托于权利要求1所述基于决策树的属性加权方法的多项式与补集相结合的 朴素贝叶斯文本分类方法,其特征在于:通过以下公式对文档d进行分类:其中,fi表示单词w i在文档d中出现的频率,为已知量;p(幻通过以下公式计算得到:其中,KU)表示一个二元函数,当它的两个参数相同时值为丄否则为〇 ;p (Wi |c)表 示条件概率,通过以下公式计算得到:其中,G表示训练文档集D中第j篇文档中出现单词w ^勺频率,n为训练文档集D中 文档的数目,G和n均为已知量;p(w, I幻表示条件概率,通过以下公式计算得到:【专利摘要】本专利技术提供了一种基于决策树的属性加权方法,首先用信息增益率标准构建决策树,然后根据各属性在决策树中测试的最小深度来计算权值。本专利技术同时提供了依托于该基于决策树的属性加权方法的多项式朴素贝叶斯文本分类方法、依托于该基于决策树的属性加权方法的补集朴素贝叶斯文本分类方法,以及依托于该基于决策树的属性加权方法的多项式与补集相结合的朴素贝叶斯文本分类方法。本专利技术改善了原来的朴素贝叶斯文本分类器分类精度,同时维持了原来朴素贝叶斯算法的简洁性和时间复杂度。【IPC分类】G06F17-30【公开号】CN104820702【申请号】CN201510237748【专利技术人】蒋良孝, 张伦干, 李超群 【申请人】中国地质大学(武汉)【公开日】2015年8月5日【申请日】2015年5月12日本文档来自技高网...

【技术保护点】
一种基于决策树的属性加权方法,其特征在于包括以下步骤:(1)对于一个已知的训练文档集D,训练文档集D中的任意一篇文档d表示为单词向量形式d=<w1,w2,...wm>,其中wi为文档d中的第i个单词,m为文档d中单词的数目;利用以下公式计算该训练文档集D中的各个属性的信息增益率:其中,GainRatio(D,wi)表示单词wi划分训练文档集D的信息增益率,Gain(D,wi)表示单词wi划分训练文档集D的信息增益,SplitInfo(D,wi)表示训练文档集D关于单词wi的分裂信息;Gain(D,wi)通过以下公式计算:其中,|Dv|是训练文档集D中单词wi的取值为v的文档数目,Entropy(D)是训练文档集D的熵,通过以下公式计算:其中,C是类标记的集合,c是C中的一个类标记,p(c)是训练文档集D中类别为c的概率;p(c)通过以下公式计算得到:其中,n是训练文档集D中的文档数目,s是文档的类别的数目,cj是第j篇文档的类标记,δ(cj,c)表示一个二元函数,当它的两个参数相同时值为1否则为0;SplitInfo(D,wi)通过以下公式计算得到:(2)用信息增益率作为划分标准建立决策树,所述决策树为二叉树,二叉树在生长 的每一步选择具有最大信息增益率的单词作为测试属性,单词出现的频率为0或者非0作为测试结果;(3)遍历决策树,记录每个单词wi在决策树中测试的的最小深度di;(4)对于训练文档集D中的每个单词wi,若其在决策树中出现,则将它的权值Wi设置为否则将它的权值Wi设置为1。...

【技术特征摘要】

【专利技术属性】
技术研发人员:蒋良孝张伦干李超群
申请(专利权)人:中国地质大学武汉
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1