【技术实现步骤摘要】
本专利技术涉及,属于人工智能数据 挖掘分类
技术介绍
朴素贝叶斯文本分类器因为其简单性和高效性经常被用来处理文本分类问题,但 是它的属性独立假设在使它变得高效的同时在一定程度上影响了它的分类性能。给定一篇 文档山该文档被表示成单词向量的形式<Wl,w2,…,w,,多项式朴素贝叶斯(MNB),补集朴 素贝叶斯(CNB)和两者的结合模型(0VA)分别用公式1,2和3来分类文档d。【主权项】1. 一种基于决策树的属性加权方法,其特征在于包括以下步骤: (1) 对于一个已知的训练文档集D,训练文档集D中的任意一篇文档d表示为单词向量 形式d =〈w。w2, . . . wm>,其中Wi为文档d中的第i个单词,m为文档d中单词的数目; 利用以下公式计算该训练文档集D中的各个属性的信息增益率:其中,GainRatio (D, Wi)表示单词力划分训练文档集D的信息增益率,Gain(D^i)表示 单词力划分训练文档集D的信息增益,SplitInfo (D, w D表示训练文档集D关于单词力的 分裂信息; Gain(Dji)通过以下公式计算:其中,|DV|是训练文档集D中单词~的取值为V的文档数目,V E {〇,〇}; Entropy (D) 是训练文档集D的熵,通过以下公式计算:其中,C是类标记的集合,c是C中的一个类标记,p(C)是训练文档集D中类别为c的 概率;P (c)通过以下公式计算得到:其中,n是训练文档集D中的文档数目,s是文档的类别的数目,(^是第j篇文档的类 标记,S (h c)表示一个二元函数,当它的两个参数相 ...
【技术保护点】
一种基于决策树的属性加权方法,其特征在于包括以下步骤:(1)对于一个已知的训练文档集D,训练文档集D中的任意一篇文档d表示为单词向量形式d=<w1,w2,...wm>,其中wi为文档d中的第i个单词,m为文档d中单词的数目;利用以下公式计算该训练文档集D中的各个属性的信息增益率:其中,GainRatio(D,wi)表示单词wi划分训练文档集D的信息增益率,Gain(D,wi)表示单词wi划分训练文档集D的信息增益,SplitInfo(D,wi)表示训练文档集D关于单词wi的分裂信息;Gain(D,wi)通过以下公式计算:其中,|Dv|是训练文档集D中单词wi的取值为v的文档数目,Entropy(D)是训练文档集D的熵,通过以下公式计算:其中,C是类标记的集合,c是C中的一个类标记,p(c)是训练文档集D中类别为c的概率;p(c)通过以下公式计算得到:其中,n是训练文档集D中的文档数目,s是文档的类别的数目,cj是第j篇文档的类标记,δ(cj,c)表示一个二元函数,当它的两个参数相同时值为1否则为0;SplitInfo(D,wi)通过以下公式计算得到:(2)用信息增益率作为划 ...
【技术特征摘要】
【专利技术属性】
技术研发人员:蒋良孝,张伦干,李超群,
申请(专利权)人:中国地质大学武汉,
类型:发明
国别省市:湖北;42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。