The invention provides a multi standard misclassification cost sensitive decision tree construction method, combined with the misclassification cost and attribute information - ASF (S) as the candidate attribute selection criteria, selection of smaller ASF (S) value as node G, to meet the conditions of the branch according to the splitting factor index. Once the above operations are performed, the entire training set can be traversed. The invention is used in the decision tree building process in the different mechanism of misclassification cost for quantification of the same unit, and solves the error between the cost of classification mechanism and attribute information heterogeneity problem, the final decision tree to avoid the over fitting problem, and better improve the classification accuracy and reduce the misclassification cost.
【技术实现步骤摘要】
本专利技术涉及人工智能、数据挖掘和机器学习领域,具体涉及一种多标准误分类代价敏感决策树构建方法。
技术介绍
在归纳学习技术中如何尽量减少误分类错误是主要焦点,例如CART和C4.5。在归纳问题上误分类不仅是一个错误,即错误分类所带来的代价不容忽略。在代价敏感学习CLS算法中,误分类代价为同一单位标准,但在现实世界的应用程序误分类代价通常有不同的单位。把不同单位标准的误分类代价量化成一个唯一单位代价是非常困难的。分裂属性选择是决策树构建的一个关键又基本过程,最流行的属性选择方法侧重于测量属性的信息增益。当错误分类所引起的代价不容忽视时,很自然地把降低代价机制和属性信息结合起来作为分裂属性选择标准,这样构成的决策树既提高了分类精度,同时误分类代价达到最优,我们的目的就是得到最低的误分类代价。这样形成的决策树更适合在医疗诊断过程中。基于这种需求,本专利技术提出多标准误分类代价敏感决策树构建方法。
技术实现思路
本专利技术所要解决技术问题是决策过程中误分类代价和属性信息之间的平衡性问题、误分类代价不同单位机制问题以及构成的决策树过度拟合问题,提供一种多标准误分类代价敏感决策树构建方法。为解决上述问题,本专利技术的是通过以下技术方案实现的:多标准误分类代价敏感决策树构建方法,包括如下步骤:步骤1.设训练集中有X个样本,属性个数为n,即n=(s1,s2,…sn),同时分裂属性sr对应了m个类L,其中Li∈(L1,L2…,Lm),r∈(1,2…,n),i∈(1,2…,m)。设误分类代价矩阵为C,C由用户指定。步骤2:创建根节点G。步骤3:如果训练数据集为空,则返回节点G并 ...
【技术保护点】
多标准误分类代价敏感决策树构建方法,该方法涉及人工智能、数据挖掘和机器学习领域,其特征是,包括如下步骤:步骤1:设训练集中有X个样本,属性个数为n,即,同时分裂属性对应了m个类L,其中,,,设误分类代价矩阵为C,C由用户指定;类别标识个数为m,则该数据的代价矩阵方阵是:其中表示第类数据分为第i类的代价,如果为正确分类,则,否则为错误分类,其值由相关用户给定,这里;步骤2:创建根节点G;步骤3:如果训练数据集为空,则返回节点G并标记失败;步骤4:如果训练数据集中所有记录都属于同一类别,则以该类型标记节点G;步骤5:如果候选属性为空,则返回G为叶子节点,标记为训练数据集中最普通的类;步骤6:根据代价敏感的候选属性选择因子ASF候选属性中选择splitS;候选属性选择因子ASF:averagegain(S)为选择属性S的平均信息增益,reduce_mc(S)为选择属性S作为分裂属性时的误分类代价减少率;当选择属性splitS满足目标函数ASF(S)最小时,则找到标记节点G,如果一些属性具有相同的ASF值,为了打破平局的标准,再按照更大的reduce_mc(S)值来优先选择候选属性,这样构建的 ...
【技术特征摘要】
1.多标准误分类代价敏感决策树构建方法,该方法涉及人工智能、数据挖掘和机器学习领域,其特征是,包括如下步骤:步骤1:设训练集中有X个样本,属性个数为n,即,同时分裂属性对应了m个类L,其中,,,设误分类代价矩阵为C,C由用户指定;类别标识个数为m,则该数据的代价矩阵方阵是:其中表示第类数据分为第i类的代价,如果为正确分类,则,否则为错误分类,其值由相关用户给定,这里;步骤2:创建根节点G;步骤3:如果训练数据集为空,则返回节点G并标记失败;步骤4:如果训练数据集中所有记录都属于同一类别,则以该类型标记节点G;步骤5:如果候选属性为空,则返回G为叶子节点,标记为训练数据集中最普通的类;步骤6:根据代价敏感的候选属性选择因子ASF候选属性中选择splitS;候选属性选择因子ASF:averagegain(S)为选择属性S的平均信息增益,reduce_mc(S)为选择属性S作为分裂属性时的误分类代价减少率;当选择属性splitS满足目标函数ASF(S)最小时,则找到标记节点G,如果一些属性具有相同的ASF值,为了打破平局的标准,再按照更大的reduce_mc(S)值来优先选择候选属性,这样构建的决策树优先遵从误分类代价最低的原则;步骤7:标记节点G为属性splitS;步骤8:由根据基尼指数值延伸出满足条件为分支,分支基尼指数设训练数据集X,其类有m个,那么其gini指标为:其中为分裂属性属于类的相对频率,当,即在此结点处所有样例都属于同一类,表示能得到最大有用信息;当此结点所有样例对于类别字段来讲均匀分布时,最大,表示能得到最小的有用信息;8.1这里假设为训练数据集中的样本集合,满足以下两条件之一,则终止建树;(1)如果为空,加上一个叶子节点,标记为训练数据集中最普通的类;(2)在一节点中所有例子属于相同类;步骤9:非8.1中情况,则递归调用步骤6至步骤8;步骤10:为避免决策树中存在过渡拟合问...
【专利技术属性】
技术研发人员:金平艳,胡成华,
申请(专利权)人:四川用联信息技术有限公司,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。