基于平均测试代价的一维尺度决策树构造算法制造技术

技术编号:15268180 阅读:91 留言:0更新日期:2017-05-04 03:27
本发明专利技术提出了基于平均测试代价的一维尺度决策树构造算法,涉及智能服务、机器学习领域,通过原训练示例利用EP准则得到新背景训练集,在每项测试成本、经济因子和完整阔值已知的情况下,综合考虑和ICF的值依次选择属性结点,再利用分裂抽象属性的完整因子c与给定ct作比较,来得到相应的分支,在决策树生成过程中,如遇到在一个子集或分支结点中的所有样例都属于相同类别或是在一个子集或分支结点中没有待分裂的候选抽象属性,即基于平均测试代价的一维尺度决策树模型生成。

An algorithm for constructing decision tree based on average test cost

The invention provides an average test cost algorithm of decision tree construction based on one dimension, relates to the field of machine learning, intelligent service, through the original training sample by EP criterion to get new background in the training set, each test cost, economic factor and complete threshold is given, considering the value of ICF and select the attribute nodes then, using the complete split abstract properties of C with the given CT compared to the corresponding branch in the decision tree generation process, such as all the sample in a subset of nodes in the branch or belong to the same category or abstract properties in a subset of candidate node or branch is not to be split. That is generated based on one dimension decision tree average test cost model.

【技术实现步骤摘要】
所属领域本专利技术涉及智能服务、机器学习领域。
技术介绍
决策树决策方法是机器学习领域中经典算法,得到了广泛应用。早期分类中,一般认为准确率是对分类效果很重要的衡量标准之一。以ID3算法为代表,它主要是在分裂属性选择方法和优化剪支策略两方面的研究。在实际的许多分类问题中,算法ID3存在各种条件的限制。其中最主要一点是缺乏背景知识,从而限制学习过程。如一位脑肿瘤专家在判定一个患头疼的病人时,第一次并不进行最有效果的昂贵扫描,此时专家有经济标准。在这种简单常见的病症下,一开始是简单问题测试或是一些其它更为经济的测试。背景学习方法在进行数据分类的过程中应遵循测试成本最小化归纳规则,以适应更多实际数据分类问题,基于这种需求,本专利技术提出了基于平均测试代价的一维尺度决策树构造方法。
技术实现思路
本专利技术所要解决的技术问题是决策过程中所产生经济成本的影响,提出了一种基于测试代价的一维决策树构造算法。本专利技术所采用的技术方案是:通过原训练示例利用EP准则得到新背景训练集ISA,在每项测试成本、经济因子和完整阔值已知的情况下,综合考虑ΔI和ICF的值依次选择属性结点,再利用分裂抽象属性的完整因子c与给定ct作比较,来得到相应的分支,在决策树生成过程中,如遇到在一个子集或分支结点中的所有样例都属于相同类别或是在一个子集或分支结点中没有待分裂的候选抽象属性,即基于平均测试代价的一维尺度决策树模型生成。本专利技术的有益效果是:采用本决策树构造算法实现了在数据分类过程中,所花费的平均测试成本低。附图说明图1表示基于平均测试代价的一维尺度决策树构造示意图图2表示ISA层次决策树结构的生成示意图图3表示属性A进行结点分裂示意图具体实施方式以下结合附图1到3,对本专利技术进行详细说明。本算法所涉及的参数定义及说明如下。一.ISA新背景训练样本集设原训练样本集X中有n种类别标识L1,L2,…Ln,根据类(叶子结点)的分类对选择属性进行新的归纳得到新的训练样本集,即为ISA;新的属性这里称为抽象属性抽象P、N。二.测试代价ISA新背景训练样本集中进行每一项属性测试需要的费用,记为cost,costi为第i属性测试成本,测试代价由相关专家给出。三.经济因子w和完整阔值ct经济因子w为用来校准成本花费的一个变量,其范围为w∈[0,1],当w=1为最大成本花费;完整阔值ct由相关领域专家给出,其取值范围为ct∈[0,1]。四.信噪比函数z()根据信息论,信噪比这一函数功能在数据分析方面得到了广泛的应用,有下式:有UI+NI=TI(总信息)得出z()=[UI/NI]=[TI/NI]-1五.信息增益函数ΔT根据上面的信噪比z()函数和ID3决策树算法原理,有:ΔT=R(TI)-R(NI)=[2R(TI)/2R(NI)]由于TI=2R(TI),NI=2R(NI)所以2ΔT=[TI/NI],2ΔT=[UI/NI+1]=z()+1所以上式信噪比函数又可写为z()=2ΔT-1六.分裂抽象属性选择因子c假如Y为新背景训练样本集(ISA),A为新训练样本集的选择属性之一,新训练样本抽象属性的叶子结点i的种类个数为m,我们把此叶子结点称为观测值,其中i∈[1,2…,m]。ISA抽象属性值j的个数为n,即原训练样本的叶子结点数,其中j∈[1,2…,n]。其中,当抽象属性第j个叶子结点中包含第i类观测值时,h(i,j)=1;相反如果抽象属性第j个叶子结点中不包含第i类观测值,即h(i,j)=0。当时,我们选择这个抽象属性进行分裂。七、本专利技术的具体步骤如下:步骤1:定义L为类的种类,其个数为n,Li表示第i类,上述i∈(1,2,3…n);根据EP结点类的分类准则得到新背景训练样本集ISA。步骤2:专家根据实际情况,给出每项属性进行的测试成本;步骤3:用户自定义参数经济因子w和完整阔值ct,它们的范围都是[0,1];步骤4:根据信息增益ΔI与ICF(信息成本函数)遍历输入的新背景训练样本集的候选属性列表,计算每个候选属性,得出当前选择属性;步骤4.1:遍历所有ISA新背景训练样本集的属性,计算每个属性的ICF,并选择ICF值最小的属性作为平均测试代价的一维尺度决策树的根结点;步骤5:依据ISA层次结构归纳准则和抽象值的完整因子c与完整因子阔值的大小(ct)比较结果,作为基于测试代价的一维尺度决策树的扩展结点;步骤6:根据最优分裂属性选择因子c候选的抽象属性得到相应的每一个属性和观测值,在结点下生成相应的分支;每个分支的样本集合为所有观测值等于对应分支的新背景训练属性样本,这样的属性集合个数为I;步骤7.依次为每个抽象分裂属性的每个属性值产生一个分支类,得到相应于该分支属性值的子集,对各子集递归调用本算法,即重回步骤4.1,用同样的方法将样本子集分割,产生分支的分支,同时获得相应子集的子集,直到满足以下两条件之一则终止建树过程,即:条件1:在一个子集或分支结点中所有样例属性都为同一抽象属性类别,又称之为观测值。条件2:在一个子集或分支结点中分裂属性为抽象属性的集合为空。所述步骤1中对于多类标号的原数据集都可以转化为两类情况,基于结点EP的归纳准则得出ISA层次结构为:其中ISA为新的背景样本抽象属性,记为P、N,n(P)为正例个数,n(N)为反例个数。抽象属性,如性别中男女;根据类的种类分类规则得到新的训练样本集,即为ISA背景训练样本集;新背景训练样本集叶子结点发生了变化。所述步骤4中,候选属性i的属性选择因子ΔI与ICF为:其中TI为总的数据信息,UI为不可取数据信息;这里ΔTi为属性i信息增量,w为检验经济标准一个变量,w∈[0,1],costi为属性i的测试成本,costi+1>1,当cost=0时,f(cost)有意义;ICF是信息成本函数,用来表征每一属性的选择。八、本算法伪代码如下:输入:训练实例X;ISA新的样本实例Y;测试成本cost;经济因子w;完整性阔值ct。输出:一颗节约经济成本的决策树。本文档来自技高网...
<a href="http://www.xjishu.com/zhuanli/55/201610284638.html" title="基于平均测试代价的一维尺度决策树构造算法原文来自X技术">基于平均测试代价的一维尺度决策树构造算法</a>

【技术保护点】
基于平均测试代价的一维尺度决策树构造算法,该算法涉及涉及智能服务、机器学习领域,其特征是:该算法的具体实施方案如下:通过原训练示例利用EP准则得到新背景训练集,在每项测试成本、经济因子和完整阔值已知的情况下,综合考虑和的值依次选择属性结点,再利用分裂抽象属性的完整因子与给定作比较,来得到相应的分支,在决策树生成过程中,如遇到在一个子集或分支结点中的所有样例都属于相同类别或是在一个子集或分支结点中没有待分裂的候选抽象属性,即基于平均测试代价的一维尺度决策树模型生成。

【技术特征摘要】
1.基于平均测试代价的一维尺度决策树构造算法,该算法涉及涉及智能服务、机器学习领域,其特征是:该算法的具体实施方案如下:通过原训练示例利用EP准则得到新背景训练集,在每项测试成本、经济因子和完整阔值已知的情况下,综合考虑和的值依次选择属性结点,再利用分裂抽象属性的完整因子与给定作比较,来得到相应的分支,在决策树生成过程中,如遇到在一个子集或分支结点中的所有样例都属于相同类别或是在一个子集或分支结点中没有待分裂的候选抽象属性,即基于平均测试代价的一维尺度决策树模型生成。2.根据权利要求1所述的基于平均测试代价的一维尺度决策树构造算法,其特征是:该算法的具体实施步骤如下:步骤1:定义L为类的种类,其中数为n,Li表示第i类,上述:根据EP结点类的分类准则得到新背景训练样本集ISA步骤2:专家根据实际情况,给出每项属性进行的测试成本;步骤3:用户自定义参数经济因子w和完整阔值ct,它们的范围都是[0,1];步骤4:根据信息增益与ICF(信息成本函数)遍历输入的新背景训练样本集的候选属性列表,计算每个候选属性,得出当前选择属性;步骤4.1:遍历所有ISA新背景训练样本集的属性,计算每个属性的ICF,并选择ICF值最小的属性作为平均测试代价的一维尺度决策树的根结点;步骤5:依据ISA层次结构归纳准则和抽象值的完整因子c与完整因子阔值的大小ct比较结果,作为基于测试代价的一维尺度决策树的扩展结点;步骤6:根据最优分裂属性选择因子c...

【专利技术属性】
技术研发人员:金平艳胡成华
申请(专利权)人:四川用联信息技术有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1