The invention provides an average test cost algorithm of decision tree construction based on one dimension, relates to the field of machine learning, intelligent service, through the original training sample by EP criterion to get new background in the training set, each test cost, economic factor and complete threshold is given, considering the value of ICF and select the attribute nodes then, using the complete split abstract properties of C with the given CT compared to the corresponding branch in the decision tree generation process, such as all the sample in a subset of nodes in the branch or belong to the same category or abstract properties in a subset of candidate node or branch is not to be split. That is generated based on one dimension decision tree average test cost model.
【技术实现步骤摘要】
所属领域本专利技术涉及智能服务、机器学习领域。
技术介绍
决策树决策方法是机器学习领域中经典算法,得到了广泛应用。早期分类中,一般认为准确率是对分类效果很重要的衡量标准之一。以ID3算法为代表,它主要是在分裂属性选择方法和优化剪支策略两方面的研究。在实际的许多分类问题中,算法ID3存在各种条件的限制。其中最主要一点是缺乏背景知识,从而限制学习过程。如一位脑肿瘤专家在判定一个患头疼的病人时,第一次并不进行最有效果的昂贵扫描,此时专家有经济标准。在这种简单常见的病症下,一开始是简单问题测试或是一些其它更为经济的测试。背景学习方法在进行数据分类的过程中应遵循测试成本最小化归纳规则,以适应更多实际数据分类问题,基于这种需求,本专利技术提出了基于平均测试代价的一维尺度决策树构造方法。
技术实现思路
本专利技术所要解决的技术问题是决策过程中所产生经济成本的影响,提出了一种基于测试代价的一维决策树构造算法。本专利技术所采用的技术方案是:通过原训练示例利用EP准则得到新背景训练集ISA,在每项测试成本、经济因子和完整阔值已知的情况下,综合考虑ΔI和ICF的值依次选择属性结点,再利用分裂抽象属性的完整因子c与给定ct作比较,来得到相应的分支,在决策树生成过程中,如遇到在一个子集或分支结点中的所有样例都属于相同类别或是在一个子集或分支结点中没有待分裂的候选抽象属性,即基于平均测试代价的一维尺度决策树模型生成。本专利技术的有益效果是:采用本决策树构造算法实现了在数据分类过程中,所花费的平均测试成本低。附图说明图1表示基于平均测试代价的一维尺度决策树构造示意图图2表示ISA层次决策树结构的 ...
【技术保护点】
基于平均测试代价的一维尺度决策树构造算法,该算法涉及涉及智能服务、机器学习领域,其特征是:该算法的具体实施方案如下:通过原训练示例利用EP准则得到新背景训练集,在每项测试成本、经济因子和完整阔值已知的情况下,综合考虑和的值依次选择属性结点,再利用分裂抽象属性的完整因子与给定作比较,来得到相应的分支,在决策树生成过程中,如遇到在一个子集或分支结点中的所有样例都属于相同类别或是在一个子集或分支结点中没有待分裂的候选抽象属性,即基于平均测试代价的一维尺度决策树模型生成。
【技术特征摘要】
1.基于平均测试代价的一维尺度决策树构造算法,该算法涉及涉及智能服务、机器学习领域,其特征是:该算法的具体实施方案如下:通过原训练示例利用EP准则得到新背景训练集,在每项测试成本、经济因子和完整阔值已知的情况下,综合考虑和的值依次选择属性结点,再利用分裂抽象属性的完整因子与给定作比较,来得到相应的分支,在决策树生成过程中,如遇到在一个子集或分支结点中的所有样例都属于相同类别或是在一个子集或分支结点中没有待分裂的候选抽象属性,即基于平均测试代价的一维尺度决策树模型生成。2.根据权利要求1所述的基于平均测试代价的一维尺度决策树构造算法,其特征是:该算法的具体实施步骤如下:步骤1:定义L为类的种类,其中数为n,Li表示第i类,上述:根据EP结点类的分类准则得到新背景训练样本集ISA步骤2:专家根据实际情况,给出每项属性进行的测试成本;步骤3:用户自定义参数经济因子w和完整阔值ct,它们的范围都是[0,1];步骤4:根据信息增益与ICF(信息成本函数)遍历输入的新背景训练样本集的候选属性列表,计算每个候选属性,得出当前选择属性;步骤4.1:遍历所有ISA新背景训练样本集的属性,计算每个属性的ICF,并选择ICF值最小的属性作为平均测试代价的一维尺度决策树的根结点;步骤5:依据ISA层次结构归纳准则和抽象值的完整因子c与完整因子阔值的大小ct比较结果,作为基于测试代价的一维尺度决策树的扩展结点;步骤6:根据最优分裂属性选择因子c...
【专利技术属性】
技术研发人员:金平艳,胡成华,
申请(专利权)人:四川用联信息技术有限公司,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。