一种基于单位代价收益敏感决策树的分类方法技术

技术编号:11914525 阅读:121 留言:0更新日期:2015-08-20 17:53
本发明专利技术公开一种基于单位代价收益敏感决策树的分类方法,首先针对某一应用抽取一定样本;然后由专家给定或经验统计获取代价矩阵和收益矩阵,再用样本去训练UCGS决策树;最后用UCGS决策树进行分类。本发明专利技术在代价敏感决策树模型基础上,综合考虑不同决策可能带来的代价以及收益,依据单位代价收益因子进行属性选择,构造单位代价收益敏感决策树,最后给出了依据UCGS决策树进行分类的方法。本发明专利技术可用于各种分类、智能控制等领域,为智能决策提供科学依据。

【技术实现步骤摘要】

本专利技术属于人工智能领域,具体涉及一种基于单位代价收益敏感决策树的分类方 法。
技术介绍
决策树是人工智能领域中重要的研宄课题,早期的决策树模型以分类精确性为最 高目标,最大限度地减少误分类,此一时期的研宄侧重于分裂属性选择方法和优化剪枝策 略,可以说决策树模型自ID3算法被提出以来,理论上得以长足发展,应用上也不断地推陈 出新。 以ID3为代表的传统的决策树模型必然导致分类器内在的偏向于主要的类,忽略 精度影响较小但分类结果影响重大的少数类。例如一只羊被错误地分入一群狼中的代价只 是损失一只羊,而一只狼被错误地分入一群羊中的代价则是损失一群羊。因此Elkan等提 出代价敏感决策树模型,代价敏感决策树学习算法引起广泛的研宄兴趣并取得丰硕的研宄 成果。
技术实现思路
本专利技术所要解决的是现有以ID3为代表的传统决策树模型必然会导致分类器内 在的偏向于主要的类,而忽略精度影响较小但对分类结果影响重大的少数类的问题。基于 ID3发展起来的代价敏感决策树只侧重于代价的大小忽略了不同代价所带来的收益问题。 由此,本专利技术提供一种基于单位代价收益敏感(UCGS)的决策树分类方法。 为解决上述问题,本专利技术是通过以下技术方案实现的: -种基于单位代价收益敏感决策树的分类方法,包括如下步骤: 步骤1、根据专家给定或经验统计获取的不同选择构造决策的代价矩阵和收益矩 阵;由代价矩阵获知假正样本代价FP和假反样本代价FN,由收益矩阵获知真正样本的收益 TR和真反样本的收益DF; 步骤2、选取构造单位代价收益敏感决策树的训练样本集,并用训练样本集去构造 单位代价收益敏感决策树;即 步骤2.1、创建结点N; 步骤2. 2、如果训练样本集所有的样本都属于同一个类M,则返回N为叶子结点,其 类标记为M; 步骤2. 3、如果训练样本集所有的样本不属于同一个类,并且训练样本集的候选属 性为空,返回N为叶子结点,其类标号被判为能使单位代价收益UCG最大的类;上述单位代 价收益UCG为:【主权项】1. ,其特征是,包括如下步骤: 步骤1、根据专家给定或经验统计获取的不同选择构造决策的代价矩阵和收益矩阵; 由代价矩阵获知假正样本代价FP和假反样本代价FN,由收益矩阵获知真正样本的收益TR 和真反样本的收益DF; 步骤2、选取构造单位代价收益敏感决策树的训练样本集,并用训练样本集去构造单位 代价收益敏感决策树;即 步骤2. 1、创建结点N; 步骤2. 2、如果训练样本集所有的样本都属于同一个类M,则返回N为叶子结点,其类标 记为M; 步骤2. 3、如果训练样本集所有的样本不属于同一个类,并且训练样本集的候选属性为 空,返回N为叶子结点,其类标号被判为能使单位代价收益UCG最大的类;上述单位代价收 益UCG为;其中,P为训练样本集中正样本结点的个数,q为训练样本集中反例结点的个数,FP为 假正样本代价,FN为假反样本代价,TR为真正样本的收益,DF为真反样本的收益; 步骤2. 4、如果训练样本集所有的样本不属于同一个类,并且训练样本集的候选属性为A。A2,. . .,A。,则选择使分裂属性选择因子ASF(Ai)取最大值的属性Ai作为结点N的分裂属 性,记为Amax,上述iE(1, 2,......,n}; 步骤2. 5、对应于分裂属性Am。,的每一个属性值Valj(Am。,),在结点N下生成1个分支; 每个分支的样本集合为所有属性值为Valj. (AmJ的训练样本,该样训练样本集就被分为j个 子集Sj.,上述j为自然数,表示当前属性的属性值个数; 步骤2. 6、将每个子集Sj作为新的训练样本集,并循环执行步骤2. 2-2. 5,直至训练样 本集的样本为空或属于相同的类别; 步骤3、对每一个待分类对象,检索步骤2所获得的单位代价收益敏感决策树,待分类 对象所对应的树中的结点类则为该待分类对象的类别。2. 根据权利要求1所述的,其特征是, 步骤2. 4中,若训练样本集的候选属性只有1个候选属性时,则该候选属性直接标记为结点 N的分裂属性Am"。3. 根据权利要求1所述的,其特征是, 步骤2. 4中,结点候选属性Ai的分裂属性选择因子ASF(A1)为:其中,Ai表示属性集A中的第i个属性;Averagegain(A1)表示属性Ai的平均信息增 益,TC(Ai)""mai表示属性Ai的标准化测试成本,Incr_UCG(Ai)表示属性Ai的单位代价收益 增加量。【专利摘要】本专利技术公开,首先针对某一应用抽取一定样本;然后由专家给定或经验统计获取代价矩阵和收益矩阵,再用样本去训练UCGS决策树;最后用UCGS决策树进行分类。本专利技术在代价敏感决策树模型基础上,综合考虑不同决策可能带来的代价以及收益,依据单位代价收益因子进行属性选择,构造单位代价收益敏感决策树,最后给出了依据UCGS决策树进行分类的方法。本专利技术可用于各种分类、智能控制等领域,为智能决策提供科学依据。【IPC分类】G06K9-62【公开号】CN104850862【申请号】CN201510279048【专利技术人】袁鼎荣, 周美琴, 陈诗旭, 马顺, 刘令强, 展雪梅, 李艳红 【申请人】广西师范大学【公开日】2015年8月19日【申请日】2015年5月27日本文档来自技高网...
一种基于单位代价收益敏感决策树的分类方法

【技术保护点】
一种基于单位代价收益敏感决策树的分类方法,其特征是,包括如下步骤:步骤1、根据专家给定或经验统计获取的不同选择构造决策的代价矩阵和收益矩阵;由代价矩阵获知假正样本代价FP和假反样本代价FN,由收益矩阵获知真正样本的收益TR和真反样本的收益DF;步骤2、选取构造单位代价收益敏感决策树的训练样本集,并用训练样本集去构造单位代价收益敏感决策树;即步骤2.1、创建结点N;步骤2.2、如果训练样本集所有的样本都属于同一个类M,则返回N为叶子结点,其类标记为M;步骤2.3、如果训练样本集所有的样本不属于同一个类,并且训练样本集的候选属性为空,返回N为叶子结点,其类标号被判为能使单位代价收益UCG最大的类;上述单位代价收益UCG为:其中,p为训练样本集中正样本结点的个数,q为训练样本集中反例结点的个数,FP为假正样本代价,FN为假反样本代价,TR为真正样本的收益,DF为真反样本的收益;步骤2.4、如果训练样本集所有的样本不属于同一个类,并且训练样本集的候选属性为A1,A2,...,An,则选择使分裂属性选择因子ASF(Ai)取最大值的属性Ai作为结点N的分裂属性,记为Amax,上述i∈{1,2,......,n};步骤2.5、对应于分裂属性Amax的每一个属性值Valj(Amax),在结点N下生成1个分支;每个分支的样本集合为所有属性值为Valj(Amax)的训练样本,这样训练样本集就被分为j个子集Sj,上述j为自然数,表示当前属性的属性值个数;步骤2.6、将每个子集Sj作为新的训练样本集,并循环执行步骤2.2‑2.5,直至训练样本集的样本为空或属于相同的类别;步骤3、对每一个待分类对象,检索步骤2所获得的单位代价收益敏感决策树,待分类对象所对应的树中的结点类则为该待分类对象的类别。...

【技术特征摘要】

【专利技术属性】
技术研发人员:袁鼎荣周美琴陈诗旭马顺刘令强展雪梅李艳红
申请(专利权)人:广西师范大学
类型:发明
国别省市:广西;45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1