面向多层文本分类的特征选择方法和装置制造方法及图纸

技术编号:6864849 阅读:367 留言:0更新日期:2012-04-11 18:40
提供了一种面向多层文本分类的特征选择方法和装置。所述方法包括:基于CHI-X2和IG的叶节点特征选择、基于改进CHI-X2的分支节点特征选择、基于IG的分支节点特征选择以及组合CHI-X2和IG的分支节点特征选择,其中,基于改进CHI-X2的特征选择能够为相同分支下每个子节点选择更有效的独有特征;组合CHI-X2和IG的分支节点特征选择能够为每个分支节点获取其所有子节点的共有特征;能够获得分支节点的文本特征,并自底向上依次迭代直至当前分支节点为根节点,获得最终的文本特征集合。

【技术实现步骤摘要】

本专利技术涉及一种特征选择方法和装置,更具体地,涉及一种涉及使用CHI-X2策略和IG策略的面向多层文本分类的特征选择方法和装置
技术介绍
一般文本分类问题假定类别之间是没有任何联系相互孤立的,称之为单层模式 (Flat),图IA示出使用单层分类的文本分类方法。在更多情况中,类别较多且关系复杂, 需要多层分类的组织方式,图IB示出使用多层分类的文本分类方法。对于多层文本分类问题,一般采用bing-Bang或自顶而下基于级别的两种策略,所使用的特征选择方法一般沿用单层分类的特征选择方法,其中最流行的是信息增益(IG)和X2检验(chi-square test, CHI-X2,也称为卡方检验)两种。bing-Bang和自顶而下两种多层分类方法是对现有单层分类方法简单扩展而来, 没能充分区分多层分类问题中不同类别的共有和独有特征,由此造成了现有的多层文本分类器分类效果不理想,准确率较低的问题。bing-Bang策略在分类预测过程中使用同一个分类器,将类别树结构的所有叶节点看成平等的类,其本质上还是一种单层分类。单层文本分类特征选择时,是将所有叶节点看作一个整体进行特征权重计算、排序和选择,会造成子节点所选特征的不均衡,直接影响分类预测的准确性。自顶而下基于级别的策略则是为不同类别或分支训练不同的分类器,每个分类器只关心当前分支的不同子节点类别。这种多个分类器的策略,所选取的特征只能够代表分支内各个子节点类别的独有性特征,没有反应出本分支节点与其他分支节点之间具有区分度的特征(即,分支内各个子节点的共性特征),忽视了分支节点之间的相关性,造成分类模型错误率较高。CHI-X2和IG是两种比较有代表性的特征权重计算及特征选择方法,能有效解决单层文本分类的特征选择问题,但它们对于多层文本分类问题,不能有效地区分子节点之间独有特征和公有特征,且引起所选择特征会出现不同节点或分支节点之间特征分布的不均衡问题。
技术实现思路
本专利技术的目的在于至少解决上述问题和/或缺点并至少提供以下描述的优点。本专利技术提供了一种面向多层文本分类的特征选择方法,所述方法包括基于 CHI-X2对多层分类训练文本的各个叶节点所提取的文本特征进行权重计算,并将各个叶节点的文本特征按照权重从大到小的顺序进行排序;基于IG对特征提取的多层训练文本的各个叶节点的文本特征进行权重计算,并将各个叶节点的文本特征按照权重从大到小的顺序进行排序;针对每个分支节点,在基于CHI-X2的叶节点权重计算的基础上,基于改进的CHI-X2权重计算公式,对当前分支节点下的所有叶节点的CHI-X2特征的权重取值进行调整并按照从大到小的顺序进行重新排序,将隶属同一子节点的每个叶节点的前K个位置的CHI-X2特征汇总以后作为所述每个叶节点所隶属的子节点的CHI-X2特征,依次将得到的子节点的CHI-X2特征向所述子节点隶属的上级节点进行汇总迭代,得到当前分支节点的 CHI-X2特征,其中,所述获得分支节点的CHI-X2特征的步骤从最底层的分支节点开始,自底向上依次迭代直至当前分支节点为根节点,得到所有分支节点的CHI-X2特征,基于改进的 CHI-X2权重计算公式的特征选择方法能够为相同分支节点下每个子节点选择更有效的独有特征;针对每个分支节点,在基于IG的叶节点权重计算的基础上,将当前分支节点下的所有子节点的IG特征进行汇总,并按照权重从大到小的顺序进行排序,将其结果作为当前分支节点的IG特征,其中,所述获得分支节点的IG特征的步骤从最底层的分支节点开始, 自底向上依次迭代直至当前分支节点为根节点,得到所有分支节点的IG特征;针对每个分支节点,基于当前分支节点的CHI-X2特征和IG特征,从当前分支节点的CHI-X2特征中删除排在当前分支节点的IG特征中前N个位置的特征,添加排在当前分支节点的IG特征中后M 个位置的特征,将新的CHI-X2特征作为当前分支节点的最终特征,基于组合的CHI-X2特征和IG特征的分支节点特征选择方法,能够为每个分支节点获取其所有子节点的共有特征。改进的CHI-X2权重计算公式是 ^ew.X^t,^) = (Χ2α,0)2Λ·(Χ2α,*)),其中, Ci表示类别,t表示特征。子节点是分支节点分支而来的节点。本专利技术提供了一种面向多层文本分类的特征选择装置,所述装置包括基于 CHI-X2的叶节点特征选择模块,基于CHI-X2对多层分类训练文本的各个叶节点所提取的文本特征进行权重计算,并将各个叶节点的文本特征按照权重从大到小的顺序进行排序; 基于IG的叶节点特征选择模块,基于IG对多层训练文本的各个叶节点所提取的文本特征进行权重计算,并将各个叶节点的文本特征按照权重从大到小的顺序进行排序;基于改进 CHI-X2的分支节点特征选择模块,针对每个分支节点,在基于CHI-X2的叶节点权重计算的基础上,基于改进的CHI-X2权重计算公式,对当前分支节点下的所有叶节点的CHI-X2特征的权重取值进行调整并按照从大到小的顺序进行重新排序,将隶属同一子节点的每个叶节点的前K个位置的CHI-X2特征汇总以后作为所述每个叶节点所隶属的子节点的CHI-X2特征,依次将得到的子节点的CHI-X2特征向所述子节点隶属的上级节点进行汇总迭代,得到当前分支节点的CHI-X2特征,其中,所述获得分支节点的CHI-X2特征的步骤从最底层的分支节点开始,自底向上依次迭代直至当前分支节点为根节点,得到所有分支节点的CHI-X2 特征;基于IG的分支节点特征选择模块,针对每个分支节点,在基于IG的叶节点权重计算的基础上,将当前分支节点下的所有子节点的IG特征进行汇总,并按照权重从大到小的顺序进行排序,将其结果作为当前分支节点的IG特征,其中,获得分支节点的IG特征的步骤从最底层的分支节点开始,自底向上依次迭代直至当前分支节点为根节点,得到所有分支节点的IG特征;组合CHI-X2和IG的分支节点特征选择模块,针对每个分支节点,基于当前分支节点的CHI-X2特征和IG特征,从当前分支节点的CHI-X2特征中删除排在当前分支节点的IG特征中前N个位置的特征,添加排在当前分支节点的IG特征中后M个位置的特征, 将新的CHI-X2特征作为当前分支节点的最终特征。改进的CHI-X2权重计算公式是 ^ew.X^t,^) = (Χ2α,(^))2Λ·(Χ2α,*)),其中, Ci表示类别,t表示特征。子节点是分支节点分支而来的节点。将在接下来的描述中部分阐述本专利技术另外的方面和/或优点,还有一部分通过描述将是清楚的,或者可以经过本专利技术的实施而得知。附图说明通过下面结合附图进行的描述,本专利技术的示例性实施例的上述和其它方面、特点和优点将会变得更加清楚,其中图IA示出使用单层分类的文本分类方法;图IB示出使用多层分类的文本分类方法;图2是示出根据本专利技术示例性实施例的面向多层文本分类的特征选择装置的示图;图3是示出根据本专利技术示例性实施例的面向多层文本分类的特征选择方法的流程图。具体实施例方式以下,参照附图来详细说明本专利技术的示例性实施例,其中,附图中相同的标号始终表示相同的部件。本专利技术不限于上述示例性实施例,在不脱离本专利技术范围的情况下,可以进行各种变形和修改。图2是示出根据本专利技术示例性实施例的面向多层文本分类本文档来自技高网
...

【技术保护点】
1.一种面向多层文本分类的特征选择方法,所述方法包括:基于CHI-X2对多层分类训练文本的各个叶节点所提取的文本特征进行权重计算,并将各个叶节点的文本特征按照权重从大到小的顺序进行排序;基于IG对多层分类训练文本的各个叶节点所提取的文本特征进行权重计算,并将各个叶节点的文本特征按照权重从大到小的顺序进行排序;针对每个分支节点,在基于CHI-X2的叶节点权重计算的基础上,基于改进的CHI-X2权重计算公式,对当前分支节点下的所有叶节点的CHI-X2特征的权重取值进行调整并按照从大到小的顺序进行重新排序,将隶属同一子节点的每个叶节点的前K个位置的CHI-X2特征汇总以后作为所述每个叶节点所隶属的子节点的CHI-X2特征,依次将得到的子节点的CHI-X2特征向所述子节点隶属的上级节点进行汇总迭代,得到当前分支节点的CHI-X2特征,其中,所述获得分支节点的CHI-X2特征的步骤从最底层的分支节点开始,自底向上依次迭代直至当前分支节点为根节点,得到所有分支节点的CHI-X2特征;针对每个分支节点,在基于IG的叶节点权重计算的基础上,将当前分支节点下的所有子节点的IG特征进行汇总,并按照权重从大到小的顺序进行排序,将其结果作为当前分支节点的IG特征,其中,所述获得分支节点的IG特征的步骤从最底层的分支节点开始,自底向上依次迭代直至当前分支节点为根节点,得到所有分支节点的IG特征;针对每个分支节点,基于当前分支节点的CHI-X2特征和IG特征,从当前分支节点的CHI-X2特征中删除排在当前分支节点的IG特征中前N个位置的特征,添加排在当前分支节点的IG特征中后M个位置的特征,将新的CHI-X2特征作为当前分支节点的最终特征。...

【技术特征摘要】

【专利技术属性】
技术研发人员:刘思培王进彭鸽姜赢
申请(专利权)人:三星电子中国研发中心三星电子株式会社
类型:发明
国别省市:84

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1