The invention discloses a method for feature selection based on feature set, and the principal syndrome selection method, which comprises the following steps: 1, the original feature set selection; 2, using feature clustering algorithm to cluster feature selection after the set of features corresponding group; 3, Xiang Mei a group into a feature a hidden variable, get the latent class model, calculating the correlation between the latent variables and labels; 4, according to the correlation between the latent variables and labels from large to small group characteristics of the sort; step 5, the feature group sorted sequentially adding selected feature subset based on Bayesian networks containing hidden variables 6, Bayesian network classification; calculation accuracy, and then get the feature number and classification accuracy of the curve, through the convergence judgment curve or highest accuracy of the optimal corresponding Sign subset. The feature group is selected as the target, and the feature group composed of multiple features has better representation ability to the original data.
【技术实现步骤摘要】
基于特征组的特征选择方法、及中医主症选择方法
本专利技术涉及模式识别和机器学习研究领域,特征涉及一种基于特征组的特征选择方法。
技术介绍
特征选择(FeatureSelection)的主要目的就是从原始特征中选出符合指定评估标准的最优的特征子集,使选出的最优特征子集所构建的分类模型或者回归模型达到比特征选择之前更好的性能,通过特征选择不仅提高了模型的泛化能力,使模型可以得到更好的解释从而提高计算效率,同时也很好的降低了维数灾难的发生。在传统的特征选择算法中,特征的选择主要是针对单个的特征进行,考虑各特征与标签之间的相关性的大小,以特定的评价标准对各特征进行取舍。例如基于互信息,信息增益等特征选择算法是常用的特征选择算法。其基本思路为计算特征与分类之间的互信息的大小,在给定阈值的前提下按照互信息由大到小选择相应的特征,该算法思想简单,计算复杂度较小,且运行速度快,但该特征选择方法也存在一定的缺点:首先对于所给阈值的大小没有统一的标准,主观因素较大。其次对于所选的特征由于只考虑了特征与类别之间的相关性而忽略了特征之间的关系,可能会带来较大的的冗余,而忽略了一些重要的特征。而在现实生活中,最优特征子集所包含的特征之间往往具有一定的相关性。相对于单个特征而言,由多个特征所组成的特征组往往具有对原始数据更好的表示能力,例如在中医辨证中,证素定义为一组具有内在联系的症状与体征所组成的症状群的总称,能够准确的反应疾病的病因,病位,病性与病势等。证素是中医辨证的主要依据,也是症状的组合。也就是说通过症状的组合能够反映中医辨证中某些疾病的本质。所以在特征选择中相对于对单个特 ...
【技术保护点】
一种基于特征组的特征选择方法,包含以下步骤:步骤(1)、从原始特征集中去除与标签内容无关的特征和频次出现过小的特征,得到待挑选的特征集;步骤(2)、利用特征聚类算法对待挑选的特征集中各特征进行聚类,得到相应的特征组;步骤(3)、向每一个特征组引入一个隐变量,得到相应的隐类模型,计算隐变量与标签之间的相关性;步骤(4)、根据隐变量与标签之间的相关性从大到小对特征组进行排序;步骤(5)、将排序后的特征组依次加入被选特征子集,每次加入时,将标签Y与加入的特征组中的隐变量相连,隐变量与特征组中的特征相连,从而得到含有隐变量的贝叶斯网络,对贝叶斯网络进行参数学习,计算学习好的贝叶斯网络的分类准确率;步骤(6),建立加入的特征组个数与分类准确率的曲线,通过判断曲线的收敛或者最高准确率得到相应的最优特征子集。
【技术特征摘要】
1.一种基于特征组的特征选择方法,包含以下步骤:步骤(1)、从原始特征集中去除与标签内容无关的特征和频次出现过小的特征,得到待挑选的特征集;步骤(2)、利用特征聚类算法对待挑选的特征集中各特征进行聚类,得到相应的特征组;步骤(3)、向每一个特征组引入一个隐变量,得到相应的隐类模型,计算隐变量与标签之间的相关性;步骤(4)、根据隐变量与标签之间的相关性从大到小对特征组进行排序;步骤(5)、将排序后的特征组依次加入被选特征子集,每次加入时,将标签Y与加入的特征组中的隐变量相连,隐变量与特征组中的特征相连,从而得到含有隐变量的贝叶斯网络,对贝叶斯网络进行参数学习,计算学习好的贝叶斯网络的分类准确率;步骤...
【专利技术属性】
技术研发人员:颜建军,刘国萍,顾巍杰,郭睿,燕海霞,王忆勤,王灼龙,
申请(专利权)人:华东理工大学,上海中医药大学,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。