基于特征组的中医主症选择方法技术

技术编号:16456772 阅读:38 留言:0更新日期:2017-10-25 21:03
本发明专利技术公开了一种基于特征组的中医主症选择方法,包含以下步骤:1、对原始特征集进行筛选;2、利用特征聚类算法对筛选后的特征集进行聚类,得到相应的特征组;3、向每一个特征组引入一个隐变量,得到相应的隐类模型,计算隐变量与标签之间的相关性;4、根据隐变量与标签之间的相关性从大到小对特征组进行排序;步骤5、将排序后的特征组依次加入被选特征子集,建立含有隐变量的贝叶斯网络;6,计算贝叶斯网络的分类准确率,进而得到加入的特征组个数与分类准确率的曲线,通过判断曲线的收敛或者最高准确率得到相应的最优特征子集。本发明专利技术以特征组为选择目标,由多个特征所组成的特征组具有对原始数据更好的表示能力。

Feature selection method based on feature set and selection method of TCM Syndrome

The invention discloses a method for feature selection based on feature set, and the principal syndrome selection method, which comprises the following steps: 1, the original feature set selection; 2, using feature clustering algorithm to cluster feature selection after the set of features corresponding group; 3, Xiang Mei a group into a feature a hidden variable, get the latent class model, calculating the correlation between the latent variables and labels; 4, according to the correlation between the latent variables and labels from large to small group characteristics of the sort; step 5, the feature group sorted sequentially adding selected feature subset based on Bayesian networks containing hidden variables 6, Bayesian network classification; calculation accuracy, and then get the feature number and classification accuracy of the curve, through the convergence judgment curve or highest accuracy of the optimal corresponding Sign subset. The feature group is selected as the target, and the feature group composed of multiple features has better representation ability to the original data.

【技术实现步骤摘要】
基于特征组的特征选择方法、及中医主症选择方法
本专利技术涉及模式识别和机器学习研究领域,特征涉及一种基于特征组的特征选择方法。
技术介绍
特征选择(FeatureSelection)的主要目的就是从原始特征中选出符合指定评估标准的最优的特征子集,使选出的最优特征子集所构建的分类模型或者回归模型达到比特征选择之前更好的性能,通过特征选择不仅提高了模型的泛化能力,使模型可以得到更好的解释从而提高计算效率,同时也很好的降低了维数灾难的发生。在传统的特征选择算法中,特征的选择主要是针对单个的特征进行,考虑各特征与标签之间的相关性的大小,以特定的评价标准对各特征进行取舍。例如基于互信息,信息增益等特征选择算法是常用的特征选择算法。其基本思路为计算特征与分类之间的互信息的大小,在给定阈值的前提下按照互信息由大到小选择相应的特征,该算法思想简单,计算复杂度较小,且运行速度快,但该特征选择方法也存在一定的缺点:首先对于所给阈值的大小没有统一的标准,主观因素较大。其次对于所选的特征由于只考虑了特征与类别之间的相关性而忽略了特征之间的关系,可能会带来较大的的冗余,而忽略了一些重要的特征。而在现实生活中,最优特征子集所包含的特征之间往往具有一定的相关性。相对于单个特征而言,由多个特征所组成的特征组往往具有对原始数据更好的表示能力,例如在中医辨证中,证素定义为一组具有内在联系的症状与体征所组成的症状群的总称,能够准确的反应疾病的病因,病位,病性与病势等。证素是中医辨证的主要依据,也是症状的组合。也就是说通过症状的组合能够反映中医辨证中某些疾病的本质。所以在特征选择中相对于对单个特征的取舍而言通过对特征组的选择会更符合实际意义。基于上述的思想本申请提出了基于特征组的特征选择方法,与以往的考虑单个特征的舍取不同,基于特征组的特征选择方法的考虑目标为对特征组的选择,若某一特征组可以作为特征子集,则将该特征组包含的所有特征加入所选特征子集中。在基于特征组的特征选择算法中有两点重要的内容:(1)怎样通过对原始特征的划分得到各特征组。(2)以什么样的准则选择特征组作为特征子集,即以什么样的评价函数进行特征选择。
技术实现思路
针对单个特征的特征选择存在的缺陷,本专利技术的专利技术目的一在于提供了一种基于特征组的特征选择方法,根据各特征之间的关联性组成特征组,从而实现对原始数据更好的表示能力。针对在中医辨证中对应某种证型可能出现的症状可能有几十甚至上百种,会给中医辨证研究带来了困难的缺陷,本专利技术的专利技术目的在二于提供了一种基于特征组的中医主症选择方法,将证素体现在中医辨证模型中能使中医辨证模型与中医理论更加符合。本专利技术的专利技术目的一通过以下技术方案实现:一种基于特征组的特征选择方法,包含以下步骤:步骤(1)、从原始特征集中去除与标签内容无关的特征和频次出现过小的特征,得到待挑选的特征集;步骤(2)、利用特征聚类算法对待挑选的特征集中各特征进行聚类,得到相应的特征组;步骤(3)、向每一个特征组引入一个隐变量,得到相应的隐类模型,计算隐变量与标签之间的相关性;步骤(4)、根据隐变量与标签之间的相关性从大到小对特征组进行排序;步骤(5)、将排序后的特征组依次加入被选特征子集,每次加入时,将标签Y与加入的特征组中的隐变量相连,隐变量与特征组中的特征相连,从而得到含有隐变量的贝叶斯网络,对贝叶斯网络进行参数学习,计算学习好的贝叶斯网络的分类准确率;步骤(6),建立加入的特征组个数与分类准确率的曲线,通过判断曲线的收敛或者最高准确率得到相应的最优特征子集。优选地,步骤(5)中还包含设定特征子集的阈值,当被选特征子集中的特征组大于设定阈值数时则停止往被选特征子集中加入特征组。优选地,步骤(5)中采用期望最大化算法对贝叶斯网络进行参数学习。优选地,步骤(6)中采用交叉检验法计算贝叶斯网络的分类准确率。本专利技术的专利技术目的二通过以下技术方案实现:一种基于特征组的中医主症选择方法,采用上述的基于特征组的特征选择方法,其中特征为症状,隐变量为证素,标签为证型。附图说明图1为实施例基于特征组的特征选择的方法的流程示意图;图2为LC模型的示意图;图3为含有隐变量的贝叶斯网络的示意图;图4为湿浊中阻证型的贝叶斯网络分类准确率曲线。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。实施例一如图1所示,本实施例公开了一种基于特征组的特征选择方法,包含以下步骤:步骤(1)、从原始特征集中去除与标签内容无关的特征和频次出现过小的特征,得到待挑选的特征集。步骤(2)、利用特征聚类算法对待挑选的特征集中各特征进行聚类,得到相应的特征组。对于待挑选的特征集D(X1,X2...Xn,Y),其中X1,X2...Xn为n维的输入特征空间,Y为标签,利用特征聚类算法对输入特征空间X1,X2...Xn进行聚类,得到相应的特征组。对含有隐变量学习的贝叶斯网络关键在于隐变量的发现,即确定网络中隐变量的个数及其在网络中的位置。隐变量能够汇聚显变量之间的联系,且具有一定的实际意义,而相关性较大的显变量之间往往联系比较密切,可能含有某些隐藏的变量,聚类算法的基本思想为使类内变量的相关性尽可能的大,类间的相关性尽可能的小,即通过聚类得到的每一类内的变量都具有很大的相关性。步骤(3)、向每一个特征组引入一个隐变量,得到相应的隐类模型,并确定其隐变量的势的大小,即隐变量的取值个数。计算隐变量与标签之间的相关性。隐变量或者是实际存在但不易被观察到,或者是根本不存在是一些虚构的变量。虽然可能在实际中并不存在,或者是虚拟的变量,但隐变量往往蕴含着许多重要的潜在信息。隐变量引入能够汇聚变量之间复杂的依赖关系,使数据与模型之间更好的拟合从而使模型能够得到更好的解释。将该隐变量与特征组中显变量直接相连得到了相应的隐类模型(latentclassmodel,LCM),是由多个显变量与一个隐变量组成的贝叶斯网络,如图2所示,为一个LCM,其中根节点为一隐变量Y1,X1,X2,...Xn为显变量。LCM的网络结构与朴素贝叶斯相同,所不同的是其根节点为隐变量。设X为含有隐变量的贝叶斯网络中的一个隐变量,用Z1,Z2,...Zk表示所有与X相邻的节点,当模型满足以下两个条件:(1)模型中至少有两个显变量。(2)对于模型中的任一隐变量X,有当且仅当k=2,且与X相邻的节点中有一个为隐变量时,不等式严格成立。这里主要的任务是通过爬山法进行LCM的势学习,确定隐变量的取值个数。由于非正则模型不一定是最简模型,所以在后续的搜索中要求候选模型均为正则化的模型,若候选模型不满足正则化要求,则舍去不予考虑。步骤(4)、根据隐变量与标签之间的相关性从大到小对特征组进行排序。步骤(5)、将排序后的特征组依次加入被选特征子集,每次加入时,将标签Y与加入的特征组中的隐变量相连,隐变量与特征组中的特征相连,从而得到含有隐变量的贝叶斯网络,如图3所示,其中每个特征组的隐变量为特征组中的特征的父节点,标签为所有特征组的隐变量的父节点(即根节点),对贝叶斯网络进行参数学习,计算学习好的贝叶斯网络的分类准确率。设初始时,被选特征子集为空集,记为U,首先将与隐变量相关性最大的特征组所包含的特征加入U中;对贝叶斯网络进行训练预测,得到贝叶斯网络的分类准确率。第二本文档来自技高网
...
基于特征组的中医主症选择方法

【技术保护点】
一种基于特征组的特征选择方法,包含以下步骤:步骤(1)、从原始特征集中去除与标签内容无关的特征和频次出现过小的特征,得到待挑选的特征集;步骤(2)、利用特征聚类算法对待挑选的特征集中各特征进行聚类,得到相应的特征组;步骤(3)、向每一个特征组引入一个隐变量,得到相应的隐类模型,计算隐变量与标签之间的相关性;步骤(4)、根据隐变量与标签之间的相关性从大到小对特征组进行排序;步骤(5)、将排序后的特征组依次加入被选特征子集,每次加入时,将标签Y与加入的特征组中的隐变量相连,隐变量与特征组中的特征相连,从而得到含有隐变量的贝叶斯网络,对贝叶斯网络进行参数学习,计算学习好的贝叶斯网络的分类准确率;步骤(6),建立加入的特征组个数与分类准确率的曲线,通过判断曲线的收敛或者最高准确率得到相应的最优特征子集。

【技术特征摘要】
1.一种基于特征组的特征选择方法,包含以下步骤:步骤(1)、从原始特征集中去除与标签内容无关的特征和频次出现过小的特征,得到待挑选的特征集;步骤(2)、利用特征聚类算法对待挑选的特征集中各特征进行聚类,得到相应的特征组;步骤(3)、向每一个特征组引入一个隐变量,得到相应的隐类模型,计算隐变量与标签之间的相关性;步骤(4)、根据隐变量与标签之间的相关性从大到小对特征组进行排序;步骤(5)、将排序后的特征组依次加入被选特征子集,每次加入时,将标签Y与加入的特征组中的隐变量相连,隐变量与特征组中的特征相连,从而得到含有隐变量的贝叶斯网络,对贝叶斯网络进行参数学习,计算学习好的贝叶斯网络的分类准确率;步骤...

【专利技术属性】
技术研发人员:颜建军刘国萍顾巍杰郭睿燕海霞王忆勤王灼龙
申请(专利权)人:华东理工大学上海中医药大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1