本发明专利技术属于生物医学图像模式识别技术领域,具体涉及一种基于稳定性选择的fMRI数据特征选择方法。该方法首先根据空间邻域特征之间的相关性,以随机的方式得到分组信息;随机选取样本,得到以组为基础的特征矩阵;再用Lasso模型求解各个组的权值,并以此得到各个特征的权值,进而更新各个特征的得分向量。重复上述过程多次,得到特征的累加得分向量,然后进行特征排序及选择。本发明专利技术的方法具有计算简单,特征选择准确性高,错误控制能力强等特点,对于磁共振数据模式识别等领域特征选择与排序提供了新的有效技术。
【技术实现步骤摘要】
本专利技术属于生物医学图像模式识别
,具体涉及功能性磁共振成像(functionalmagnetic resonance imaging,fMRI)的特征选择方法。
技术介绍
目前,脑功能成像技术已得到了广泛应用,其中的功能性磁共振成像fMRI是在磁共振成像(magnetic resonance imaging,MRI)技术的基础上发展起来的,通过功能磁共振成像技术对许多生理和生物物理参数进行测量,它是进行脑功能活动探测和成像的无创伤手段。模式识别系统主要由数据获取、数据预处理、特征选择与提取和分类决策四部分组成。其中,特征选择与提取就是要根据原始数据,选择和提取最能反映分类本质的特征。fMRI数据具有样本量小,维数高的特点。如果现有的模式识别方法直接应用于fMRI数据,常会遇到过拟合和很高的计算复杂度的问题,从而约束模式识别方法得到更好的分类结果。因此,在设计一个分类器之前,用特征选择技术挑选一些与分类策略相关性强的特征来降低维度是非常有必要的。而且,特征选择在实际疾病诊断和人类认知活动研究都具有非常重要的意义。在疾病诊断中,选择出来的特征可以看作潜在的生物标记物以此来诊断、研究、治疗相关疾病;在人类认知活动研究中,通过检测与特定的认知活动有关的脑区,可以更深入的解读人类大脑工作的原理和机制。特征选择的重点是特征重要性度量。现有的度量方法包括两类,一类是基于传统统计学理论的单变量方法,如双样本t检验,F检验等。这些方法将特征选择和分类器设计分成前后两步,通过基于组比较的单个变量的统计检验得到每个特征的重要性度量。该类方法避过了fMRI数据维度高,样本数量少的挑战,但由于没有考虑特征之间的交互效应而得不到多变量交互作用的差异特征。另一类方法是以机器学习算法为基础的多变量方法。该类方法将学习到的特征权重作为特征重要性度量,但它们以分类而不是检测准确而完整的差异特征作为直接目的。比如,决策树,朴素贝叶斯,最小二乘线性分类器以及支持向量机都以一种内嵌的赋权机制来选择特征。但是这些方法对于那些相关性强的一组特征只能选择个别几个作为代表,而遗漏掉那些冗余的但有用的特征。或者,一些噪声特征可能并不带有任何与分类标签有关的信息,但是也不会影响特定分类器的分类性能,但会被选入最终的特征选择结果。因此,如何去检测“完整”而且“准确”的差异特征仍然是一个问题(从统计学的角度来说,“准确”意味着较小的假阳性率;“完整”意味着较小的假阴性率)。稳定性选择方法是一类重要的高维数据分析的方法。该类方法基于子采样,以有效控制有限样本情况下的错误发现率而著称。该类方法就如何得到“准确”的差异特征为我们提供了非常重要的指引。但是,由于fMRI数据巨大的特征-样本比、特征之间具有很强的局部相关
性等特点,稳定性选择方法并不能表现出很好的效果。近年来,考虑到fMRI数据特有的一些性质,将稳定性选择和结构稀疏相结合的思想被提出并付诸实施,并得到了良好的效果。Randomized Ward Logistic算法(Varoquaux,Alexandre Gramfort,B.T.,2012.Small-sample brain mapping:sparse recovery onspatially correlated designs with randomization and clustering.ICML.)以随机稳定性选择(Randomized Stability Selection)为基础,在每一次样本的子采样后,在特征维加入由ward聚类得到特征之间的结构信息;Randomized Structural Sparsity算法(Y.Wang,J.Zheng,S.Zhang,X.Duan,and H.Chen.:Randomized Structural Sparsity viaConstrained Block Subsampling for Improved Sensitivity of Discriminative VoxelIdentification.Neuroimage,in press(2015).)通过聚类算法得到所有训练样本特征维的结构信息,与随机稳定性选择和块子采样(block-subsampling)相结合,得到特征的频率分数。但是Randomized Ward Logistic算法和RSS算法都过分依赖于聚类算法,对聚类引入的错误,纠错能力弱;而且对于高维数据,聚类方法计算量大,耗时高。
技术实现思路
针对上述存在问题和不足,考虑到fMRI数据特征之间的相关性具有局部性,基于随机稳定性选择,结合块子采样,本专利技术提供了一种基于稳定性选择的fMRI数据特征选择方法。其具体步骤如下:步骤1、输入功能磁共振数据集和类别信息其中每一行代表一个样本,n为样本个数;每一列代表一个特征,p为特征维数;表示实数域。步骤2、给定随机惩罚因子λ>0,随机次数K,每次随机对应的行子采样率α,列子采样率β,相关性阈值μ,块半径γ,并初始化得分向量s={s1,s2,...,sp本文档来自技高网...
【技术保护点】
一种基于稳定性选择的fMRI数据特征选择方法,其具体步骤如下:步骤1、输入功能磁共振数据集和类别信息其中每一行代表一个样本,n为样本个数;每一列代表一个特征,p为特征维数;表示实数域;步骤2、给定随机惩罚因子λ>0,随机次数K,每次随机对应的行子采样率α,列子采样率β,相关性阈值μ,块半径γ,并初始化得分向量s={s1,s2,...,sp}使si=0(i=1,1,...,p);步骤3、以概率为β的贝努利分布做列子采样,得到|G|=[βp],以G中每一个特征为基础,构建|G|=[βp]个组G={g1,g2,...,g[βp]},此时|gi|=1,i=1,2...,[βp];步骤4、对G中每个组gi,以该组中当前的特征为中心,在3维空间做block,将block中与该中心点相关性高于阈值μ的特征并入该组;步骤5、以概率为α的贝努利分布对X和y做行采样,得到新的步骤6、对X中特征根据步骤4所得结果的分组情况G,对每个组所包含的特征取平均值,得到步骤7、通过和利用Lasso模型:minω~12||y-X~ω~||22+λ||ω~||1]]>求解权值其中,是[βp]维的向量,λ为优化问题中1‑范数的惩罚因子;步骤8、为所有特征赋予权值:为gi中包含的所有向量赋予的权值,如果同一个特征被不同的组包含,则其权值取这些组对应权值的平均值;不被任何组包含的特征权值为0,得到权值向量ω;步骤9、得分向量si=si+1如果i∈supporr(ω)i=1,2,...,p;步骤10、将步骤3至步骤9重复K次,得到最终的得分向量s。...
【技术特征摘要】
1.一种基于稳定性选择的fMRI数据特征选择方法,其具体步骤如下:步骤1、输入功能磁共振数据集和类别信息其中每一行代表一个样本,n为样本个数;每一列代表一个特征,p为特征维...
【专利技术属性】
技术研发人员:高晴,隋煜,陈华富,
申请(专利权)人:电子科技大学,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。