System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于遗传算法的生物标志物识别方法技术_技高网
当前位置: 首页 > 专利查询>东北大学专利>正文

一种基于遗传算法的生物标志物识别方法技术

技术编号:41385226 阅读:3 留言:0更新日期:2024-05-20 19:06
本发明专利技术提供一种基于遗传算法的生物标志物识别方法,涉及机器学习技术领域。该方法首先利用mRMR算法对高维的基因微阵列数据进行过滤;然后通过多种机器学习方法的特征选择结果与OBL算法相结合生成初始化种群,最后使用改进的遗传算法进行最优特征子集的选择,实现生物标志物的识别。该方法融合了不同特征选择算法的优势,还结合了全局搜索和局部搜索进行特征选择,得到的最优个体向量能够保留较少的特征数目且具备较高的分类准确率,实现了较好的分类效果。

【技术实现步骤摘要】

本专利技术涉及机器学习,尤其涉及一种基于遗传算法的生物标志物识别方法


技术介绍

1、随着科学技术的发展,生物医学数据分析引起了越来越多研究人员的关注,临床上已证实很多疾病同基因之间存在着密切的关系。通常,表达水平与疾病发生高度相关的基因被称为生物标志物。生物标志物的发现对于研究人员以及医学或制药公司而言都是至关重要的。为寻找信息最丰富的标志物以及过滤多余和不相关的标志物,微阵列数据分析(特征选择)技术应运而生,该技术能选择有效的标志物,这些标志物可以实现对疾病的预测、诊断。

2、特征选择用于选择最重要的基因特征,同时最大限度地提高分类准确率,可实现生物标志物的提取。根据评估标准的不同,特征选择方法可分为三类:过滤法(filter)、包装法(wrapper)和嵌入法(embedded)。过滤法通过单独评估每个特征和统计评分来选择特征,而不使用任何分类器。包装法使用分类器的性能准确性来评估特征,在性能方面比过滤法更有效,但计算成本较高。嵌入法的模型效果在过滤法与包装法之间,但需要模型的支持。使用一种特征选择方法并不能保证获得普遍最优的特征子集。因此,混合的特征选择方法运行不同的特征选择技术,其中每种技术都会生成一个单独的特征子集,然后混合式特征选择方法将生成的特征子集组合在一起,形成最终的特征子集作为其结果。

3、遗传算法(genetic algorithm,ga)是一类受生物学进化理论启发的进化算法,通过利用进化生物学中已知的“适者生存”概念解决搜索和优化问题。该算法在搜索空间中寻找产生最佳适应度的特征子集,包含初始化种群、适应度函数计算、选择、交叉、变异五个部分。在特征选择中使用该优化算法的主要原因是,它可以在可接受的时间内返回更接近最优解或最优解的解,适用于高维复杂优化问题。


技术实现思路

1、本专利技术要解决的技术问题是针对上述现有技术的不足,提供一种基于遗传算法的生物标志物识别方法,实现生物标志物的识别。

2、为解决上述技术问题,本专利技术所采取的技术方案是:一种基于遗传算法的生物标志物识别方法,通过mrmr算法对高维的基因微阵列数据进行过滤,保留m个特征;再通过多种机器学习算法对过滤后的基因微阵列数据进行特征选择,结合特征选择结果与obl算法得到初始化种群,然后通过加入聚类,改进遗传算子与种群更新操作平衡全局搜索和局部优化,从而保留最优特征子集,实现生物标志物的识别。

3、具体包括以下步骤:

4、步骤1:获取基因微阵列数据集,并采用过滤法对基因微阵列数据进行初步基因筛选;

5、获取基因微阵列数据集,利用最小冗余最大相关算法mrmr对给定的基因微阵列数据进行过滤,保留和目标基因具有最小冗余和最大相关的特征,初步得到m个特征构成的特征样本数据集data;

6、步骤2:通过改进的遗传算法进一步对特征样本数据集data进行生物标志物选择;

7、步骤2.1:分别利用lasso、ridge、相关系数、逻辑回归、决策树和随机森林六种机器学习算法对特征样本数据集data进行特征选择,对不同算法选择的特征结果求并集得到特征子集l并剔除l中重复的元素得到去重后的特征子集;

8、步骤2.2:根据步骤2.1中去重后的特征子集与特征样本数据集data中的m个特征生成原始个体向量individual,个体向量中每个元素值取值为1或0,1表示当前元素所对应的特征被选择,0则表示未被选择;

9、步骤2.3:设定遗传算法的参数,包括种群大小np、最大迭代次数g、染色体长度p和交叉概率pc;

10、步骤2.4:采用obl算法,随机初始化种群,针对随机生成好的种群,生成对立种群,保留两种群中适应度值更大的个体向量;

11、步骤2.4.1:根据步骤2.3设定的参数及原始个体向量individual,随机初始化种群pop,其中每条染色体个体向量的维度为染色体长度p,每条染色体由二进制编码0、1组成;

12、步骤2.4.2:对种群pop中每个个体向量取反,生成对立种群op_pop;

13、步骤2.4.3:计算种群pop、op_pop中每个个体的适应度值;

14、步骤2.4.3.1:在特征样本数据集data中将个体向量中元素值为0的特征数据剔除,得到新的特征样本数据集data_x;

15、步骤2.4.3.2:使用支持向量机svm对新的特征样本数据集data_x进行五折交叉验证,输出每次svm的分类准确率acci,i=1,2,3,4,5,计算5次平均分类准确率acc;

16、步骤2.4.3.3:设定控制参数α,α∈[0,1),计算当前个体向量中被选择的特征数目p,进而得到基于加权和的适应度函数f(x),如下公式所示:

17、

18、步骤2.4.4:依次比较种群pop、op_pop中每个个体向量的适应度值f(xj),j=1,2,…,np,保留种群pop、op_pop中相同索引位置下适应度值最大的个体向量并加入当前种群cur_pop作为第j个个体;

19、步骤2.5:对当前种群cur_pop进行聚类操作;

20、步骤2.5.1:设定聚类分簇参数n,使用kmeans算法将当前种群cur_pop聚类成为n个类别;

21、步骤2.5.2:每个类别分别记为子种群popn,则表示当前种群cur_pop的公式如下所示:

22、cur_pop={pop0∪pop1∪…∪popn-1}

23、步骤2.6:对聚类后各子种群进行交叉操作;

24、步骤2.6.1:分别计算不同子种群popn的平均适应度值mn并进行排序,选择平均适应度值在前2名的子种群进行簇间交叉操作;

25、步骤2.6.2:设定步骤2.6.1中选择的子种群分别为popn和popm,根据轮盘赌算法分别在两个子种群中选择个体popn,u和popm,v,u、v为两个体在种群中的位置;

26、步骤2.6.3:采用单点交叉策略实现两个个体的交叉操作,即将两个体基于随机生成的交叉点位互换染色体片段,完成交叉过程,生成两个子代个体;

27、步骤2.6.4:分别计算交叉前后四个个体的适应度值,如果mn≥mm,则将适应度值最大的个体复制到个体popn,u中,适应度值第二大的个体复制到个体popm,v中;否则将适应度值最大的个体复制到个体popm,v中,适应度值第二大的个体复制到个体popm,u中;

28、步骤2.6.5:分别在各子种群popn中基于轮盘赌算法选择两个个体popn,a和popn,b做父代个体进行单点交叉操作,其中a≠b,交叉后产生两个子代个体;分别计算父代子代四个个体的适应度值,将适应度值最大和第二大的个体替换个体popn,a和popn,b;

29、步骤2.7:更新当前种群cur_pop,将每个个体向量替换为交叉后各子种群中的个体向量;

30、步骤2.8:本文档来自技高网...

【技术保护点】

1.一种基于遗传算法的生物标志物识别方法,其特征在于:对高维的基因微阵列数据进行过滤,保留M个特征;再通过多种机器学习算法对过滤后的基因微阵列数据进行特征选择,结合特征选择结果与OBL算法得到初始化种群,然后通过加入聚类,改进遗传算子与种群更新操作平衡全局搜索和局部优化,从而保留最优特征子集,实现生物标志物的识别。

2.根据权利要求1所述的一种基于遗传算法的生物标志物识别方法,其特征在于:包括以下步骤:

3.根据权利要求2所述的一种基于遗传算法的生物标志物识别方法,其特征在于:所述步骤1利用最小冗余最大相关算法mRMR对给定的基因微阵列数据进行过滤,保留和目标基因具有最小冗余和最大相关的特征,初步得到M个特征构成的特征样本数据集data。

4.根据权利要求2所述的一种基于遗传算法的生物标志物识别方法,其特征在于:所述步骤2.1分别利用Lasso、Ridge、相关系数、逻辑回归、决策树和随机森林六种机器学习算法对特征样本数据集data进行特征选择。

5.根据权利要求2所述的一种基于遗传算法的生物标志物识别方法,其特征在于:所述步骤2.4的具体方法为:

6.根据权利要求5所述的一种基于遗传算法的生物标志物识别方法,其特征在于:所述步骤2.4.3的具体方法为:

7.根据权利要求6所述的一种基于遗传算法的生物标志物识别方法,其特征在于:所述步骤2.5的具体方法为:

8.根据权利要求7所述的一种基于遗传算法的生物标志物识别方法,其特征在于:所述步骤2.6的具体方法为:

9.根据权利要求8所述的一种基于遗传算法的生物标志物识别方法,其特征在于:所述步骤2.8的具体方法为:

...

【技术特征摘要】

1.一种基于遗传算法的生物标志物识别方法,其特征在于:对高维的基因微阵列数据进行过滤,保留m个特征;再通过多种机器学习算法对过滤后的基因微阵列数据进行特征选择,结合特征选择结果与obl算法得到初始化种群,然后通过加入聚类,改进遗传算子与种群更新操作平衡全局搜索和局部优化,从而保留最优特征子集,实现生物标志物的识别。

2.根据权利要求1所述的一种基于遗传算法的生物标志物识别方法,其特征在于:包括以下步骤:

3.根据权利要求2所述的一种基于遗传算法的生物标志物识别方法,其特征在于:所述步骤1利用最小冗余最大相关算法mrmr对给定的基因微阵列数据进行过滤,保留和目标基因具有最小冗余和最大相关的特征,初步得到m个特征构成的特征样本数据集data。

4.根据权利要求2所述的一种基于遗传算法的生物标志物识别...

【专利技术属性】
技术研发人员:栗伟赵敏清潘智超谢维冬冯朝路杨金柱覃文军曹鹏赵大哲
申请(专利权)人:东北大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1