一种基于双阶遗传计算的基因表达数据的双聚类方法技术

技术编号：11390877 阅读：115 留言：0更新日期：2015-05-02 02:57

本发明专利技术公开了一种基于双阶遗传计算的基因表达数据的双聚类方法，将矩阵M中的每一列减去第k列得到矩阵M(k)，k＝1，2，…，n；对M(k)的每一列进行层次聚类，得到双聚类种子的集合；通过遗传计算获得对应的双聚类。本发明专利技术所述的算法，可解决传统基于遗传计算的双聚类算法只能针对双聚类进行选择的缺点，通过同时对行列进行优化，可提高搜索效率，并获得更优的双聚类分析效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于双阶遗传计算的基因表达数据的双聚类方法
本专利技术涉及数据挖掘处理领域，特别涉及一种基于双阶遗传计算的基因表达数据的双聚类方法。
技术介绍
DNA微阵列技术的出现和发展使得人们可以同时检测数以千计的基因并测量其转录mRNA的表达水平。通过在多个实验条件(如不同的实验环境,不同的时间点，不同的组织样本)下反复地实验,可以搜集到上百个实验的基因表达数据。基因表达数据矩阵的行代表一个基因在不同环境条件下或不同时间点的表达，列代表不同条件或样本下(如组织、实验条件、处理因素等)所有基因的表达情况，矩阵中的数据表示特定的基因在特定的样本中的表达水平。从获取基因表达数据的具体过程来分析,可以得出基因表达数据有(1)数据量巨大；(2)高维性；(3)高噪声；(4)高冗余等特点,这对数据分析算法的研究提出了更高要求和挑战。怎样对这些海量的基因表达数据进行分析并发掘其中隐藏的信息,是当今生物信息学的一个研究热点，也是数据挖掘领域中亟待解决的问题。
技术实现思路
本专利技术的目的在于克服现有技术的缺点与不足，提供一种基于双阶遗传计算的基因表达数据的双聚类方法。本专利技术的目的通过以下的技术方案实现：一种基于双阶遗传计算的基因表达数据的双聚类方法，包含以下顺序的步骤：1)设基因表达数据矩阵为M，行数为m，列数为n，即基因表达数据矩阵的大小为m×n，将原始的数据矩阵M的每一行减去第k行，得到处理之后的矩阵M(k),k＝1,2,…,n；2)对处理之后的矩阵M(k)中除了第k列之外的每一列，使用距离阈值为cof的层次聚类，得到每一列的双聚类种子，然后将所有得到的双聚类种子全部放入一...
一种基于双阶遗传计算的基因表达数据的双聚类方法

【技术保护点】
一种基于双阶遗传计算的基因表达数据的双聚类算法，其特征在于，包含以下顺序的步骤：1)设基因表达数据矩阵为M，行数为m，列数为n，即基因表达数据矩阵的大小为m×n，将原始的数据矩阵M的每一行减去第k行，得到处理之后的矩阵M(k),k＝1,2,…,n；2)对处理之后的矩阵M(k)中除了第k列之外的每一列，使用距离阈值为cof的层次聚类，得到每一列的双聚类种子，然后将所有得到的双聚类种子全部放入一个名为Bic_Set的集合；3)从Bic_Set的集合中选取一个双聚类种子，对未包含其中的行列进行编码；将未包含的行列作为搜索空间，每个行和列作为一个个体，随机选择Ni行和Nj列，令N1＝Ni+Nj，即随机选择N1个个体，构成了初始化种群P1；将选中的行和列的位置记为1，没有选中的行和列的位置记为0，则得到种群P1的编码；4)将初始化的P1种群的N1个个体分别独立的加进双聚类种子中，得到N2个已扩大的双聚类，其中N1＝N2，每个双聚类作为一个个体，由N2个个体构成初始种群P2，然后对每个双聚类进行二进制编码，编码的长度为m+n，前m位用于行编码，后n位用于列编码，将双聚类中包含的行和列对应的位置置为...

【技术特征摘要】
1.一种基于双阶遗传计算的基因表达数据的双聚类方法，其特征在于，包含以下顺序的步骤：1)设基因表达数据矩阵为M，行数为m，列数为n，即基因表达数据矩阵的大小为m×n，将原始的数据矩阵M的每一行减去第k行，得到处理之后的矩阵M(k),k＝1,2,…,n；2)对处理之后的矩阵M(k)中除了第k列之外的每一列，使用距离阈值为cof的层次聚类，得到每一列的双聚类种子，然后将所有得到的双聚类种子全部放入一个名为Bic_Set的集合；3)从Bic_Set的集合中选取一个双聚类种子，对未包含其中的行列进行编码；设遗传算法的迭代次数为ui，其中i＝1,2,…,t；将未包含的行列作为搜索空间，每个行和列作为一个个体，随机选择Ni行和Nj列，令N1＝Ni+Nj，即随机选择N1个个体，构成了初始化的种群P1(u1)；将选中的行和列的位置记为1，没有选中的行和列的位置记为0，则得到初始化的种群P1(u1)的编码；4)将初始化的种群P1(u1)的N1个个体分别独立的加进双聚类种子中，得到N2个已扩大的双聚类，其中N1＝N2，每个双聚类作为一个个体，由N2个个体构成初始化的种群P2(u1)，然后对每个双聚类进行二进制编码，编码的长度为m+n，前m位用于行编码，后n位用于列编码，将双聚类中包含的行和列对应的位置置为1；经过以上步骤就得到初始化的种群P2(u1)中双聚类的编码；至此，得到了初始化的种群P1(u1)和初始化的种群P2(u1)；5)接着使用适应度函数Fitness1(p)评价初始化的种群P1(u1)中每个个体的适应度，设变异概率为β；从N1个个体中选择(1-β)×N1个适应度高的个体，将其遗传到下一代种群中，然后将β×N1个适应度低的个体进行变异，得到新的β×N1个体，即重新随机选取β×N1个新的行或者列；然后将变异得到的新的个体也加入下一代种群中，由此得到种群P1(u2)中新的N1个个体，其中适应度函数为Fitness1(p)＝Bicluster.Msr-Bicluster.Msr(p)，Bicluster.Msr是种群P1中第p个个体对应产生的种群p2中的双聚类的平均平方残基，Bicluster.Msr(p)是去掉第p行或者第p列之后的双聚类的平均平方残基；至此，新一代的种群P1(u2)的遗传进化完成；6)然后使用适应度函数Fitn...

【专利技术属性】
技术研发人员：黄庆华，杨杰，黄仙海，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人