本发明专利技术公开了一种联合mRNA和microRNA表达谱芯片的肿瘤特征基因选择方法,按照以下步骤具体实施:步骤1、通过mRNA和microRNA表达谱芯片检测到大量基因的表达值,采用过滤式特征基因选择方法对所有基因的相关性进行排序,去除大量的低相关度基因,留下少量与肿瘤分类密切相关的基因;步骤2、将采用过滤式特征基因选择方法获取的mRNA和microRNA特征基因进行合并,形成基因池U;步骤3、通过遗传算法,对基因池进一步选择基因,消除冗余基因,搜索获得一个最优特征的最优基因集S。本发明专利技术的方法,步骤简单,结果准确性高。
【技术实现步骤摘要】
本专利技术属于生物医学数据分析
,涉及一种联合mRNA和microRNA表达谱 芯片的肿瘤特征基因选择方法。
技术介绍
目前快速发展的基因芯片技术具有高通量的优势,它为肿瘤研究提供了一种系统 性的研究手段。肿瘤的病因复杂,涉及基因组水平、基因调控水平和表观遗传水平的改变, 利用传统的方法难以全面展开研究,基因芯片技术可以用来区别多种常见肿瘤的分类标 志,用于帮助发现肿瘤的新分型以及与肿瘤相关的新的疾病生物标记,因此采用基因芯片 技术有明显的优势。mRNA表达谱芯片能一次检测成千上万个基因的表达值,是最早用于肿瘤研究的基 因芯片产品。1999年,Golub等人率先采用mRNA表达谱芯片对白血病的两种亚型AML 与ALL的分类问题进行了研究。Van't等人将mRNA基因表达谱用于乳腺癌的诊断中, 利用包含70个基因的表达谱,区分预后好和预后差的亚型,效果好于临床参数。 继mRNA表达谱芯片之后,microRNA表达谱芯片成为肿瘤新的研究热点。microRNA 是在真核生物中发现的一类内源性的具有调控功能的非编码RNA,其大小长约20~25个核 苷酸,microRNA通过阻断翻译或诱导靶mRNA降解,在转录后水平调苄基因表达,从而精细 地调节多种生物学过程,包括生长发育、信号转导、免疫调节、细胞死亡、细胞凋亡、细胞周 期、细胞增殖及肿瘤发生等。多数microRNA还具有高度保守性、时序性和组织特异性。人 类肿瘤microRNA表达模式与肿瘤诊断、分期、进展、预后及对治疗的反应密切相关。 在基因芯片技术中,一个众所周知的问题是其基因的数目远远大于样品数量。基 因芯片数据具有数据量大,样本数小(一般小于100),基因数量多(一般多于10000)的特 点,给后期的数据分析和处理带来很大的挑战。特征基因选择是基于基因芯片数据分类中 的关键技术。基因选择的目的是消除噪声基因,将基因数量减至最小,减少后续的分 类任务中的计算负担,并提高学习模型的预测性能。此外,一个较小的最优基因子集可 能包含着肿瘤生物标志物,且它们与某些肿瘤的表型间的生物学关系可以更方便地在后续 的分子生物学实验中进行验证,从而更好地理解肿瘤发生发展的分子机制。 常见的特征选择算法有三种,即过滤(Filter)法、缠绕(Wrapper)法和嵌入 (embedded)法。过滤法的评估函数与分类器无关,过滤法的评价函数又可以分为距离测度 、信息测度、相关性测度等。尽管使用过滤器的基因选择方法简单快速,但它 也有几个不足之处:首先,过滤法中的基因选择的标准不一定与分类器直接相关;其次,过 滤法并没有考虑到基因之间的相关性,从而降低了所选定的基因在分类器中的有效性;最 后,过滤法对于最终确定选择多少基因并无有力的理论支持,所选择的基因数量往往是随 意的。 缠绕法采用分类器的分类错误率或正确率作为评价函数,缠绕法模式的 基因选择方法在某种程度上可以克服过滤法的上述问题。在缠绕法模式的基因选择方法 中,基因逐个顺序选择,并以优化分类器准确度的方式进行。也就是说,首先使用单个基因 训练分类器,并逐个加入新的基因到训练分类器;该过程持续进行,直到分类器具有足够高 的准确度。与过滤器模式相反,缠绕法模式的基因选择方法采取为特定分类器"量身订做" 的方式。此外,该方法确保新加入的基因与已经选择的基因是互补的,而不是相关的。该方 法还提供了一个停止条件,当选择的基因数量达到所需的准确度时,计算终止。然而,该方 法的一个主要缺点是,其对计算的要求是比较高,特别是当原始的基因集所含基因数目比 较大的情况下。 嵌入法考虑到分类器的内部特征(比如支持向量机分类器里的支持向量),能 与分类器较好地耦合,从而具有较高的精确度,但同对参与特征选择的分类器依赖性大,选 择结果适应性差,需要检验选择基因对其他分类器的有效性。 尽管研究人员大量采用包括mRNA和microRNA表达谱芯片等多种基因芯片工具, 试图揭示肿瘤发生发展的分子机制,但为数众多的研究往往只是考虑一个平台的数据。比 如说,单独采用mRNA表达谱芯片进行特征基因的选择,并对肿瘤进行分子分类。然而研究 结果显示,肿瘤相关基因不但相互之间存在调控,构成网络,而且也受到包括microRNA等 非编码基因的调控。
技术实现思路
本专利技术提供了一种, 解决了现有技术往往只是考虑一个平台的数据,难以从多层面、多角度揭示肿瘤相关的分 子生物学改变的缺陷,以及单一平台对理解肿瘤的发生、发展机制以及研发诊断、判断预后 的分子标志物和治疗靶标,难以充分发挥有效的作用的问题。 本专利技术的技术方案是,一种联合mRNA和microRNA表达谱芯片的肿瘤特征基因选 择方法,按照以下步骤具体实施: 步骤1、通过mRNA和microRNA表达谱芯片检测到大量基因的表达值,采用过滤式 特征基因选择方法对所有基因的相关性进行排序,去除大量的低相关度基因,留下少量与 肿瘤分类密切相关的基因, 通过过滤式特征基因选择方法的选择实施,分别去除mRNA和microRNA表达谱芯 片中大量的低相关度基因,留下少量与肿瘤分类密切相关的基因,分别在mRNA和microRNA 表达谱中选取得分最高的η个基因; 步骤2、将采用过滤式特征基因选择方法获取的mRNA和microRNA特征基因进行合 并,形成基因池U; 步骤3、通过遗传算法,对基因池进一步选择基因,消除冗余基因,搜索获得一个最 优特征的最优基因集S,使其具有更少的基因数量和更好的分类性能。 本专利技术的有益效果是,本专利技术提出了一个联合mRNA和microRNA表达谱芯片的混 合模型,希望能从多层面、多角度揭示肿瘤相关的分子生物学改变,为理解肿瘤的发生、发 展机制以及研发诊断、判断预后的分子标志物和治疗靶标奠定基础,具体包括: 1)联合mRNA和microRNA表达谱芯片各自的优势,获得了分类准确度更高的基因 集;2)获得的基因集既包含mRNA基因,又包含microRNA基因,便于更进一步分析它们之 间的调控关系;3)该方法最终选择的基因可以被认为是更鲁棒性,并且更有资格作为可靠 的生物标志物;4)该混合模型已经包含过滤法和缠绕法,可以综合各类基因选择方法的优 势。【附图说明】 图1是本专利技术方法的工作原理示意图。【具体实施方式】 下面结合附图和【具体实施方式】对本专利技术进行详细说明。 参照图1,本专利技术的方法基于联合mRNA和microRNA表达谱芯片的肿瘤特征基因 选择混合模型,该模型的设置是,首先,分别使用多重过滤器在mRNA和microRNA表达谱芯 片中选择各自的特征基因,使用多个过滤器的过滤指标,确保在初始过滤阶段不会排除掉 有用的生物标志物。其次,将获取的mRNA和microRNA特征基因进行合并,形成基因池。最 后,采用遗传算法,进一步选择基因,目的是消除冗余基因,搜索一个最佳的子集,使其具有 更少的基因数量和更好的分类性能。 该(肿瘤特征基因选择混合模型)的设置特征是, 首先是过滤法选择,设定η=每个过滤器选择的基因数目: 采用不同过滤器R,分别计算mRNA和microRNA表达谱芯片原始基因集中所有基 因的得分并排序,选取得分最高的η个基因。 其次、将不同过滤器获得的基因进行合并本文档来自技高网...
【技术保护点】
一种联合mRNA和microRNA表达谱芯片的肿瘤特征基因选择方法,其特征在于,按照以下步骤具体实施:步骤1、通过mRNA和microRNA表达谱芯片检测到大量基因的表达值,采用过滤式特征基因选择方法对所有基因的相关性进行排序,去除大量的低相关度基因,留下少量与肿瘤分类密切相关的基因,通过过滤式特征基因选择方法的选择实施,分别去除mRNA和microRNA表达谱芯片中大量的低相关度基因,留下少量与肿瘤分类密切相关的基因,分别在mRNA和microRNA表达谱中选取得分最高的n个基因;步骤2、将采用过滤式特征基因选择方法获取的mRNA和microRNA特征基因进行合并,形成基因池U;步骤3、通过遗传算法,对基因池进一步选择基因,消除冗余基因,搜索获得一个最优特征的最优基因集S,使其具有更少的基因数量和更好的分类性能。
【技术特征摘要】
【专利技术属性】
技术研发人员:李小波,
申请(专利权)人:丽水学院,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。