一种由生物芯片数据构建多类别特异表达分子集及类别网的方法及其应用和评价方法技术

技术编号:9837881 阅读:162 留言:0更新日期:2014-04-02 01:52
本发明专利技术提供的由生物芯片数据构建多类别特异表达分子集及类别网的方法包括:设置和输入n组芯片数据;筛选多组间差异表达的分子;计算差异表达分子在任意两组间的表达差异,得到每个分子的差异表达模式编码;将具有相同编码模式的分子归为同一组,得到m个阶段特异表达分组;采用单侧Fisher精确检验进行富集分析,得到类别特异表达的分子集合;构建各状态间的连接网络,得到类别网。该方法有利于对疾病状态进展的预测,对临床的诊疗具有重要意义。此外,本发明专利技术还提供了一种评价由生物芯片数据构建的多类别特异表达分子集的分类能力的方法,以及一种由生物芯片数据构建多类别特异表达分子集及类别网的方法的应用。

【技术实现步骤摘要】
一种由生物芯片数据构建多类别特异表达分子集及类别网的方法及其应用和评价方法
本专利技术涉及生物信息学领域,具体涉及一种由生物芯片数据构建多类别特异表达分子集及类别网的方法及其应用和评价方法。
技术介绍
随着人类基因组测序的完成,基于高通量的生物芯片分析,可显著提高寻找生物学标记的能力,极大的提高制药业等行业的研发效率,加快产业化进程。一次芯片实验可获取大量分子的表达信息,如人类mRNA芯片可一次性检测3万左右的基因,人类microRNA芯片一次性可检测1千左右的microRNA。分析芯片数据最重要的步骤之一为合理的从大量分子表达信息中挖掘表达具有生物学意义的分子,即差异表达的分子。要进行差异表达的分析必须保证样本类别至少为两类。对于两类样本的芯片数据,传统的方法通常为倍数分析法或t检验。t检验可检测两类样本的分子表达值的均值间是否存在显著的统计学差异。对于多类样本,传统的方法为采用方差分析的方法。方差分析是从观测变量的方差入手,研究众多控制变量中哪些变量是对观测变量有显著影响的变量。但是,仅从统计学角度出发会导致结果不具备实际应用价值。因此,有必要提供一种兼顾统计分析、模式识别以及生物学意义对生物芯片数据进行差异表达分析,提高分析结果的实际应用价值的方法。
技术实现思路
为解决上述问题,本专利技术第一方面提供了一种由生物芯片数据构建多类别特异表达分子集及类别网的方法,该方法通过基于差异表达模式对生物芯片进行多类别的分析,综合了统计学分析、模式识别以及生物学意义的优势。该方法还构建了类别网络,有利于对疾病状态进展的预测,对临床的诊疗具有重要意义。本专利技术第二方面提供了一种评价由生物芯片数据构建的多类别特异表达分子集的分类能力的方法,本专利技术第三方面提供了一种由生物芯片数据构建多类别特异表达分子集及类别网的方法的应用。第一方面,本专利技术提供了一种由生物芯片数据构建多类别特异表达分子集及类别网的方法,包括以下步骤:(1)设置和输入n组芯片数据;(2)筛选多组间差异表达的分子,包括:对任意一个分子进行多组间的单因素方差分析,并为所得统计值设定阈值;判断所得统计值是否符合阈值要求,如果判断结果为否,则抛弃;如果判断结果为是,则输出识别结果,执行下一步;(3)通过统计学检验的方法计算多组间差异表达分子在任意两组间的表达差异,为所得统计值设定阈值;并针对多组间差异表达分子中的每个分子,构建长度为的向量,如果所得统计值高于阈值,则在向量中相应的位置记为0,反之,记为1,得到多组间差异表达分子中的每个分子的差异表达模式编码;(4)根据步骤(3)所得每个分子的差异表达模式编码将分子进行分组,其中,具有相同编码模式的分子归为同一组,得到m个阶段特异表达分组;(5)筛选多组间差异表达的分子,包括采用Fisher精确检验对所得m个阶段特异表达分组进行富集分析,包括:以基因注释生物学信息为对照,对各阶段特异表达分组中的每个分子进行注释,保留各阶段特异表达分组中可以富集到相同生物功能节点的分子,组成类别特异表达的分子集合;(6)根据类别特异分子集构建各状态间的连接网络,得到类别网。本专利技术提供了一种由生物芯片数据构建多类别特异表达分子集及类别网的方法,该方法先采用统计学的方法筛选出差异表达分子,并统计差异表达分子的表达编码模式,然后再结合生物注释数据库的已知信息,对差异表达分子的表达编码模式进行富集分析,并构建了类别网络。本专利技术提供的方法综合了统计学分析、模式识别以及生物学意义的优势。该方法构建的类别网络,有利于对疾病状态进展的预测,对临床的诊疗具有重要意义。本专利技术提供的方法首先对任意一个分子进行多组间的单因素方差分析,筛选出多组间差异表达的分子,初步筛除非差异表达的分子。随后,通过统计学检验的方法计算所得多组间差异表达分子在任意两组间的表达差异,找出差异表达分子具体在哪两组数据中存在表达差异;并为每个分子在不同组间的差异表达情况标记表达编码0或1,将具有同一种表达编码模式的分子归为一类。之后结合现有的生物数据库等信息,对归类后的差异表达分子进行富集分析,筛选出具有生物意义的差异表达分子,为临床等实际研究、应用提供参考。优选地,所述步骤(1)中,所述n不小于3,所述n组芯片数据的分组依据为根据不同生理状态将数据进行分组。优选地,所述步骤(2)中,所述对任意一个分子进行多组间的单因素方差分析的方法为F分布检验,包括:为每个分子计算统计量p值,计算公式为p=P{F(r-1,n-r)>F}。优选地,所述步骤(2)中,所述所得统计值设定的阈值为0.05。优选地,所述步骤(2)中,所述判断所得统计值是否符合阈值要求,如果判断结果为否,则抛弃;如果判断结果为是,则输出识别结果,执行下一步的过程包括:如果统计量p大于阈值,则抛弃此分子;如果统计量p不大于阈值,则输出识别结果,执行下一步,其中,所述阈值为0.05。优选地,所述步骤(3)中,所述计算多组间差异表达分子在任意两组间的表达差异的统计学检验方法为t检验。优选地,所述步骤(3)中,所述为统计值设定的阈值为0.05。优选地,所述步骤(4)中,所述m为自然数,且不大于优选地,所述步骤(5)中,所述对所得m个阶段特异表达分组进行富集分析所采用的Fisher精确检验为单侧Fisher精确检验。所述步骤(5)中,所述对所得m个阶段特异表达分组进行富集分析的方法优选为采用单侧Fisher精确检验,其他具有类似分析功能的统计学分析方法为本专利技术采用的单侧Fisher精确检验的较差替代。优选地,所述步骤(5)中,所述基因注释生物学信息为以下数据库或信息:基因本体论数据库的三个子库、基因组位置信息、生物学通路信息、microRNA靶基因信息、转录因子和已知疾病信息中的一种或多种。优选地,所述步骤(5)中,所述基因注释生物学信息包括但不限于以下数据库或信息:基因本体论数据库的三个子库、基因组位置信息、生物学通路信息、microRNA靶基因信息、转录因子和已知疾病信息。优选地,所述步骤(5)中,所述保留各阶段特异表达分组中可以富集到相同节点的分子的过程包括:对所得每个生物学功能节点的统计量p,设定阈值为0.05,如果统计值p大于阈值,则抛弃相应的节点;如果统计值p不大于阈值,则保留相应的节点,并保留富集到此节点的分子。第二方面,本专利技术提供了一种评价由生物芯片数据构建的多类别特异表达分子集分类能力的方法,包括以下步骤:S01、取如权利要求1步骤(5)所述的任一个类别特异表达分子集,每个分子集合中的样本数目记为mB,给每个分子集合标记组标签,记为G1…GB,其中,mB和B为自然数;S02、采用k均值聚类对所述m组数据进行分析,得到C类,给每个类标记类标签,记为K1…KC,每类中的样本数目记为SC,其中,SC和C为自然数;S03、对C类中的每个类别进行分析,将第KC类中来源于同一GB组的样本数进行统计,分别记为nG1…nGB,将nG1…nGB除以相应的样本数m1…mB进行标准化后,计算f_score的分值,计算的公式为:f_score=nGB/mB/SC,将每个C类中具有最大f_score的类标签记为该类的最终的类标签;S04、若得到C类最终类标签,且所述最终类标签互不相同,则说明如权利要求1步骤(5)所述的多类别特异表达分本文档来自技高网...
一种由生物芯片数据构建多类别特异表达分子集及类别网的方法及其应用和评价方法

【技术保护点】
一种由生物芯片数据构建多类别特异表达分子集及类别网的方法,其特征在于,包括以下步骤:(1)设置和输入n组芯片数据;(2)筛选多组间差异表达的分子,包括:对任意一个分子进行多组间的单因素方差分析,并为所得统计值设定阈值;判断所得统计值是否符合阈值要求,如果判断结果为否,则抛弃;如果判断结果为是,则输出识别结果,执行下一步;(3)通过统计学检验的方法计算多组间差异表达分子在任意两组间的表达差异,为所得统计值设定阈值;并针对多组间差异表达分子中的每个分子,构建长度为的向量,如果所得统计值高于阈值,则在向量中相应的位置记为0,反之,记为1,得到多组间差异表达分子中的每个分子的差异表达模式编码;(4)根据步骤(3)所得每个分子的差异表达模式编码将分子进行分组,其中,具有相同编码模式的分子归为同一组,得到m个阶段特异表达分组;(5)筛选多组间差异表达的分子,包括采用Fisher精确检验对所得m个阶段特异表达分组进行富集分析,包括:以基因注释生物学信息为对照,对各阶段特异表达分组中的每个分子进行注释,保留各阶段特异表达分组中可以富集到相同生物功能节点的分子,组成类别特异表达的分子集合;(6)根据类别特异分子集构建各状态间的连接网络,得到类别网。FDA0000435274630000011.jpg...

【技术特征摘要】
1.一种由生物芯片数据构建多类别特异表达分子集及类别网的方法,其特征在于,包括以下步骤:(1)设置和输入n组芯片数据;所述n不小于3,所述n组芯片数据的分组依据为根据不同生理状态将数据进行分组;(2)筛选多组间差异表达的分子,包括:对任意一个分子进行多组间的单因素方差分析,并为所得统计值设定阈值;判断所得统计值是否符合阈值要求,如果判断结果为否,则抛弃;如果判断结果为是,则输出识别结果,执行下一步;(3)通过统计学检验的方法计算多组间差异表达分子在任意两组间的表达差异,为所得统计值设定阈值;并针对多组间差异表达分子中的每个分子,构建长度为的向量,如果所得统计值高于阈值,则在向量中相应的位置记为0,反之,记为1,得到多组间差异表达分子中的每个分子的差异表达模式编码;(4)根据步骤(3)所得每个分子的差异表达模式编码将分子进行分组,其中,具有相同编码模式的分子归为同一组,得到m个阶段特异表达分组;(5)筛选多组间差异表达的分子,包括采用Fisher精确检验对所得m个阶段特异表达分组进行富集分析,包括:以基因注释生物学信息为对照,对各阶段特异表达分组中的每个分子进行注释,保留各阶段特异表达分组中可以富集到相同生物功能节点的分子,组成类别特异表达的分子集合;(6)根据类别特异分子集构建各状态间的连接网络,得到类别网。2.如权利要求1所述的由生物芯片数据构建多类别特异表达分子集及类别网的方法,其特征在于,所述步骤(1)中,所述n为不小于3的自然数,所述n组芯片数据的分组依据为根据不同生理状态将Q个样本数据进行分组,其中,Q为不小于3的自然数。3.如权利要求1所述的由生物芯片数据构建多类别特异表达分子集及类别网的方法,其特征在于,所述步骤(2)中,所述对任意一个分子进行多组间的单因素方差分析的方法为F分布检验,包括:为每个分子计算统计量p值,计算公式为p=P{F(r-1,n-r)>F};所述所得统计值设定的阈值为0.05;所述判断所得统计值是否符合阈值要求,如果判断结果为否,则抛弃;如果判断结果为是,则输出识别结果,执行下一步的过程包括:如果统计量p大于阈值,则抛弃此分子;如果统计量p不大于阈值,则输出识别结果,执行下一步,其中,所述阈值为0.05。4.如权利要求1所述的由生物芯片数据构建多类别特异表达分子集及类别网的方法,其特征在于,所述步骤(3)中,所述计算多组间差异表达分子在任意两组间的表达差异的统计学检验方法为t检验,所述为统计值设定的阈值为0.05。5.如权利要求1所述的...

【专利技术属性】
技术研发人员:王莹莹蔡云鹏
申请(专利权)人:深圳先进技术研究院
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1