【技术实现步骤摘要】
一种由生物芯片数据构建多类别特异表达分子集及类别网的方法及其应用和评价方法
本专利技术涉及生物信息学领域,具体涉及一种由生物芯片数据构建多类别特异表达分子集及类别网的方法及其应用和评价方法。
技术介绍
随着人类基因组测序的完成,基于高通量的生物芯片分析,可显著提高寻找生物学标记的能力,极大的提高制药业等行业的研发效率,加快产业化进程。一次芯片实验可获取大量分子的表达信息,如人类mRNA芯片可一次性检测3万左右的基因,人类microRNA芯片一次性可检测1千左右的microRNA。分析芯片数据最重要的步骤之一为合理的从大量分子表达信息中挖掘表达具有生物学意义的分子,即差异表达的分子。要进行差异表达的分析必须保证样本类别至少为两类。对于两类样本的芯片数据,传统的方法通常为倍数分析法或t检验。t检验可检测两类样本的分子表达值的均值间是否存在显著的统计学差异。对于多类样本,传统的方法为采用方差分析的方法。方差分析是从观测变量的方差入手,研究众多控制变量中哪些变量是对观测变量有显著影响的变量。但是,仅从统计学角度出发会导致结果不具备实际应用价值。因此,有必要提供一种兼顾统计分析、模式识别以及生物学意义对生物芯片数据进行差异表达分析,提高分析结果的实际应用价值的方法。
技术实现思路
为解决上述问题,本专利技术第一方面提供了一种由生物芯片数据构建多类别特异表达分子集及类别网的方法,该方法通过基于差异表达模式对生物芯片进行多类别的分析,综合了统计学分析、模式识别以及生物学意义的优势。该方法还构建了类别网络,有利于对疾病状态进展的预测,对临床的诊疗具有重要意义。本专利技术第二方 ...
【技术保护点】
一种由生物芯片数据构建多类别特异表达分子集及类别网的方法,其特征在于,包括以下步骤:(1)设置和输入n组芯片数据;(2)筛选多组间差异表达的分子,包括:对任意一个分子进行多组间的单因素方差分析,并为所得统计值设定阈值;判断所得统计值是否符合阈值要求,如果判断结果为否,则抛弃;如果判断结果为是,则输出识别结果,执行下一步;(3)通过统计学检验的方法计算多组间差异表达分子在任意两组间的表达差异,为所得统计值设定阈值;并针对多组间差异表达分子中的每个分子,构建长度为的向量,如果所得统计值高于阈值,则在向量中相应的位置记为0,反之,记为1,得到多组间差异表达分子中的每个分子的差异表达模式编码;(4)根据步骤(3)所得每个分子的差异表达模式编码将分子进行分组,其中,具有相同编码模式的分子归为同一组,得到m个阶段特异表达分组;(5)筛选多组间差异表达的分子,包括采用Fisher精确检验对所得m个阶段特异表达分组进行富集分析,包括:以基因注释生物学信息为对照,对各阶段特异表达分组中的每个分子进行注释,保留各阶段特异表达分组中可以富集到相同生物功能节点的分子,组成类别特异表达的分子集合;(6)根据类别 ...
【技术特征摘要】
1.一种由生物芯片数据构建多类别特异表达分子集及类别网的方法,其特征在于,包括以下步骤:(1)设置和输入n组芯片数据;所述n不小于3,所述n组芯片数据的分组依据为根据不同生理状态将数据进行分组;(2)筛选多组间差异表达的分子,包括:对任意一个分子进行多组间的单因素方差分析,并为所得统计值设定阈值;判断所得统计值是否符合阈值要求,如果判断结果为否,则抛弃;如果判断结果为是,则输出识别结果,执行下一步;(3)通过统计学检验的方法计算多组间差异表达分子在任意两组间的表达差异,为所得统计值设定阈值;并针对多组间差异表达分子中的每个分子,构建长度为的向量,如果所得统计值高于阈值,则在向量中相应的位置记为0,反之,记为1,得到多组间差异表达分子中的每个分子的差异表达模式编码;(4)根据步骤(3)所得每个分子的差异表达模式编码将分子进行分组,其中,具有相同编码模式的分子归为同一组,得到m个阶段特异表达分组;(5)筛选多组间差异表达的分子,包括采用Fisher精确检验对所得m个阶段特异表达分组进行富集分析,包括:以基因注释生物学信息为对照,对各阶段特异表达分组中的每个分子进行注释,保留各阶段特异表达分组中可以富集到相同生物功能节点的分子,组成类别特异表达的分子集合;(6)根据类别特异分子集构建各状态间的连接网络,得到类别网。2.如权利要求1所述的由生物芯片数据构建多类别特异表达分子集及类别网的方法,其特征在于,所述步骤(1)中,所述n为不小于3的自然数,所述n组芯片数据的分组依据为根据不同生理状态将Q个样本数据进行分组,其中,Q为不小于3的自然数。3.如权利要求1所述的由生物芯片数据构建多类别特异表达分子集及类别网的方法,其特征在于,所述步骤(2)中,所述对任意一个分子进行多组间的单因素方差分析的方法为F分布检验,包括:为每个分子计算统计量p值,计算公式为p=P{F(r-1,n-r)>F};所述所得统计值设定的阈值为0.05;所述判断所得统计值是否符合阈值要求,如果判断结果为否,则抛弃;如果判断结果为是,则输出识别结果,执行下一步的过程包括:如果统计量p大于阈值,则抛弃此分子;如果统计量p不大于阈值,则输出识别结果,执行下一步,其中,所述阈值为0.05。4.如权利要求1所述的由生物芯片数据构建多类别特异表达分子集及类别网的方法,其特征在于,所述步骤(3)中,所述计算多组间差异表达分子在任意两组间的表达差异的统计学检验方法为t检验,所述为统计值设定的阈值为0.05。5.如权利要求1所述的...
【专利技术属性】
技术研发人员:王莹莹,蔡云鹏,
申请(专利权)人:深圳先进技术研究院,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。