转录本确定方法技术

技术编号:13035460 阅读:79 留言:0更新日期:2016-03-17 11:10
本发明专利技术涉及一种估计转录本丰度的方法,所述方法包括以下步骤:a)从所关心的遗传基因座的转录本的潜在混合物中获取转录本片段测序数据;b)将所述片段测序数据分配给所关心的基因座的遗传基因坐标,从而获得片段遗传基因坐标覆盖的数据集,各遗传基因坐标的覆盖相结合形成覆盖包络曲线;c)设置所述混合物的转录本的数量;d)为每个转录本i预先设置建模的基因覆盖的概率分布函数,i代表转录本的数值标识,其中所述概率分布函数由所述转录本i的权重因子αi与至少2个概率子函数j之和的数学乘积构成,j代表概率子函数的数值标识,每个概率子函数j用权重因子βi,j独立地加权;e)将每个转录本的概率分布函数相加,获得和函数;f)使所述和函数拟合到所述覆盖包络曲线,从而优化αi与βi,j的值来提高拟合;g)重复步骤e)和f),直到预先设置的收敛判据已经得到满足,从而获得所述混合物的每个转录本的估计转录本丰度,所述的估计转录本丰度用在收敛判据已经得到满足之后经优化的权重因子αi表示。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及基于下一代测序(NGS)的测序序列(read)提供转录本(例如mRNA) 丰度的信息。
技术介绍
下一代测序技术在对核酸样品测序时产生了大量短的测序序列。下一代测序中的 一个必要步骤是文库制备或简称为"文库制备(librarypr印)"。这个过程以mRNA或cDNA 作为输入,产生短的cDNA片段的文库,每个短的cDNA片段对应一段mRNA分子。然后通过 NGS测序仪对这些片段测序,通常不是全部测序,而是在它们的起点和/或末端处部分地测 序。这样就产生了短的核苷酸序列,它们被称为测序序列,并且最常见的是通过NGS测序仪 存储为1组代表遗传密码的核碱基的四个ASCII字符(例如,A、C、G、T或0、1、2、3)的序 列。为了推断出原始样品中存在哪些mRNA分子,将这些测序序列定位到参考基因组上。 下一代测序已经被用于各种基因组定位程序(US2013/110410A1)或DNA鉴定 方法中,例如,通过利用定位的基因组将序列的测序序列与某个生物体变体关联起来(W0 2009/085412A1)〇W02009/091798A1记载了一种获取生物体的转录组图谱(profile)的方法,所述 方法包括:对一个或多个cDNA分子测序以获得测序序列;将每个测序序列与参考序列比 对。然而,现有的方法所不知道的是,使用短序列的测序序列的转录组分析的基本的主要问 题是多个转录本变体例如序列偏差不同的同种型(例如,基因的品系差异、点突变或一种 蛋白的剪接变体)情况下的比对步骤。通常难以将短序列的测序序列与一种转录本变体正 确地比对。 基于序列的测序序列来组装转录本测序数据的最常用的方法为"Cufflinks"方法 (Trapnell等,2010)。Cufflinks构建了一个过于简约的转录本集合,这些转录本"解释" 了RNA-Seq试验中观测到的测序序列。Cufflinks是这样来进行的,即将对比组装问题简 化为二分图中最大匹配中的问题。实质上,Cufflinks通过构建关于测序序列比对的覆盖 关系和为该关系在有向非循环图(directedacyclicgraph)上寻找最小路径覆盖,实现了 Dil-worth定理的构造性证明。采用这种统计方法,Cufflinks利用已知的参考注释,或者 在对仅使用参考基因组的转录本从头组装之后能够估计出样品中存在的转录本同种型的 丰度。Cufflinks采用双末端(paired-end)测序试验的统计模型,在给定片段集合的条件 下得出了转录本集合的丰度的似然。该似然函数能够被证明具有唯一的最大值,Cufflinks 采用数值最优化算法找到了该值。然后,程序放大这些概率以在给定转录本的拟用丰度的 条件下计算在试验中会观测到片段的总似然。由于Cufflinks的统计模型是线性的,因此 似然函数具有唯一的最大值,Cufflinks采用数值最优化算法找到了该值。 Roberts等(2011)涉及通过校正片段偏差来提高RNA-Seq表达估计值的方法。 Wen-Ping等(2007)记载了混合建模自然种群中转录本丰度类别。 现有的方法未能正确地区分转录本变体,并且未能获得与其他转录本有关的正确 的转录本数量或丰度。如本文中通过比较所示,甚至Cufflinks方法在几次试验中也未能 得出正确的转录本丰度信息。 本专利技术的目的是提供使转录本丰度的评价更加准确的改进方法。
技术实现思路
本专利技术提供一种估计转录本丰度的方法,所述方法包括以下步骤: a)从所关心的遗传基因座中的转录本的潜在混合物中获取转录本片段测序数 据; b)将所述片段测序数据分配给所关心的所述基因座的遗传基因坐标,从而获得片 段遗传基因坐标覆盖的数据集,各遗传基因坐标的所述覆盖相结合形成覆盖包络曲线(也 称为总覆盖直方图或总直方图(histogramoftotal)); c)设置所述混合物的转录本的数量;d)为每个转录本i预先设置建模的基因覆盖的概率分布函数,i代表转录本的数 值标识,其中所述概率分布函数由所述转录本i的权重因子ai与至少2个概率子函数j之 和的数学乘积构成,j代表概率子函数的数值标识,每个概率子函数j用权重因子βu独立 地加权;e)将每个转录本的概率分布函数相加,获得和函数;f)使所述和函数拟合到所述覆盖包络曲线,从而优化α占βU的值以提高拟 合;g)重复步骤e)和f),直到预先设置的收敛判据已经得到满足,从而获得所述混合 物的每个转录本的估计转录本丰度,所述的估计转录本丰度用在收敛判据已经得到满足之 后经优化的权重因子ai表示。 本专利技术还提供一种利用该方法的计算机程序产品,例如包含用于在计算机上执行 或协助所述方法和步骤的机器代码的计算机程序产品。计算机程序产品可设置在任何种类 的存储设备上。还提供了一种系统(例如计算机设备),其被编程以协助执行本专利技术的方法 的步骤。计算步骤通常无需操作者的帮助即可进行。输入与设置步骤可通过程序或系统来 协助进行,例如通过提示步骤d)中概率子函数的数量与类型的选项建议。当然,该程序或 系统也可用默认参数来执行,而无需来自操作者的进一步输入。 除了被明确指出的之外,如下的详细说明和优选的实施方式适用于本专利技术的各个 方面,并且能够不受限制地相互结合。优选的各实施方式和方面在权利要求书中进行了定 义。【具体实施方式】 本专利技术使用数值方法从转录本片段序列的样品获得转录本丰度信息。 该方法(NGS)将测序序列(通常称为转录本片段序列)与参考序列(例如参考基 因组)比对,从而获得遗传覆盖信息(步骤b)。用于此目的的现有的统计工具常常对观测 到的数据的性质进行不切实际的假定,因此对转录本浓度的估计不准确。某些最广泛使用 的工具(例如Cufflinks)假定沿转录本的测序序列的分布不均匀,这与目前的mRNA-Seq 方案(mRNA-Seqprotocol)相矛盾。本专利技术提供一种统计模型,该统计模型能够同时得知 沿转录本的测序序列分布的偏差以及转录本丰度。为此,通过与拟合步骤中的转录本丰度 一起训练的混合函数建模转录本的测序序列或片段分布。拟合步骤中所使用的方法可以从 现有的最大化或最小化程序(例如使用期望最大化算法的最大似然框架)中推导出来。由 于本专利技术的模型中的测序序列的总概率分布是混合的混合,因此将这种模型称为Mix2 (读 作混合的平方)模型。下文表明Mix2模型是非常通用的,并且通过可选参数绑定可以被调 整为数据所固有的不同结构。特别地,用于获得转录本丰度的方法可适用于与转录本相关 的概率分布。试验表明Mix2模型实现的转录本丰度的估计明显好于Cufflinks程序中所使 用的统计模型。即使从不准确的转录本注释开始,Mix2模型也能够从数据中得知正确的注 释,并产生远远优于现有技术的丰度估计。由于在拟合步骤过程中优秀的学习能力,因此初 始参数(例如在分配步骤a)过程中或者在步骤d)中选择(例如随机的)概率分布函数的 过程中所选择的初始参数)不是至关重要的。甚至所假定的转录本的数量也可以不同。有 可能错误的转录本注释或转录本数量假定会通过例如使1个或多个转录本的概率分布函 数拟合到丰度为〇来校正。能够被建模为概率的权重因子α将表示收敛后的转录本的丰 度。 本文本文档来自技高网
...

【技术保护点】
一种估计转录本丰度的方法,所述方法包括以下步骤:a)从所关心的遗传基因座的转录本的潜在混合物中获取转录本片段测序数据;b)将所述片段测序数据分配给所关心的基因座的遗传基因坐标,从而获得片段遗传基因坐标覆盖的数据集,各遗传基因坐标的所述覆盖相结合,形成覆盖包络曲线;c)设置所述混合物的转录本的数量;d)为每个转录本i预先设置建模的基因覆盖的概率分布函数,i代表转录本的数值标识,其中所述概率分布函数通过至少2个概率子函数j之和与所述转录本i的权重因子αi相乘来定义,j代表概率子函数的数值标识,每个概率子函数j用权重因子βi,j独立地加权;e)将每个转录本的概率分布函数相加,获得和函数;f)使所述和函数拟合到所述覆盖包络曲线,从而优化αi与βi,j的值来提高拟合;g)重复步骤e)和f),直到预先设置的收敛判据已经得到满足,从而获得所述混合物的每个转录本的估计转录本丰度,所述的估计转录本丰度用在收敛判据已经得到满足之后经优化的权重因子αi表示。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:安德烈亚斯·蒂尔克
申请(专利权)人:莱克斯奥根有限公司
类型:发明
国别省市:奥地利;AT

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1