System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及在聚合物(例如但不限于多核苷酸)相对于纳米孔易位期间对从所述聚合物中的聚合物单元获取的测量结果进行分析。
技术介绍
1、用于估计聚合物中聚合物单元的目标序列的一种类型的测量系统使用纳米孔,并且聚合物相对于纳米孔易位。该系统的一些性质取决于纳米孔中的聚合物单元,并且对所述性质进行测量。这种使用纳米孔的测量系统具有相当大的前景,特别是在对如dna或rna等多核苷酸进行测序的领域中,并且已经成为最近发展的主题。
技术实现思路
1、这种纳米孔测量系统可以提供对多核苷酸的长时间连续读取,读取范围从数百到数十万(并且可能更多)个核苷酸不等。以这种方式收集的数据包括测量结果,如离子电流的测量结果,其中序列相对于纳米孔的敏感部分的每次易位可能导致测量性质的变化。
2、根据本专利技术的第一方面,提供了一种在聚合物相对于纳米孔易位期间对从所述聚合物获取的一系列测量结果进行分析的方法,所述聚合物包括一系列聚合物单元,所述方法包括使用机器学习技术分析所述一系列测量结果并导出对应于相应测量结果或相应测量结果组的一系列后验概率矩阵,每个后验概率矩阵表示:就聚合物单元的对应于相应测量之前或之后的测量结果的不同相应历史序列而言,聚合物单元的所述相应历史序列的多个不同变化的后验概率产生新的聚合物单元序列。
3、表示后验概率的所述一系列后验概率矩阵提供了关于所述一系列聚合物单元的改进信息,测量结果从所述一系列聚合物单元中获取并且可以用于多种应用中。所述一系列后验概率矩阵可以用于导
4、许多应用涉及从所述一系列后验概率矩阵导出所述一系列聚合物单元的估计值。这可以是所述一系列聚合物单元整体上的估计值。这可以通过从所有可能的系列中找到得分最高的此类系列来完成。例如,这可以通过估计通过所述一系列后验概率矩阵的最可能路径来执行。
5、可替代地,可以通过选择最可能对应于所述一系列后验概率矩阵的一组多个参考系列聚合物单元中的一个来找到所述一系列聚合物单元的估计值,例如基于得分。
6、通过估计所述聚合物的所述一系列聚合物单元与参考系列聚合物单元之间的差异,可以找到所述一系列聚合物单元的另一种类型的估计值。这可以通过对所述参考系列的变化进行评分来完成。
7、可替代地,所述估计可以是对所述一系列聚合物单元的部分的估计。例如,可以估计所述一系列聚合物单元的部分是否为参考系列聚合物单元。这可以通过针对所述一系列后验概率矩阵的部分对所述参考序列进行评分来完成。
8、这种方法提供了优于比较方法的优势,所述比较方法导出表示多个不同聚合物单元序列的后验概率的一系列后验概率向量。具体地税,所述一系列后验概率矩阵为这种后验概率向量提供另外的信息,从而允许以更准确的方式对所述一系列聚合物单元进行估计。举例来说,这一技术允许更好地估计重复序列的区域,包含重复一个或多个聚合物单元的短序列的区域。对均聚物进行更好的估计是重复区域中的优势的特定实例。
9、为了直观地了解为什么存在这种优势,考虑预测包裹将在哪一天交付的问题。每个包裹的到达类似于将预测的聚合物序列扩展一个单元。预测状态的模型(例如等人,《deepnano:用于微纳孔读取中的基础调用的深度递归神经网络(deepnano:deeprecurrent neural networks for base calling in minion nanopore reads)》,康奈尔大学网站,2016年3月)将产生在未来每一天递送包裹的概率。如果交付日期存在很大的不确定性,那么在任何特定日期交付包裹的概率可能低于50%,在这种情况下,根据模型,最可能的事件序列是包裹永远不会交付。另一方面,预测相对于历史状态的变化的模型可能针对每一天产生2个概率:1)如果包裹尚未交付,则交付的概率随着更多天数过去而增加,以及2)如果包裹已经交付,则交付的概率将始终为0。与之前的模型不同,这一模型始终预测包裹最终会交付。
10、类似地,与预测相对于历史的变化的模型相比,基于状态的模型往往会低估重复聚合物序列的长度。这为均聚物序列提供了特别的优势,因为由均聚物产生的一系列测量结果往往非常相似,从而使得难以将测量结果分配给每个另外的聚合物单元。
11、在纳米孔测序的背景下确定均聚物区域是特别具有挑战性的,所述纳米孔测序涉及以逐步方式通过纳米孔将聚合物链(例如多核苷酸链)易位,例如通过酶促分子马达的方式。在易位期间测量的电流通常取决于多个核苷酸并且可以近似于特定数量的核苷酸。当在酶控制下易位时,所述多核苷酸链通常一次移动通过纳米孔一个碱基。因此,对于均聚物长度长于产生电流信号的近似核苷酸数的多核苷酸链,可能难以确定均聚物区域中聚合物单元的数量。本专利技术的一个方面旨在改进对均聚物区域的确定。
12、机器学习技术可以采用递归神经网络,其可以任选地是双向递归神经网络和/或包括多个层。
13、后验概率表示的变化具有例如以下各种不同的可能性。
14、所述变化可以包含以下变化:从聚合物单元的历史序列的起点或末端移除单个聚合物单元,以及将单个聚合物单元添加到聚合物单元的历史序列的末端或起点。
15、所述变化可以包含以下变化:从聚合物单元的历史序列的起点或末端移除两个或更多个聚合物单元,以及将两个或更多个聚合物单元添加到聚合物单元的历史序列的末端或起点。
16、所述变化可以包含空变化。
17、所述方法可以采用事件调用并将机器学习技术应用于从每个事件导出的量。例如,所述方法可以包括:将所述一系列测量结果中的连续测量结果组识别为属于共同事件;从每个经过识别的测量结果组中导出一个或多个量;以及使用所述机器学习技术对从每个经过识别的测量结果组中导出的一个或多个量进行操作。所述方法可以对所述量的窗口进行操作。所述方法可以导出对应于相应经过识别的测量结果组(其通常含有先验未知且可以是可变的多个测量结果)的后验概率矩阵,因此所述后验概率矩阵与所述测量结果之间的关系取决于经过识别的组中的测量结果的数量。
18、所述方法可以可替代地将所述机器学习技术应用于所述测量结果本身。在这种情况下,所述方法可以导出对应于相应测量结果或相应预定数量测量结果的组的后验概率矩阵,因此预先确定所述后验概率矩阵与所述测量结果之间的关系。
19、例如,对所述一系列测量结果进行的分析可以包括:在所述一系列测量结果的连续窗口中对连续测量结果执行卷积,以导出关于每个窗口的特征向量;以及使用所述机器学习技术对所述特征向量进行操作。所述窗口可以是重叠的窗口。可以通过使用经过训练的特征检测器(例如卷积神经网络)对所述一系列测量结果进行操作来执行所述卷积。
20、根据本专利技术的第二方面,提供了一种在聚合物相对于纳米孔易位期间对从所述聚合物获取的本文档来自技高网...
【技术保护点】
1.一种在聚合物相对于纳米孔易位期间对从所述聚合物获取的一系列测量结果进行分析的方法,所述聚合物包括一系列聚合物单元,所述方法包括:
2.根据权利要求1所述的方法,其中所述窗口是重叠的窗口。
3.根据权利要求1所述的方法,其中在所述一系列测量结果中对连续测量结果执行卷积的步骤包括使用经过训练的特征检测器对所述一系列测量结果进行操作。
4.根据权利要求3所述的方法,其中所述经过训练的特征检测器是卷积神经网络。
5.根据权利要求1到4中任一项所述的方法,其中所述递归神经网络是双向递归神经网络。
6.根据权利要求1到5中任一项所述的方法,其中所述递归神经网络包括多个层。
7.根据前述权利要求中任一项所述的方法,其中所述纳米孔是生物孔。
8.根据前述权利要求中任一项所述的方法,其中所述聚合物是多核苷酸,并且所述聚合物单元是核苷酸。
9.根据权利要求8所述的方法,其中所述多核苷酸包括均聚物区域。
10.根据前述权利要求中任一项所述的方法,其中所述测量结果包括电流测量结果、阻抗测量结果
11.根据前述权利要求中任一项所述的方法,所述方法在计算机设备中执行。
12.根据前述权利要求中任一项所述的方法,其中所述一系列测量结果是以至少10个聚合物单元每秒,优选地100个聚合物单元每秒,更优选地500个聚合物单元每秒或更优选地1000个聚合物单元每秒的速率获取的一系列测量结果。
13.根据前述权利要求中任一项所述的方法,其进一步包括获取所述一系列测量结果。
14.根据权利要求13所述的方法,其进一步包括:在所述纳米孔的一侧上提供聚合物分析物以及提供允许所述聚合物易位通过所述纳米孔的条件,其中在所述聚合物相对于所述纳米孔易位期间获取所述一系列测量结果。
15.一种分析系统,其被布置成执行根据权利要求1到12中任一项所述的方法。
16.一种纳米孔测量和分析系统,其包括:
...【技术特征摘要】
1.一种在聚合物相对于纳米孔易位期间对从所述聚合物获取的一系列测量结果进行分析的方法,所述聚合物包括一系列聚合物单元,所述方法包括:
2.根据权利要求1所述的方法,其中所述窗口是重叠的窗口。
3.根据权利要求1所述的方法,其中在所述一系列测量结果中对连续测量结果执行卷积的步骤包括使用经过训练的特征检测器对所述一系列测量结果进行操作。
4.根据权利要求3所述的方法,其中所述经过训练的特征检测器是卷积神经网络。
5.根据权利要求1到4中任一项所述的方法,其中所述递归神经网络是双向递归神经网络。
6.根据权利要求1到5中任一项所述的方法,其中所述递归神经网络包括多个层。
7.根据前述权利要求中任一项所述的方法,其中所述纳米孔是生物孔。
8.根据前述权利要求中任一项所述的方法,其中所述聚合物是多核苷酸,并且所述聚合物单元是核苷酸。
9.根据权利要求8所述的方法,其中所述多核苷酸包括均聚物区域。
...
【专利技术属性】
技术研发人员:蒂莫西·李·马辛厄姆,约瑟夫·爱德华·哈尔韦,
申请(专利权)人:牛津楠路珀尔科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。