使用机器学习技术分析纳米孔信号制造技术

技术编号:29417724 阅读:19 留言:0更新日期:2021-07-23 23:08
使用机器学习技术分析在包括一系列聚合物单元的聚合物相对于纳米孔易位期间从所述聚合物导出的信号。输出一系列权重分布,每个权重分布包括关于一组标签上的标签之间的转换的权重,所述一组标签表示所述聚合物中的可能类型的聚合物单元。来自所述权重分布的所述一系列聚合物单元的估计值。关于所述转换的权重的使用提高了所述技术的准确度。

【技术实现步骤摘要】
【国外来华专利技术】使用机器学习技术分析纳米孔信号
本专利技术涉及对在聚合物(例如但不限于多核苷酸)相对于纳米孔易位期间从聚合物导出的信号的分析。
技术介绍
用于使用纳米孔估计聚合物中的聚合物单元的靶序列的测量系统是已知的,其中聚合物相对于纳米孔易位。系统的一些性质取决于纳米孔中的聚合物单元,并且进行所述性质的测量。性质取决于相对于纳米孔易位的聚合物单元的身份,并且因此,随时间变化的信号允许估计聚合物单元的序列。与孔的尺寸相比,每个聚合物单元可以非常小,从而允许多个聚合物单元在给定时间段内影响信号。由于聚合物链与纳米孔的相互作用、如缠绕或堆叠等链内性质或聚合物单元与用于控制其易位的任何系统之间的相互作用,也可以存在更长远的影响。信号形成必须被解码以估计潜在的聚合物单元的读段。这种纳米孔测量系统可以提供表示范围为数百到数十万(并且可能更多)个核苷酸的多核苷酸的连续长读段的信号。使用纳米孔的这种类型的测量系统具有相当大的前景,特别是在对如DNA或RNA等多核苷酸进行测序的领域中,并且已经成为最近发展的主题。然而,对聚合物单元的估计的准确度受到极其敏感的测量系统的限制。实际上,具有高准确度的估计需要机器学习技术,并且本专利技术涉及改善这种分析以增加估计准确度。早期分析技术使用了隐马尔可夫模型(HiddenMarkovModel,HMM),所述模型显式地对包括连续聚合物单元组的可能的k聚体进行建模。最近已经开发了使用递归神经网络(RNN)的技术。RNN的使用可以通过将远程信息考虑在内来提高准确度。随着读取速度的提高,RNN尤其有用,结果是像HMM等显式信号建模方法所基于的假设不那么有效。举例来说,Teng等人,“手性子:使用深度学习将纳米孔原始信号直接翻译为核苷酸序列(Chiron:Translatingnanoporerawsignaldirectlyintonucleotidesequenceusingdeeplearning)”,《大数据科学(Gigascience)》,2018年5月1日;7(5)[参考1]公开了使用向其输入原始信号的RNN对聚合物核苷酸进行测序的方法。RNN输出一系列后验概率分布,所述一系列后验概率分布包括关于表示四种可能类型的碱基以及空白的标签的后验概率。通过根据后验概率估计最可能的聚合物单元由链结式时间分类解码器对这些后验概率分布进行解码,以导出一系列聚合物单元的估计值。
技术实现思路
根据本专利技术的第一方面,提供了一种分析在聚合物相对于纳米孔易位期间从所述聚合物导出的信号的方法,所述聚合物包括属于一组可能类型的聚合物单元的一系列聚合物单元,所述方法包括:使用输出一系列权重分布的机器学习技术来分析所述信号,每个权重分布包括关于一组标签上的标签之间的转换的权重,所述一组标签包含表示所述可能类型的聚合物单元的标签;以及从所述权重分布导出所述一系列聚合物单元的估计值。所述一组标签可以包含表示空白和/或停留的标签。换句话说,可以说所述组表示可能类型的聚合物单元。转换可以在一个标签与另一个标签之间。转换可以在连续的标签之间。因此,所述方法提供的权重是指表示可能类型的聚合物单元,而不是表示包括k个聚合物单元的k聚体的标签。然而,所述方法导出关于标签之间的转换的权重,而不是关于标签本身的权重。此类方法提供了优于比较方法的优点,所述比较方法导出关于一组标签上的标签的一系列权重,所述一组标签包含表示可能类型的聚合物单元的标签。通过提供关于所述一组标签上的标签之间的转换的权重,提供了另外的信息,所述另外的信息允许以更准确的方式估计一系列聚合物单元。这是因为权重提供有关标签可能路径的信息,而关于标签的权重却不提供。例如,存在以下情况:通过关于标签的权重预测的特定位置的标签不正确,而考虑通过所述位置的标签路径可能会预测出正确的不同标签。以此方式,另外的信息被馈送到估计值中,从而提高了准确度。举例来说,此技术允许更好地估计重复序列的区域,例如均聚物,包含重复一个或多个聚合物单元的短序列的区域。优选地,不允许标签之间的至少一个转换并且允许其它转换,所述权重分布各自包括关于被允许的转换的权重。在所述情况下,权重分布可以各自包括关于不被允许的转换的零权重,或者导出一系列聚合物单元的估计值的步骤可以考虑表示是否允许或不允许标签之间的转换的转换矩阵。在一种类型的表示中,所述一组标签可以包含关于每种类型的聚合物单元的第一标签和第二标签,所述第一标签表示所述类型的聚合物单元的实例的开始,并且所述第二标签表示所述类型的聚合物单元的所述实例中的停留,其中允许任何其它类型的聚合物单元从每个第一标签转换到所述第一标签,允许相同类型的聚合物单元从每个第一标签转换到所述第一标签,允许相同类型的聚合物单元从每个第一标签转换到所述第二标签,不允许任何其它类型的聚合物单元从每个第一标签转换到所述第二标签,允许相同类型的聚合物单元从每个第二标签转换到所述第一标签或允许任何其它类型的聚合物单元从每个第二标签转换到所述第一标签,并且允许相同类型的聚合物单元从每个第二标签转换到所述第二标签,并且不允许任何其它类型的聚合物单元从每个第二标签转换到所述第二标签。“停留”表示其中所述方法确定标签不发生变化的情况,可以将其视为对应于聚合物单元的相同实例的两个权重分布。所述一组可能类型的聚合物单元可以包含总是以聚合物单元的已知序列出现的类型的聚合物单元,允许与所述已知序列一致的转换并且不允许与所述已知序列相反的转换。所述一系列聚合物单元中的相同类型的聚合物单元的标签连续实例可以编码形式表示。所述标签可以包含关于每种类型的聚合物单元的多个标签,例如两个标签,其中关于每种类型的聚合物单元的所述多个标签表示所述一系列聚合物单元中所述类型的聚合物单元的连续实例。用于每种类型的聚合物单元的所述多个标签可以具有预先确定的循环顺序,由此通过所述预先确定的循环顺序允许标签之间的一些转换并且通过所述预先确定的循环顺序不允许之间的其它转换,所述权重分布包含关于通过所述预先确定的循环顺序允许的转换的权重。所述一系列聚合物单元中的相同类型的聚合物单元的连续实例以游程长度编码形式表示。所述标签可以包含关于每种类型的聚合物单元的不同游程长度的标签。所述标签可以包含关于每种类型的聚合物单元的标签,并且对于每种类型的聚合物单元,所述权重分布可以包括在相同类型的聚合物单元的连续实例的可能长度上的另外的权重。对于每种类型的聚合物单元,所述另外的权重可以包括在相同类型的聚合物单元的连续实例的一组可能长度上的权重的分类分布。对于每种类型的聚合物单元,所述另外的权重可以包括在相同类型的聚合物单元的连续实例的连续实例的可能长度上的参数化分布的参数。如果可能类型的聚合物单元包含具有未修饰形式和修饰形式的类型的聚合物单元,则所述一组标签可以包含表示具有未修饰形式和经修饰形式的所述类型的聚合物单元的标签,并且每个权重分布可以包括具有未修饰形式和经修饰形式的聚合物单元的所述至少一种类型中的每种的所本文档来自技高网
...

【技术保护点】
1.一种分析在聚合物相对于纳米孔易位期间从所述聚合物导出的信号的方法,所述聚合物包括属于一组可能类型的聚合物单元的一系列聚合物单元,/n所述方法包括:/n使用输出一系列权重分布的机器学习技术来分析所述信号,每个权重分布包括关于一组标签上的标签之间的转换的权重,所述一组标签包含表示所述可能类型的聚合物单元的标签;以及/n从所述权重分布导出所述一系列聚合物单元的估计值。/n

【技术特征摘要】
【国外来华专利技术】20181128 GB 1819378.91.一种分析在聚合物相对于纳米孔易位期间从所述聚合物导出的信号的方法,所述聚合物包括属于一组可能类型的聚合物单元的一系列聚合物单元,
所述方法包括:
使用输出一系列权重分布的机器学习技术来分析所述信号,每个权重分布包括关于一组标签上的标签之间的转换的权重,所述一组标签包含表示所述可能类型的聚合物单元的标签;以及
从所述权重分布导出所述一系列聚合物单元的估计值。


2.根据权利要求1所述的方法,其中不允许标签之间的至少一个转换并且允许其它转换,所述权重分布各自包括关于被允许的转换的权重。


3.根据权利要求2所述的方法,其中所述权重分布各自包括关于不被允许的转换的零权重。


4.根据权利要求2或3所述的方法,其中导出所述一系列聚合物单元的估计值的步骤将表示是否允许或不允许标签之间的转换的转换矩阵考虑在内。


5.根据权利要求2到4中任一项所述的方法,其中
所述一组标签包含关于每种类型的聚合物单元的第一标签和第二标签,所述第一标签表示所述类型的聚合物单元的实例的开始,并且所述第二标签表示所述类型的聚合物单元的所述实例中的停留,其中
允许任何其它类型的聚合物单元从每个第一标签转换到所述第一标签,
允许相同类型的聚合物单元从每个第一标签转换到所述第一标签,
允许相同类型的聚合物单元从每个第一标签转换到所述第二标签,
不允许任何其它类型的聚合物单元从每个第一标签转换到所述第二标签,
允许相同类型的聚合物单元从每个第二标签转换到所述第一标签或允许任何其它类型的聚合物单元从每个第二标签转换到所述第一标签,并且
允许相同类型的聚合物单元从每个第二标签转换到所述第二标签,并且
不允许任何其它类型的聚合物单元从每个第二标签转换到所述第二标签。


6.根据权利要求2到5中任一项所述的方法,其中所述一组可能类型的聚合物单元包含总是以聚合物单元的已知序列出现的类型的聚合物单元,允许与所述已知序列一致的转换并且不允许与所述已知序列相反的转换。


7.根据前述权利要求中任一项所述的方法,其中所述一系列聚合物单元中的相同类型的聚合物单元的连续实例以编码形式表示。


8.根据权利要求7所述的方法,其中所述标签包含关于每种类型的聚合物单元的多个标签,其中关于每种类型的聚合物单元的所述多个标签表示所述一系列聚合物单元中所述类型的聚合物单元的连续实例。


9.根据权利要求8所述的方法,其中用于每种类型的聚合物单元的所述多个标签具有预先确定的循环顺序,由此通过所述预先确定的循环顺序允许标签之间的一些转换并且通过所述预先确定的循环顺序不允许之间的其它转换,所述权重分布各自包含关于通过所述预先确定的循环顺序允许的转换的权重。


10.根据权利要求8或9所述的方法,其中用于每种类型的聚合物单元的所述多个标签是用于每种类型的聚合物单元的两个标签。


11.根据权利要求7所述的方法,其中所述一系列聚合物单元中的相同类型的聚合物单元的连续实例以游程长度编码形式表示。


12.根据权利要求11所述的方法,其中所述标签包含关于每种类型的聚合物单元的不同游程长度的多个标签。


13.根据权利要求11所述的方法,其中
所述标签包含关于每种类型的聚合物单元的标签,并且
对于每种类型的聚合物单元,所述权重分布包括在相同类型的聚合物单元的连续实例的可能长度上的另外的权重。


14.根据权利要求13所述的方法,其中对于每种类型的聚合物单元,所述另外的权重包括在相同类型的聚合物单元的连续实例的一组可能长度上的权重的分类分布。


15.根据权利要求13所述的方法,其中对于每种类型的聚合物单元,所述另外的权重包括在相同类型的聚合物单元的连续实例的可能长度上的参数化分布的参数。


16.根据权利要求13到15中任一项所述的方法,其中(a)对于给定聚合物单元的类型和先前聚合物单元的类型的可能对、(b)对于给定聚合物单元的类型和后续聚合物单元的类型的可能对,或(c)对于给定聚合物单元的类型、先前聚合物单元的类型和后续聚合物单元的类型的可能三联体,所述权重分布包括在相同类型的聚合物单元的连续实例的可能长度上的另外的权重。


17.根据前述权利要求中任一项所述的方法,其中所述可能类型的聚合物单元包含具有未修饰形式和经修饰形式的类型的聚合物单元。


18.根据权利要求17所述的方法,其中所述一组标签包含关于具有未修饰形式和经修饰形式的所述类型的聚合物单元的标签。


19.根据权利要求18所述的方法,其中对于具有所述未修饰形式和所述经修饰形式的所述类型的聚合物单元中的每个聚合物单元的所述未修饰形式和所述经修饰形式,每个权重分布包括另外的权重。


20.根据前述权利要求中任一项所述的方法,其中所述一组标签包含至少一个表示每种类型的聚合物单元的标签。


21.根据前述权利要求中任一项所述的方法,其中所述一组标签进一步包含至少一个表示所述一系列聚合物单元中的空白和/或停留的标签。


22.根据前述权利要求中任一项所述的方法,其中所述机器学习技术是包括至少一个递归层的神经网络。


23.根据权利要求22所述的方法,其中所述至少一个递...

【专利技术属性】
技术研发人员:蒂莫西·L·马辛厄姆
申请(专利权)人:牛津纳米孔科技公司
类型:发明
国别省市:英国;GB

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1